驗證與改進

開發中

此章節正在密切開發更新中，相關文件可能不是最準確的狀態。如有疑問，請聯繫我們。

你已經建立了 Agent，它運作得不錯。但當你想修改設定時，心裡可能會有個聲音：

「改了之後，原本回答正確的問題會不會變錯？」

這就是測試案例（Test Suite）的價值 —— 幫你把「Agent 應該怎麼回答」記錄下來，每次修改後一鍵驗證，確保品質不退步。

為什麼需要測試案例？

想像一下這個場景：

你的 Agent 原本能正確回答「退貨政策是什麼？」
你修改了 Instruction，想讓回答更簡潔
修改後，Agent 對新問題回答得更好了
但你沒注意到，「退貨政策」的回答變得不完整了

有了測試案例，你可以：

在修改前：把重要的問答記錄下來
在修改後：一鍵執行測試，立刻知道有沒有「退步」

第一步：從對話紀錄發現問題

查看對話紀錄

在 Agent Editor 或對話紀錄中，找出「不夠理想」的回答：

Agent 回答錯誤或不完整
語氣不符合品牌形象
沒有使用正確的資料來源
回答太冗長或太簡短

分析問題類型

問題類型	可能原因	改進方向
回答錯誤	Instruction 不夠明確	加入更具體的規則
資訊不完整	資料來源缺漏	補充知識庫內容
語氣不對	沒有定義語氣規範	在 Instruction 中加入語氣要求
回答離題	沒有設定範圍限制	定義 Agent 的專長範圍

第二步：建立測試案例

把「這題應該怎麼回答」記錄成測試案例，作為品質標準。

進入測試案例頁面

進入工作空間，選擇要測試的 Agent
點擊「Test Suite」分頁

新增測試案例

點擊「Add Case」，填寫：

欄位	說明	範例
輸入（Input）	使用者會問的問題	「退貨政策是什麼？」
預期回答（Ideal Response）	理想的回答內容（選填）	「購買後 7 天內可退貨，需保持商品完整...」
標準（Standard）	評分的依據	「必須提到 7 天期限和完整性要求」

建議

先從「最重要的問題」開始建立測試案例。不需要一次建立很多，5-10 個核心案例就能提供很好的保護。

批次匯入

如果有很多案例，可以用 CSV 檔案批次匯入：

question,expected_output
"退貨政策是什麼？","購買後 7 天內可退貨"
"營業時間是幾點？","週一至週五 9:00-18:00"

點擊「Upload CSV」上傳檔案即可。

第三步：執行測試

手動執行

選擇要測試的案例（或點擊「Run All」執行全部）
選擇驗證規則（Validator）
點擊「Run」開始測試

查看結果

測試完成後，你會看到：

項目	說明
AI Response	Agent 實際的回答
Grade	符合標準的程度（0-100%）
Explanation	為什麼給這個分數

解讀分數

80% 以上：回答符合標準
50-80%：部分符合，可能需要微調
50% 以下：明顯不符合，需要檢視設定

第四步：調整設定

根據測試結果，調整 Agent 設定：

改進 Instruction

測試發現的問題	調整方式
回答太冗長	加入「請簡潔回答，控制在 100 字以內」
忘記使用正確語言	在開頭強調「請使用繁體中文回答」
漏掉關鍵資訊	加入「回答時務必提及...」
語氣太正式/太隨意	定義語氣範例

調整知識來源

如果 Agent 無法回答某些問題：

確認相關資料已連接到工作空間
檢查資料同步狀態是否完成
確認 Agent 設定中已選擇該資料來源

第五步：重新測試並發布

重新執行測試：確認所有案例都通過
發布新版本：確認沒問題後，發布 Agent 更新
保存版本：Codeer.ai 會自動記錄版本歷史，方便日後回滾

進階：設定驗證規則（Validator）

驗證規則定義「什麼叫做好的回答」，讓測試結果更一致、更符合你的標準。

內建驗證規則

Codeer.ai 提供幾種常用的驗證方式：

關鍵字檢查：回答是否包含特定關鍵字
相似度比對：回答與預期回答的相似程度
AI 評分：用 AI 判斷回答品質

自訂驗證規則

點擊「Manage Validators」可以建立自訂規則：

給規則一個名稱（例如「客服語氣檢查」）
設定評分標準（例如「必須使用敬語、不能有錯字」）
儲存後即可在測試時選用

最佳實踐

什麼時候該建立測試案例？

✅ 發現 Agent 回答不理想時，先建立案例再修復
✅ 重要功能上線前，建立核心問答的測試案例
✅ 收到使用者回饋時，把問題轉成測試案例

測試案例要建幾個？

Agent 複雜度	建議案例數
簡單（單一用途）	5-10 個
中等（多種問答）	10-30 個
複雜（多領域）	30+ 個

多久執行一次測試？

每次修改 Instruction 後：必須執行
更新知識來源後：建議執行
定期檢查：每週或每月執行一次，確保品質穩定

常見問題

分數多少算好？

這取決於你的使用場景。建議先執行一次測試建立「基準線」，之後的目標是「不低於基準線」。如果大部分案例都在 80% 以上，表示 Agent 表現穩定。

測試案例會影響 Agent 的回答嗎？

不會。測試案例只用於驗證，不會影響 Agent 的實際行為。

可以測試不同版本的 Agent 嗎？

可以。在執行測試時，你可以選擇要測試的 Agent 版本，方便比較不同版本的表現。

如何讓團隊一起維護測試案例？

邀請團隊成員到工作空間，他們就可以一起新增和編輯測試案例。

下一步

測試通過後，你可以：

發布 Agent - 讓使用者開始使用
與團隊協作 - 邀請團隊成員一起維護