跳轉到

驗證與改進

開發中

此章節正在密切開發更新中,相關文件可能不是最準確的狀態。如有疑問,請聯繫我們。

你已經建立了 Agent,它運作得不錯。但當你想修改設定時,心裡可能會有個聲音:

「改了之後,原本回答正確的問題會不會變錯?」

這就是測試案例(Test Suite)的價值 —— 幫你把「Agent 應該怎麼回答」記錄下來,每次修改後一鍵驗證,確保品質不退步。

為什麼需要測試案例?

想像一下這個場景:

  1. 你的 Agent 原本能正確回答「退貨政策是什麼?」
  2. 你修改了 Instruction,想讓回答更簡潔
  3. 修改後,Agent 對新問題回答得更好了
  4. 但你沒注意到,「退貨政策」的回答變得不完整了

有了測試案例,你可以:

  • 在修改前:把重要的問答記錄下來
  • 在修改後:一鍵執行測試,立刻知道有沒有「退步」

第一步:從對話紀錄發現問題

查看對話紀錄

在 Agent Editor 或對話紀錄中,找出「不夠理想」的回答:

  • Agent 回答錯誤或不完整
  • 語氣不符合品牌形象
  • 沒有使用正確的資料來源
  • 回答太冗長或太簡短

分析問題類型

問題類型 可能原因 改進方向
回答錯誤 Instruction 不夠明確 加入更具體的規則
資訊不完整 資料來源缺漏 補充知識庫內容
語氣不對 沒有定義語氣規範 在 Instruction 中加入語氣要求
回答離題 沒有設定範圍限制 定義 Agent 的專長範圍

第二步:建立測試案例

把「這題應該怎麼回答」記錄成測試案例,作為品質標準。

進入測試案例頁面

  1. 進入工作空間,選擇要測試的 Agent
  2. 點擊「Test Suite」分頁

新增測試案例

點擊「Add Case」,填寫:

欄位 說明 範例
輸入(Input) 使用者會問的問題 「退貨政策是什麼?」
預期回答(Ideal Response) 理想的回答內容(選填) 「購買後 7 天內可退貨,需保持商品完整...」
標準(Standard) 評分的依據 「必須提到 7 天期限和完整性要求」

建議

先從「最重要的問題」開始建立測試案例。不需要一次建立很多,5-10 個核心案例就能提供很好的保護。

批次匯入

如果有很多案例,可以用 CSV 檔案批次匯入:

question,expected_output
"退貨政策是什麼?","購買後 7 天內可退貨"
"營業時間是幾點?","週一至週五 9:00-18:00"

點擊「Upload CSV」上傳檔案即可。

第三步:執行測試

手動執行

  1. 選擇要測試的案例(或點擊「Run All」執行全部)
  2. 選擇驗證規則(Validator)
  3. 點擊「Run」開始測試

查看結果

測試完成後,你會看到:

項目 說明
AI Response Agent 實際的回答
Grade 符合標準的程度(0-100%)
Explanation 為什麼給這個分數

解讀分數

  • 80% 以上:回答符合標準
  • 50-80%:部分符合,可能需要微調
  • 50% 以下:明顯不符合,需要檢視設定

第四步:調整設定

根據測試結果,調整 Agent 設定:

改進 Instruction

測試發現的問題 調整方式
回答太冗長 加入「請簡潔回答,控制在 100 字以內」
忘記使用正確語言 在開頭強調「請使用繁體中文回答」
漏掉關鍵資訊 加入「回答時務必提及...」
語氣太正式/太隨意 定義語氣範例

調整知識來源

如果 Agent 無法回答某些問題:

  1. 確認相關資料已連接到工作空間
  2. 檢查資料同步狀態是否完成
  3. 確認 Agent 設定中已選擇該資料來源

第五步:重新測試並發布

  1. 重新執行測試:確認所有案例都通過
  2. 發布新版本:確認沒問題後,發布 Agent 更新
  3. 保存版本:Codeer.ai 會自動記錄版本歷史,方便日後回滾

進階:設定驗證規則(Validator)

驗證規則定義「什麼叫做好的回答」,讓測試結果更一致、更符合你的標準。

內建驗證規則

Codeer.ai 提供幾種常用的驗證方式:

  • 關鍵字檢查:回答是否包含特定關鍵字
  • 相似度比對:回答與預期回答的相似程度
  • AI 評分:用 AI 判斷回答品質

自訂驗證規則

點擊「Manage Validators」可以建立自訂規則:

  1. 給規則一個名稱(例如「客服語氣檢查」)
  2. 設定評分標準(例如「必須使用敬語、不能有錯字」)
  3. 儲存後即可在測試時選用

最佳實踐

什麼時候該建立測試案例?

  • ✅ 發現 Agent 回答不理想時,先建立案例再修復
  • ✅ 重要功能上線前,建立核心問答的測試案例
  • ✅ 收到使用者回饋時,把問題轉成測試案例

測試案例要建幾個?

Agent 複雜度 建議案例數
簡單(單一用途) 5-10 個
中等(多種問答) 10-30 個
複雜(多領域) 30+ 個

多久執行一次測試?

  • 每次修改 Instruction 後:必須執行
  • 更新知識來源後:建議執行
  • 定期檢查:每週或每月執行一次,確保品質穩定

常見問題

分數多少算好?

這取決於你的使用場景。建議先執行一次測試建立「基準線」,之後的目標是「不低於基準線」。如果大部分案例都在 80% 以上,表示 Agent 表現穩定。

測試案例會影響 Agent 的回答嗎?

不會。測試案例只用於驗證,不會影響 Agent 的實際行為。

可以測試不同版本的 Agent 嗎?

可以。在執行測試時,你可以選擇要測試的 Agent 版本,方便比較不同版本的表現。

如何讓團隊一起維護測試案例?

邀請團隊成員到工作空間,他們就可以一起新增和編輯測試案例。

下一步

測試通過後,你可以: