驗證與改進
開發中
此章節正在密切開發更新中,相關文件可能不是最準確的狀態。如有疑問,請聯繫我們。
你已經建立了 Agent,它運作得不錯。但當你想修改設定時,心裡可能會有個聲音:
「改了之後,原本回答正確的問題會不會變錯?」
這就是測試案例(Test Suite)的價值 —— 幫你把「Agent 應該怎麼回答」記錄下來,每次修改後一鍵驗證,確保品質不退步。
為什麼需要測試案例?
想像一下這個場景:
- 你的 Agent 原本能正確回答「退貨政策是什麼?」
- 你修改了 Instruction,想讓回答更簡潔
- 修改後,Agent 對新問題回答得更好了
- 但你沒注意到,「退貨政策」的回答變得不完整了
有了測試案例,你可以:
- 在修改前:把重要的問答記錄下來
- 在修改後:一鍵執行測試,立刻知道有沒有「退步」
第一步:從對話紀錄發現問題
查看對話紀錄
在 Agent Editor 或對話紀錄中,找出「不夠理想」的回答:
- Agent 回答錯誤或不完整
- 語氣不符合品牌形象
- 沒有使用正確的資料來源
- 回答太冗長或太簡短
分析問題類型
| 問題類型 | 可能原因 | 改進方向 |
|---|---|---|
| 回答錯誤 | Instruction 不夠明確 | 加入更具體的規則 |
| 資訊不完整 | 資料來源缺漏 | 補充知識庫內容 |
| 語氣不對 | 沒有定義語氣規範 | 在 Instruction 中加入語氣要求 |
| 回答離題 | 沒有設定範圍限制 | 定義 Agent 的專長範圍 |
第二步:建立測試案例
把「這題應該怎麼回答」記錄成測試案例,作為品質標準。
進入測試案例頁面
- 進入工作空間,選擇要測試的 Agent
- 點擊「Test Suite」分頁
新增測試案例
點擊「Add Case」,填寫:
| 欄位 | 說明 | 範例 |
|---|---|---|
| 輸入(Input) | 使用者會問的問題 | 「退貨政策是什麼?」 |
| 預期回答(Ideal Response) | 理想的回答內容(選填) | 「購買後 7 天內可退貨,需保持商品完整...」 |
| 標準(Standard) | 評分的依據 | 「必須提到 7 天期限和完整性要求」 |
建議
先從「最重要的問題」開始建立測試案例。不需要一次建立很多,5-10 個核心案例就能提供很好的保護。
批次匯入
如果有很多案例,可以用 CSV 檔案批次匯入:
question,expected_output
"退貨政策是什麼?","購買後 7 天內可退貨"
"營業時間是幾點?","週一至週五 9:00-18:00"
點擊「Upload CSV」上傳檔案即可。
第三步:執行測試
手動執行
- 選擇要測試的案例(或點擊「Run All」執行全部)
- 選擇驗證規則(Validator)
- 點擊「Run」開始測試
查看結果
測試完成後,你會看到:
| 項目 | 說明 |
|---|---|
| AI Response | Agent 實際的回答 |
| Grade | 符合標準的程度(0-100%) |
| Explanation | 為什麼給這個分數 |
解讀分數
- 80% 以上:回答符合標準
- 50-80%:部分符合,可能需要微調
- 50% 以下:明顯不符合,需要檢視設定
第四步:調整設定
根據測試結果,調整 Agent 設定:
改進 Instruction
| 測試發現的問題 | 調整方式 |
|---|---|
| 回答太冗長 | 加入「請簡潔回答,控制在 100 字以內」 |
| 忘記使用正確語言 | 在開頭強調「請使用繁體中文回答」 |
| 漏掉關鍵資訊 | 加入「回答時務必提及...」 |
| 語氣太正式/太隨意 | 定義語氣範例 |
調整知識來源
如果 Agent 無法回答某些問題:
- 確認相關資料已連接到工作空間
- 檢查資料同步狀態是否完成
- 確認 Agent 設定中已選擇該資料來源
第五步:重新測試並發布
- 重新執行測試:確認所有案例都通過
- 發布新版本:確認沒問題後,發布 Agent 更新
- 保存版本:Codeer.ai 會自動記錄版本歷史,方便日後回滾
進階:設定驗證規則(Validator)
驗證規則定義「什麼叫做好的回答」,讓測試結果更一致、更符合你的標準。
內建驗證規則
Codeer.ai 提供幾種常用的驗證方式:
- 關鍵字檢查:回答是否包含特定關鍵字
- 相似度比對:回答與預期回答的相似程度
- AI 評分:用 AI 判斷回答品質
自訂驗證規則
點擊「Manage Validators」可以建立自訂規則:
- 給規則一個名稱(例如「客服語氣檢查」)
- 設定評分標準(例如「必須使用敬語、不能有錯字」)
- 儲存後即可在測試時選用
最佳實踐
什麼時候該建立測試案例?
- ✅ 發現 Agent 回答不理想時,先建立案例再修復
- ✅ 重要功能上線前,建立核心問答的測試案例
- ✅ 收到使用者回饋時,把問題轉成測試案例
測試案例要建幾個?
| Agent 複雜度 | 建議案例數 |
|---|---|
| 簡單(單一用途) | 5-10 個 |
| 中等(多種問答) | 10-30 個 |
| 複雜(多領域) | 30+ 個 |
多久執行一次測試?
- 每次修改 Instruction 後:必須執行
- 更新知識來源後:建議執行
- 定期檢查:每週或每月執行一次,確保品質穩定
常見問題
分數多少算好?
這取決於你的使用場景。建議先執行一次測試建立「基準線」,之後的目標是「不低於基準線」。如果大部分案例都在 80% 以上,表示 Agent 表現穩定。
測試案例會影響 Agent 的回答嗎?
不會。測試案例只用於驗證,不會影響 Agent 的實際行為。
可以測試不同版本的 Agent 嗎?
可以。在執行測試時,你可以選擇要測試的 Agent 版本,方便比較不同版本的表現。
如何讓團隊一起維護測試案例?
邀請團隊成員到工作空間,他們就可以一起新增和編輯測試案例。
下一步
測試通過後,你可以: