建立並除錯第一版草稿
Copilot 建好第一版後,先用 Live Test 跟 Agent 聊幾次,感受它現在會怎麼回答。接著,把重要情境放進 Test Suite,變成可以重跑、可以驗證的測試案例。
Live Test 適合快速探索。Test Suite 才是發布前確認行為是否穩定的地方。
步驟 1:先在 Live Test 試聊
- 打開你的 workspace。
- 進入
Edit Agents。 - 選擇你的客服 Agent。
- 使用 Agent Editor 右側的
Live Test面板。 - 用幾個真實客戶可能會問的問題試聊。

先從核心問題開始:
請問你們的退費政策是什麼?我無法登入帳號,應該先試什麼?
再試邊界問題:
我是透過 reseller 買的,你可以保證我一定能退費嗎?我的卡被扣款兩次,可以請人幫我處理嗎?
這個階段不是要證明 Agent 已經完成,而是先看第一版是否能處理核心範圍,以及邊界是否講得夠清楚。

步驟 2:把重要情境變成 Test Suite 案例
請 Copilot 把第一批情境整理成可以重跑的案例。第一版如果可以,建議先準備 20-30 個重要情境:
- Agent 應該穩定回答的核心問題
- Agent 不能過度承諾的邊界問題
- Agent 應該拒答或轉交真人的超出範圍問題
- 正確下一步應該是人工跟進的動作情境
每個 case 必填:
- Input:客戶會輸入的訊息
- Standard:用來判斷 AI 回覆是否通過的標準
可選欄位:
- Note:當這個情境需要補充背景給 reviewer 時很有用
Ideal Response 可以不用填。做行為驗證時,清楚的 Standard 通常比完美範例答案更重要。
讓失敗變得有用
Case 沒通過,通常代表第一版還不夠清楚:可能是範圍太大、KB 少了一條規則,或 instruction 沒說清楚邊界怎麼處理。把 failure 當成設計訊號,而不是單次回答失誤。
步驟 3:跑第一版 Test Suite
用 Content Compliance evaluator 跑這些 cases,並用 pass/fail 來看結果:
1代表 AI 回覆通過 Standard0代表 AI 回覆沒有通過 Standard
先看沒通過的案例。好的 failure 設計應該讓診斷方向很清楚:
- 如果回答其實可以接受,可能是
Standard太嚴或寫得不夠清楚。 - 如果
Standard跟 KB 衝突,要先決定哪一個才是 source of truth。 - 如果 Agent 沒有用 KB,要把什麼時候該用 KB 寫得更清楚。
- 如果 Agent 有用 KB 但沒找到正確資訊,可能需要補 KB、整理檔案標題,或加強 retrieval hint。
- 如果 Agent 找到正確來源卻自行延伸,就收緊 instruction。
- 如果 failure 只影響一個很特殊的 case,先避免為了單一 case 過度修改 Agent;可能應該修 case 或 Standard。

步驟 4:請 Copilot 修正這一類問題
當某個 case 沒通過時,直接在失敗結果旁邊問 Copilot。Copilot 可以自己查看 case、AI response、Standard、Agent 設定,以及相關 KB context,所以你不需要手動把所有內容貼一次。
這個 case 沒有通過。請幫我判斷問題是在 Standard、KB、工具使用、retrieval,還是 Agent instruction。請建議最小修改,目標是改善這一類情境,而不是只讓單一 case 通過。
套用修改後,重新跑同一個 case。持續迭代,直到重要情境都穩定通過。
進階:使用 Claude Code 或 Codex
Power user 可以搭配 Codeer Skill 和 Claude Code / Codex 處理更大的批次,例如產生 20-30 個以上的重要情境、整理 failure、檢查 KB 缺口,或準備下一版範圍擴張。方法不變:先定義範圍,發布前先建立 cases,改 prompt 前先診斷 failure,做最小修改,先重跑受影響 cases,如果修改可能影響其他情境,再重跑完整 Test Suite。
下一步
當第一批已驗證情境穩定後,繼續看: