建立並除錯第一版草稿

Copilot 建好第一版後，先用 Live Test 跟 Agent 聊幾次，感受它現在會怎麼回答。接著，把重要情境放進 Test Suite，變成可以重跑、可以驗證的測試案例。

Live Test 適合快速探索。Test Suite 才是發布前確認行為是否穩定的地方。

步驟 1：先在 `Live Test` 試聊

打開你的 workspace。
進入 Edit Agents。
選擇你的客服 Agent。
使用 Agent Editor 右側的 Live Test 面板。
用幾個真實客戶可能會問的問題試聊。

開啟 Live Test 的客服 Agent 草稿

先從核心問題開始：

請問你們的退費政策是什麼？
我無法登入帳號，應該先試什麼？

再試邊界問題：

我是透過 reseller 買的，你可以保證我一定能退費嗎？
我的卡被扣款兩次，可以請人幫我處理嗎？

這個階段不是要證明 Agent 已經完成，而是先看第一版是否能處理核心範圍，以及邊界是否講得夠清楚。

Live Test 中的客服核心情境對話

步驟 2：把重要情境變成 `Test Suite` 案例

請 Copilot 把第一批情境整理成可以重跑的案例。第一版如果可以，建議先準備 20-30 個重要情境：

Agent 應該穩定回答的核心問題
Agent 不能過度承諾的邊界問題
Agent 應該拒答或轉交真人的超出範圍問題
正確下一步應該是人工跟進的動作情境

每個 case 必填：

Input：客戶會輸入的訊息
Standard：用來判斷 AI 回覆是否通過的標準

可選欄位：

Note：當這個情境需要補充背景給 reviewer 時很有用

Ideal Response 可以不用填。做行為驗證時，清楚的 Standard 通常比完美範例答案更重要。

讓失敗變得有用

Case 沒通過，通常代表第一版還不夠清楚：可能是範圍太大、KB 少了一條規則，或 instruction 沒說清楚邊界怎麼處理。把 failure 當成設計訊號，而不是單次回答失誤。

步驟 3：跑第一版 `Test Suite`

用 Content Compliance evaluator 跑這些 cases，並用 pass/fail 來看結果：

1 代表 AI 回覆通過 Standard
0 代表 AI 回覆沒有通過 Standard

先看沒通過的案例。好的 failure 設計應該讓診斷方向很清楚：

如果回答其實可以接受，可能是 Standard 太嚴或寫得不夠清楚。
如果 Standard 跟 KB 衝突，要先決定哪一個才是 source of truth。
如果 Agent 沒有用 KB，要把什麼時候該用 KB 寫得更清楚。
如果 Agent 有用 KB 但沒找到正確資訊，可能需要補 KB、整理檔案標題，或加強 retrieval hint。
如果 Agent 找到正確來源卻自行延伸，就收緊 instruction。
如果 failure 只影響一個很特殊的 case，先避免為了單一 case 過度修改 Agent；可能應該修 case 或 Standard。

用 Test Suite 驗證客服重要情境的 pass/fail 結果

步驟 4：請 Copilot 修正這一類問題

當某個 case 沒通過時，直接在失敗結果旁邊問 Copilot。Copilot 可以自己查看 case、AI response、Standard、Agent 設定，以及相關 KB context，所以你不需要手動把所有內容貼一次。

這個 case 沒有通過。請幫我判斷問題是在 Standard、KB、工具使用、retrieval，還是 Agent instruction。請建議最小修改，目標是改善這一類情境，而不是只讓單一 case 通過。

套用修改後，重新跑同一個 case。持續迭代，直到重要情境都穩定通過。

進階：使用 Claude Code 或 Codex

Power user 可以搭配 Codeer Skill 和 Claude Code / Codex 處理更大的批次，例如產生 20-30 個以上的重要情境、整理 failure、檢查 KB 缺口，或準備下一版範圍擴張。方法不變：先定義範圍，發布前先建立 cases，改 prompt 前先診斷 failure，做最小修改，先重跑受影響 cases，如果修改可能影響其他情境，再重跑完整 Test Suite。

下一步

當第一批已驗證情境穩定後，繼續看：

建立並除錯第一版草稿

步驟 1：先在 Live Test 試聊

步驟 2：把重要情境變成 Test Suite 案例

步驟 3：跑第一版 Test Suite

步驟 4：請 Copilot 修正這一類問題

下一步

步驟 1：先在 `Live Test` 試聊

步驟 2：把重要情境變成 `Test Suite` 案例

步驟 3：跑第一版 `Test Suite`