跳轉到

建立並除錯第一版草稿

Copilot 建好第一版後,先用 Live Test 跟 Agent 聊幾次,感受它現在會怎麼回答。接著,把重要情境放進 Test Suite,變成可以重跑、可以驗證的測試案例。

Live Test 適合快速探索。Test Suite 才是發布前確認行為是否穩定的地方。

步驟 1:先在 Live Test 試聊

  1. 打開你的 workspace。
  2. 進入 Edit Agents
  3. 選擇你的客服 Agent。
  4. 使用 Agent Editor 右側的 Live Test 面板。
  5. 用幾個真實客戶可能會問的問題試聊。

開啟 Live Test 的客服 Agent 草稿

先從核心問題開始:

  • 請問你們的退費政策是什麼?
  • 我無法登入帳號,應該先試什麼?

再試邊界問題:

  • 我是透過 reseller 買的,你可以保證我一定能退費嗎?
  • 我的卡被扣款兩次,可以請人幫我處理嗎?

這個階段不是要證明 Agent 已經完成,而是先看第一版是否能處理核心範圍,以及邊界是否講得夠清楚。

Live Test 中的客服核心情境對話

步驟 2:把重要情境變成 Test Suite 案例

請 Copilot 把第一批情境整理成可以重跑的案例。第一版如果可以,建議先準備 20-30 個重要情境:

  • Agent 應該穩定回答的核心問題
  • Agent 不能過度承諾的邊界問題
  • Agent 應該拒答或轉交真人的超出範圍問題
  • 正確下一步應該是人工跟進的動作情境

每個 case 必填:

  • Input:客戶會輸入的訊息
  • Standard:用來判斷 AI 回覆是否通過的標準

可選欄位:

  • Note:當這個情境需要補充背景給 reviewer 時很有用

Ideal Response 可以不用填。做行為驗證時,清楚的 Standard 通常比完美範例答案更重要。

讓失敗變得有用

Case 沒通過,通常代表第一版還不夠清楚:可能是範圍太大、KB 少了一條規則,或 instruction 沒說清楚邊界怎麼處理。把 failure 當成設計訊號,而不是單次回答失誤。

步驟 3:跑第一版 Test Suite

用 Content Compliance evaluator 跑這些 cases,並用 pass/fail 來看結果:

  • 1 代表 AI 回覆通過 Standard
  • 0 代表 AI 回覆沒有通過 Standard

先看沒通過的案例。好的 failure 設計應該讓診斷方向很清楚:

  • 如果回答其實可以接受,可能是 Standard 太嚴或寫得不夠清楚。
  • 如果 Standard 跟 KB 衝突,要先決定哪一個才是 source of truth。
  • 如果 Agent 沒有用 KB,要把什麼時候該用 KB 寫得更清楚。
  • 如果 Agent 有用 KB 但沒找到正確資訊,可能需要補 KB、整理檔案標題,或加強 retrieval hint。
  • 如果 Agent 找到正確來源卻自行延伸,就收緊 instruction。
  • 如果 failure 只影響一個很特殊的 case,先避免為了單一 case 過度修改 Agent;可能應該修 case 或 Standard。

用 Test Suite 驗證客服重要情境的 pass/fail 結果

步驟 4:請 Copilot 修正這一類問題

當某個 case 沒通過時,直接在失敗結果旁邊問 Copilot。Copilot 可以自己查看 case、AI response、Standard、Agent 設定,以及相關 KB context,所以你不需要手動把所有內容貼一次。

這個 case 沒有通過。請幫我判斷問題是在 Standard、KB、工具使用、retrieval,還是 Agent instruction。請建議最小修改,目標是改善這一類情境,而不是只讓單一 case 通過。

套用修改後,重新跑同一個 case。持續迭代,直到重要情境都穩定通過。

進階:使用 Claude Code 或 Codex

Power user 可以搭配 Codeer Skill 和 Claude Code / Codex 處理更大的批次,例如產生 20-30 個以上的重要情境、整理 failure、檢查 KB 缺口,或準備下一版範圍擴張。方法不變:先定義範圍,發布前先建立 cases,改 prompt 前先診斷 failure,做最小修改,先重跑受影響 cases,如果修改可能影響其他情境,再重跑完整 Test Suite。

下一步

當第一批已驗證情境穩定後,繼續看: