已驗證情境
Codeer 最有價值的用法,是把 Agent 和重要情境一起設計。
Agent 說明它應該怎麼回答、怎麼判斷、什麼時候交接。重要情境則讓你看見它在真實問題上的表現。兩邊要一起做:只寫 Agent,你其實還是在猜;只寫一堆 case,卻沒有想清楚 Agent 第一版到底能穩定做到什麼,範圍就會太散、太難穩住。
從第一個小範圍開始
第一版請先選一組窄而重要的情境,通常 20 到 30 題就夠了。
可以分成四類:
- 核心情境:Agent 現在就應該回答的問題
- 邊界情境:Agent 需要小心處理、可能要交接或請使用者補資料的問題
- 超出範圍情境:Agent 目前不應該回答,應該拒答、交接真人,或導向表單的問題
- 動作情境:需要工具才能完成的請求,例如表單、付款、預約連結、API 呼叫,或 specialist agent
以簡單客服 Agent 來說,第一組情境可能包括:
- 客戶詢問退費政策
- 客戶要求一個公司沒有核准過的退費保證
- 客戶是透過 reseller 購買,政策不明確
- 客戶希望有人聯絡他
- 客戶詢問支援範圍外的法律、醫療或競品建議
目標不是涵蓋所有可能問題。目標是定義第一個你能看得懂、測得到、修得動的範圍。
你可以先請 Copilot 根據目前 Agent 草擬這批情境,再由 operator 審核、補上真正重要的邊界。這樣 Agent 能力和情境範圍會一起收斂,不會一開始就做得太大。
把每個情境變成 case
在 Test Suite 裡,每個重要情境都應該變成一個可重跑 case。
一個有用的 case 會包含:
- 真實感的 user input
- 足夠讓 Agent 回答或交接的脈絡
- 一個
Standard,說清楚 AI 回覆必須做什麼、不能做什麼,以及何時該交接
好的 standard 必須可以被檢查。另一位 operator 應該只看 AI 回覆,就能判斷它是否通過,而不用猜你的意思。
第一批 case 建好後,請馬上跑一次。這不是為了證明 Agent 已經完美,而是為了快速找出它現在不穩的地方。
一定要驗證邊界和超出範圍
超出範圍時怎麼處理,本身就是產品體驗的一部分。
不要只測 Agent 應該回答的問題。也要測它目前不該回答的問題。安全的第一版應該知道什麼時候要:
- 說明這個請求不在支援範圍內
- 交接給真人
- 請使用者透過表單提交結構化資訊
- 避免承諾、價格、保證,或團隊沒有核准過的建議
這樣你才能上線一個窄而安全的 Agent,而不是假裝它什麼都能處理。
就算 Agent 拒答或交接,這些對話仍然很有價值。它們會變成你的真實使用者問題集,幫你判斷下一版要先擴大哪一塊。
一開始讓知識保持小而必要
不要因為文件存在,就全部上傳。
先放第一批重要情境真正需要的最小 source of truth。只有當某個失敗 case 證明缺少知識才是問題時,才補更多知識。
當 case 失敗時,先診斷原因,不要急著加內容:
- 如果
Standard要求錯了,修Standard。 - 如果行為規則不清楚,修
Instructions。 - 如果 Agent 缺必要事實,補上或整理相關的
Knowledge Base內容。 - 如果 Agent 需要執行動作,新增或收緊正確的工具。
- 如果情境超出第一版範圍,先留在安全 fallback,放到之後版本再處理。
用版本逐步擴大範圍
通過的 case 定義了你今天可以信任的範圍。
第一次上線時,請讓已驗證範圍保持小。其他尚未驗證的需求,先導向安全 fallback,例如真人交接、拒答或表單。
當你想擴大範圍時:
- 把新情境加進
Test Suite。 - 為每個情境定義
Standard。 - 只根據失敗 case 顯示出的需要,更新 Agent、知識或工具。
- 跑受影響的 case。
- 如果改動可能影響既有行為,就跑更完整的 suite。
- 只有在擴大後的範圍穩定時,才發布新版本。
這會讓 Agent 從一個小而受控的版本,逐步變成更完整的服務層。
兩種方式都能使用這套方法
你可以直接在 Codeer 裡照這套方法做,也可以用其他 AI assistant 幫你草擬工作材料。
| 方式 | 什麼時候適合 | 怎麼做 |
|---|---|---|
| Codeer UI 加上你自己的 AI assistant | 你已經習慣用 ChatGPT、Claude、Gemini 或其他 assistant 做規劃 | 請它草擬情境、standard 與可能修法,再由你審核後放進 Codeer |
| Codeer Skill workflow | 你想要有人引導 scope、case、debug 與 improvement 的完整流程 | 如果你想在這個 guided workflow 開放時取得使用方式,請聯絡 ian@codeer.ai |
兩種方式背後的方法一樣:定義情境集、用 standard 驗證 AI 回覆、只發布可信範圍,並透過版本逐步擴大。