Optimization Loop
當第一版接近要上線時,工作性質就變了。
你不再只是寫 instructions,然後期待 Agent 會穩定表現。你要建立的是一個發布紀律:驗證重要行為、只發布你信任的範圍、從真實對話學習,並在擴大使用前再次驗證。
對 Consultation Desk 來說,這個循環通常長這樣:
- 測到或在
Histories看到一則高風險回覆 - 請 Copilot 幫你拆解原因
- 回去調整 Agent
- 把重要情境存成案例
- 跑
Test Suite - 重要案例都穩住了,才發布或擴大 rollout

這一段要解決什麼
這一段不是教你在出事後做一次性的修補,而是教你建立一個可重複的品質循環。
理想的終點很簡單:
- 重要情境都有被記錄成可重跑案例
- 高風險行為在發布或擴大 rollout 前有被測到
- 新改進不會默默破壞舊的好表現