最初の草案を作ってデバッグ

Copilot が最初の draft を作ったら、まず Live Test で Agent と数回会話し、今どのように返答するかを確認します。その後、重要な scenario を Test Suite に移し、再実行できる検証ケースにします。

Live Test は素早い探索に向いています。公開前に behavior を安定して確認する場所は Test Suite です。

ステップ1：`Live Test` で試す

workspace を開きます。
Edit Agents に入ります。
customer service Agent を選びます。
Agent Editor の右側にある Live Test パネルを使います。
実際の顧客が聞きそうな質問で数回試します。

Live Test を開いた customer service Agent draft

まず core question から始めます。

返金ポリシーを教えてください。
ログインできません。まず何を試せばいいですか？

次に boundary question を試します。

reseller 経由で買いました。返金を保証できますか？
カードに二重請求がありました。担当者に対応してもらえますか？

この段階の目的は、Agent が完成したと証明することではありません。最初の draft が core scope に答えられるか、boundary が十分に明確かを確認することです。

Live Test の customer service core scenario

ステップ2：重要 scenario を `Test Suite` case にする

Copilot に依頼して、最初の scenario set を再実行できる case にします。最初の version では、可能なら 20-30 個の重要 scenario を用意します。

Agent が安定して答えるべき core question
Agent が言い過ぎてはいけない boundary question
Agent が拒否または handoff すべき out-of-scope question
正しい次の一手が human follow-up である action scenario

各 case で必須なのは次の項目です。

Input: 顧客のメッセージ
Standard: AI response が pass したかどうかを判断する基準

任意項目です。

Note: reviewer に補足 context が必要な場合に役立ちます

Ideal Response は任意です。Behavior verification では、完璧な sample answer よりも明確な Standard の方が重要なことが多いです。

Failure を役に立つ signal にする

Case が pass しない場合、多くは最初の draft がまだ十分に明確ではないという意味です。Scope が広すぎる、KB に rule が足りない、または instruction が boundary behavior を明記していない可能性があります。Failure を一回限りの bad answer ではなく、design signal として扱います。

ステップ3：最初の `Test Suite` を実行する

Content Compliance evaluator で cases を実行し、結果を pass/fail として読みます。

1 は response が Standard に pass したことを意味します。
0 は response が Standard に pass しなかったことを意味します。

まず failed case を確認します。良い failure design では、診断の方向が具体的になります。

Response が実際には acceptable なら、Standard が厳しすぎる、または曖昧すぎる可能性があります。
Standard と KB が矛盾しているなら、Agent を変える前にどちらが source of truth かを決めます。
Agent が KB を使っていないなら、いつ KB を使うべきかを明確にします。
Agent が KB を使ったのに正しい情報に届いていないなら、KB file、heading、または retrieval hint を改善します。
Agent が正しい source を見つけたのに details を作り話ししたなら、instruction を引き締めます。
Failure が特殊な 1 case だけに関係するなら、Agent を過度に最適化せず、case または Standard の修正を検討します。

Verified customer service scenarios の pass/fail 結果を表示した Test Suite

ステップ4：Copilot に pattern を修正してもらう

Case が fail したら、failed result の横から Copilot に質問します。Copilot は case、AI response、Standard、Agent settings、関連 KB context を確認できるため、すべてを手で貼り付ける必要はありません。

This case failed. Please diagnose whether the issue is the Standard, the KB, tool usage, retrieval, or the Agent instruction. Suggest the smallest fix that improves this type of scenario without overfitting to one case.

修正を適用したら、同じ case を再実行します。重要 scenario が pass するまで、この loop を続けます。

Advanced: Claude Code または Codex を使う

Power user は Codeer Skill を Claude Code や Codex と組み合わせて、大きな batch を扱えます。たとえば 20-30 個以上の scenario 作成、failure の整理、KB gap の確認、versioned scope expansion の準備です。方法は同じです。まず scope を定義し、公開前に cases を作り、prompt を変える前に failure を診断し、最小の fix を適用し、影響を受けた cases を再実行し、他の scenario に影響する変更なら full suite を再実行します。

次のステップ

最初の verified scenario set が安定したら、次に進みます。

最初の草案を作ってデバッグ

ステップ1：Live Test で試す

ステップ2：重要 scenario を Test Suite case にする

ステップ3：最初の Test Suite を実行する

ステップ4：Copilot に pattern を修正してもらう

次のステップ

ステップ1：`Live Test` で試す

ステップ2：重要 scenario を `Test Suite` case にする

ステップ3：最初の `Test Suite` を実行する