コンテンツにスキップ

検証と改善

開発中

このセクションは現在積極的に開発中です。ドキュメントが完全に正確でない可能性があります。ご質問がある場合は、お問い合わせください。

Agentを作成し、うまく動作しています。しかし、設定を変更したいとき、頭の中でこんな声が聞こえるかもしれません:

「変更後、元々正しく回答できていた質問が間違いになったりしないだろうか?」

これがテストスイート(Test Suite)の価値です — 「Agentがどう回答すべきか」を記録し、変更のたびにワンクリックで検証し、品質が低下していないことを確認します。

なぜテストケースが必要なのか?

このシナリオを想像してください:

  1. あなたのAgentは「返品ポリシーは何ですか?」に正しく回答できていた
  2. Instructionを修正して、回答をより簡潔にしようとした
  3. 修正後、Agentは新しい質問により良く回答できるようになった
  4. しかし、「返品ポリシー」の回答が不完全になったことに気づかなかった

テストケースがあれば:

  • 変更前: 重要なQ&Aを記録しておく
  • 変更後: ワンクリックでテストを実行し、「後退」があったかどうかすぐに分かる

ステップ1: 会話履歴から問題を発見する

会話履歴を確認する

Agent Editorまたは会話履歴で、「十分に理想的でない」回答を見つけます:

  • Agentが誤って回答したり、不完全だったりする
  • トーンがブランドイメージに合わない
  • 正しいデータソースを使用していない
  • 回答が冗長すぎるか簡潔すぎる

問題のタイプを分析する

問題タイプ 考えられる原因 改善の方向性
回答が間違っている Instructionが明確でない より具体的なルールを追加
情報が不完全 データソースが不足 ナレッジベースコンテンツを補足
トーンが間違っている トーンガイドラインが定義されていない Instructionにトーン要件を追加
話題がずれている 範囲制限が設定されていない Agentの専門領域を定義

ステップ2: テストケースを作成する

「この質問にどう回答すべきか」をテストケースとして記録し、品質基準とします。

テストスイートページにアクセスする

  1. ワークスペースに入り、テストするAgentを選択
  2. 「Test Suite」タブをクリック

テストケースを追加する

「Add Case」をクリックして入力します:

フィールド 説明
Input(入力) ユーザーが尋ねる質問 「返品ポリシーは何ですか?」
Ideal Response(理想的な回答) 理想的な回答内容(オプション) 「購入後7日以内は返品可能、商品は完全な状態を保つ必要があります...」
Standard(基準) スコアリングの根拠 「7日間の期限と完全性要件に言及する必要がある」

推奨

「最も重要な質問」からテストケースを作成し始めましょう。一度に多く作成する必要はありません。5〜10個のコアケースでも十分な保護を提供できます。

一括インポート

多くのケースがある場合、CSVファイルで一括インポートできます:

question,expected_output
"返品ポリシーは何ですか?","購入後7日以内は返品可能"
"営業時間は何時ですか?","月曜日から金曜日 9:00-18:00"

「Upload CSV」をクリックしてファイルをアップロードします。

ステップ3: テストを実行する

手動実行

  1. テストするケースを選択(または「Run All」をクリックして全て実行)
  2. 検証ルール(Validator)を選択
  3. 「Run」をクリックしてテストを開始

結果を確認する

テスト完了後、以下が表示されます:

項目 説明
AI Response Agentの実際の回答
Grade 基準を満たす度合い(0-100%)
Explanation このスコアを付けた理由

スコアを解釈する

  • 80%以上: 回答が基準を満たしている
  • 50-80%: 部分的に満たしている、微調整が必要かもしれない
  • 50%未満: 明らかに満たしていない、設定を見直す必要がある

ステップ4: 設定を調整する

テスト結果に基づいて、Agentの設定を調整します:

Instructionを改善する

テストで見つかった問題 調整方法
回答が冗長すぎる 「簡潔に回答してください、100文字以内に」を追加
正しい言語を使用し忘れる 冒頭で「日本語で回答してください」を強調
重要な情報を漏らす 「回答する際は必ず...に言及すること」を追加
トーンが堅苦しすぎる/カジュアルすぎる トーンの例を定義

ナレッジソースを調整する

Agentが特定の質問に回答できない場合:

  1. 関連データがワークスペースに接続されていることを確認
  2. データ同期ステータスが完了しているか確認
  3. Agent設定でそのデータソースが選択されていることを確認

ステップ5: 再テストと公開

  1. テストを再実行: すべてのケースが合格することを確認
  2. 新バージョンを公開: 問題がないことを確認後、Agent更新を公開
  3. バージョンを保存: Codeer.aiは自動的にバージョン履歴を記録し、後でロールバックしやすくなります

上級: 検証ルール(Validator)を設定する

検証ルールは「良い回答とは何か」を定義し、テスト結果をより一貫性があり、あなたの基準に合ったものにします。

組み込み検証ルール

Codeer.aiはいくつかの一般的な検証方法を提供します:

  • キーワードチェック: 回答が特定のキーワードを含んでいるか
  • 類似度比較: 回答と期待される回答の類似度
  • AIスコアリング: AIを使用して回答の質を判断

カスタム検証ルール

「Manage Validators」をクリックしてカスタムルールを作成できます:

  1. ルールに名前を付ける(例:「カスタマーサービストーンチェック」)
  2. スコアリング基準を設定(例:「敬語を使用し、誤字がないこと」)
  3. 保存後、テスト時に使用できます

ベストプラクティス

いつテストケースを作成すべきか?

  • ✅ Agentの回答が理想的でないと分かったとき、修正前にケースを作成
  • ✅ 重要な機能をリリースする前に、コアQ&Aのテストケースを作成
  • ✅ ユーザーフィードバックを受け取ったとき、問題をテストケースに変換

テストケースはいくつ作成すべきか?

Agentの複雑さ 推奨ケース数
シンプル(単一目的) 5-10個
中程度(複数のQ&Aタイプ) 10-30個
複雑(複数ドメイン) 30個以上

どのくらいの頻度でテストを実行すべきか?

  • Instructionを変更するたびに: 必須
  • ナレッジソースを更新した後: 実行を推奨
  • 定期チェック: 週1回または月1回実行し、品質の安定性を確保

よくある質問

どのスコアが良いですか?

これは使用ケースによります。まずテストを一度実行して「ベースライン」を確立し、その後は「ベースラインを下回らない」ことを目標にすることをお勧めします。ほとんどのケースが80%以上であれば、Agentは安定したパフォーマンスを示しています。

テストケースはAgentの回答に影響しますか?

いいえ。テストケースは検証のみに使用され、Agentの実際の動作には影響しません。

異なるバージョンのAgentをテストできますか?

はい。テストを実行する際に、テストするAgentバージョンを選択でき、異なるバージョンのパフォーマンスを簡単に比較できます。

チームで一緒にテストケースを維持するには?

チームメンバーをワークスペースに招待すれば、一緒にテストケースを追加・編集できます。

次のステップ

テストが合格したら: