Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

LLM評価ツールの使用

プレミアム機能

LLM評価ツールはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

プレイグラウンドのLLM評価ツールには、評価指標とデータセット、集計された指標、コンプライアンステスト、トレースが含まれます。 LLM評価指標ツールには、以下の項目が含まれます。

LLM評価ツール 説明
評価指標 プレイグラウンドでのプロンプトと回答のパフォーマンス、安全性、運用に関する一連の指標を報告し、設定された指標にモデレーションの基準とアクションを定義します。
評価データセット 評価データセットの指標、集計された指標、およびコンプライアンステストを通じてLLMブループリントを評価するために使用される評価データセットをアップロードまたは生成します。
集計された指標 1つのプロンプトや回答の評価から得られることは限られているため、LLMブループリントを全体的に評価するには、多くのプロンプトと回答の評価指標を組み合わせます。
コンプライアンステスト 評価指標とデータセットを組み合わせ、設定済みまたはカスタムのコンプライアンステストを使用して、コンプライアンスの問題を自動的に検出します。
トレーステーブル プレイグラウンドでLLMの回答生成に使用されるすべてのコンポーネントとプロンプトアクティビティのログを通して、LLMブループリントの実行をトレースします。

評価指標の設定

評価指標を使用すると、パフォーマンス、安全性、運用に関するさまざまな指標を設定することができます。 これらの指標を設定すると、プロンプトと回答が設定したモデレーション基準を満たした場合に介入するモデレーション方法を定義できます。 この機能は、プロンプトインジェクションや、悪意のある、有害な、または不適切なプロンプトや回答を検出してブロックするのに役立ちます。 また、ハルシネーションや信頼度の低い回答を特定し、個人を特定できる情報(PII)の共有を防ぐのにも役立ちます。

評価デプロイの指標

多くの評価指標は、プレイグラウンドで構築されたLLMと、デプロイされたガードモデルを結びつけます。 これらのガードモデルは、LLMのプロンプトと回答で予測を作成し、予測と統計をプレイグラウンドにレポートします。 評価デプロイタイプの指標(カスタムデプロイ、PII検出、プロンプトインジェクション、感情分類器、毒性)のいずれかを使用する場合、LLMのプロンプトや回答に基づいて予測を行うには、 NextGenレジストリから必要なガードモデルをデプロイします。

LLMプレイグラウンドで評価指標を選択および設定するには、次のいずれかを実行します。

  • プレイグラウンドにブループリントを追加した場合、サイドナビゲーションバーで、 評価とモデレーションの指標を設定をクリックします。

  • プレイグラウンドにブループリントを追加していない場合は、指標で評価タイルで評価の設定をクリックして、ブループリントを追加する前に指標を設定します。

    LLMの評価とモデレーションページが開き、指標タブが表示されます。 特定の指標はデフォルトで有効になっていますが、引用およびRouge 1の指標値を報告するには、ベクターデータベースをLLMブループリントに関連付ける必要があります。

新しい設定の作成

プレイグラウンドに新しい評価指標設定を作成するには:

  1. LLMの評価とモデレーションページの右上隅にある指標の設定をクリックします。

  2. 評価とモデレーションの設定パネルで、評価指標をクリックしてから、指標を設定します。 指標、要件、設定の概要は、以下のテーブルの通りです。

    評価指標の詳細

    DataRobotで利用できる評価指標の詳細な定義については、LLMカスタム指標リファレンスを参照してください。

    評価指標 要件 説明
    コスト LLMコスト設定 デフォルトまたはカスタムLLM、通貨、1トークンあたりの入力コスト、1トークンあたりの出力コストの値を使用して、LLMの回答生成コストを計算します。 コストの計算には、引用コストも含まれます。
    カスタムデプロイ カスタムデプロイ 既存のデプロイを使用して、LLMを評価およびモデレートします(サポートされるターゲットタイプ:連続値、二値分類、多クラス、テキスト生成)。
    感情分類器 感情分類器のデプロイ プロンプトまたはレスポンステキストを感情別に分類します。
    PII検出 PresidioのPII検出のデプロイ Microsoft Presidioライブラリを使用して、テキスト内の個人識別情報 (PII) を検出します。
    プロンプトインジェクション プロンプトインジェクション分類器のデプロイ モデルの出力変更を意図した入力操作(システムプロンプトの上書きや変更など)を検出します。
    入力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、プロンプトがトピックに関連し、禁止用語を使用しないようにします。
    出力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、回答がトピックに関連し、禁止用語を使用しないようにします。
    毒性 毒性分類器のデプロイ コンテンツの有害性を分類してモデレーション技術を適用し、有害なコンテンツの拡散を防ぎます。
    ROUGE-1 ベクターデータベース Recall-Oriented Understudy for Gisting Evaluation LLMブループリントから生成された回答とベクターデータベースから取得されたドキュメントの間で類似度を計算します。
    引用 ベクターデータベース ベクターデータベースをプロンプトする際にLLMによって取得されたドキュメントを報告します。
    すべてのトークン N/A LLMへの入力、LLMからの出力、ベクターデータベースから取得したテキストに関連付けられたトークンの数を追跡します。
    プロンプトトークン N/A LLMへの入力に関連付けられたトークンの数を追跡します。
    回答トークン N/A LLMからの出力に関連付けられたトークンの数を追跡します。
    ドキュメントトークン N/A ベクターデータベースから取得したテキストに関連付けられたトークンの数を追跡します。
    待ち時間 N/A LLMブループリントの回答のレイテンシーをレポートします。
    正確性 プレイグラウンドLLM、評価データセット、ベクターデータベース 集計された指標をリファレンスデータセットに対して評価するために、プロンプトのセットまたはプロンプトと回答のペアを提供するか、合成的に生成します。 正確性指標はLlamaIndexのCorrectness Evaluatorを使用します。
    忠実度 プレイグラウンドLLM、ベクターデータベース LLMの回答がソースと一致するかどうかを測定して、考えられるハルシネーションを識別します。 忠実度指標はLlamaIndexのFaithfulness Evaluatorを使用します。

    多クラスカスタムデプロイの指標の制限値

    多クラスカスタムデプロイの指標には、以下の制限があります。

    • モデレーション基準の一致リストで定義できるクラスは最大で10個までです。

    • ガードモデルで使用できるクラス名は最大で100個までです。

    PII検出、プロンプトインジェクション検出、感情分類、毒性分類に必要なデプロイは、 レジストリのグローバルモデルとして利用可能です。 次のグローバルモデルを使用できます。

    モデル タイプ ターゲット 説明
    プロンプトインジェクション分類器 二値 インジェクション テキストをプロンプトインジェクションまたは正当なものとして分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 deberta-v3-base-injectionモデルの詳細を参照してください。
    毒性分類器 二値 毒性 テキストを有毒か無毒に分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 toxic-comment-modelの詳細を参照してください。
    センチメント分類器 二値 センチメント テキストのセンチメントを肯定的か否定的に分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 distilbert-base-uncased-finetuned-sst-2-englishモデルの詳細を参照してください。
    感情分類器 多クラス ターゲット テキストを感情で分類します。 これは多ラベルモデルです。つまり、複数の感情をテキストに適用できます。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 roberta-base-go_emotions-onnxモデルの詳細を参照してください。
    拒否スコア 連続値 ターゲット プロンプトがモデルに設定されている回答範囲を超えているために、LLMがクエリーへの回答を拒否したケースのリストと、入力を比較して、最大類似度スコアを出力します。
    PresidioのPII検出 二値 contains_pii テキスト内の個人を特定できる情報(PII)を検出して置き換えます。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 必要に応じて、検出するPIIのタイプをコンマ区切りの文字列として列'entities'に指定できます。 この列が指定されていない場合は、サポートされているすべてのエンティティが検出されます。 エンティティのタイプは、PresidioがサポートするPIIエンティティのドキュメントに記載されています。

    検出結果に加えて、モデルはanonymized_text列を返します。この列には、検出されたPIIがプレースホルダーに置き換えられた更新バージョンの入力が含まれています。

    詳細については、Presidio: Data Protection and De-identification SDKのドキュメントを参照してください。
    ゼロショット分類器 二値 ターゲット ユーザー指定のラベルを持つテキストに対してゼロショット分類を実行します。 このモデルでは、textという名前の列に分類されたテキストが必要であり、labelsという名前の列にコンマ区切りの文字列としてクラスラベルが必要です。 すべての行に同じラベルセットが必要であるため、最初の行にあるラベルが使用されます。 詳しくは、 deberta-v3-large-zeroshot-v1モデルの詳細を参照してください。
    Pythonダミー二値分類 二値 ターゲット Positiveクラスでは、常に0.75となります。 詳しくは、 python3_dummy_binaryモデルの詳細を参照してください。

    必須の設定オプションは、選択した評価指標(または評価指標タイプ)に応じて異なります。

    設定 説明
    全般的な設定
    名前 評価指標の複数のインスタンスを追加する場合は、一意の名前を入力します。
    適用先 評価指標に応じて、プロンプト回答のどちらか、または両方を選択します。 プロンプトを選択すると、指標の計算に使用されるのは、最後のLLMプロンプトではなく、ユーザープロンプトであることに注意してください。
    カスタムデプロイ、PII検出、プロンプトインジェクション、感情分類器、毒性設定
    デプロイ名 ガードモデルによって計算された評価指標の場合、カスタムモデルデプロイを選択します。
    カスタムデプロイの設定
    入力列名 この名前は、カスタムモデルの作成者によって定義されます。 DataRobotによって作成されたグローバルモデルの場合、デフォルトの入力列名はtextです。 カスタムデプロイのガードモデルにmoderations.input_column_name キー値が定義されている場合、このフィールドは自動的に入力されます。
    出力列名 この名前はカスタムモデル作成者によって定義され、モデルのターゲット列を参照する必要があります。 ターゲット名は、デプロイの 概要タブに表示されます(多くの場合、_PREDICTIONが付加されます)。 カスタムデプロイからCSVデータをエクスポートして表示することで、列名を確認できます。 カスタムデプロイのガードモデルにmoderations.output_column_nameキー値が定義されている場合、これらのフィールドには自動的に値が設定されます。
    正確性と忠実度の設定
    LLM 評価のためにプレイグラウンドLLMを選択します。
    入出力設定のトピックの維持
    LLMタイプ Azure OpenAIまたはOpenAIを選択してから、以下を設定します。
    • Azure OpenAI LLMタイプの場合、OpenAI APIのベースURLOpenAIの資格情報OpenAI APIのデプロイを入力します。
    • OpenAI LLMタイプの場合、資格情報を選択します。
    資格情報は、 資格情報管理ページで定義されます。
    ファイル トピックの維持の評価については、ファイルの横にあるをクリックして、NeMoガードレール設定ファイルを変更します。 特に、prompts.ymlを許可されたトピックとブロックされたトピックで、blocked_terms.txtをブロックされた用語で更新し、NeMoガードレールが実施するルールを提供します。 blocked_terms.txtファイルは、入力と出力の_ トピックの維持 指標間で共有されるため、入力指標のblocked_terms.txtを変更すると出力指標でも変更され、その逆も同様です。 1つのプレイグラウンドには、1つは入力用、もう1つは出力用の2つのNeMo _トピックの維持 指標しか存在できません。
    モデレーション設定
    モデレーションの設定と適用 この設定を有効にすると、モデレーションセクションが展開され、モデレーションロジックの適用タイミングを決定する条件を定義できます。
    コスト指標の設定

    コスト指標では、各LLMタイプの行で、通貨通貨額/トークン数での入力コスト、通貨額/トークン数での出力コストを定義し、追加をクリックします。

    コスト指標には、モデレーションを設定して適用するためのモデレーションセクションが含まれていません。

  3. モデレーションセクションで、モデレーションの設定と適用を有効にして、評価指標ごとに以下を設定します。

    設定 説明
    モデレーションの基準 該当する場合、モデレーションロジックをトリガーするために評価されるしきい値を設定します。 感情分類器の場合、一致または一致しないを選択し、モデレーションロジックをトリガーするクラス(感情)のリストを定義します。
    モデレーション方法 レポートまたはレポートとブロックを選択します。
    モデレーションのメッセージ レポートとブロックを選択すると、オプションでデフォルトのメッセージを変更できます。
  4. 必須フィールドを設定した後、追加をクリックして評価を保存し、評価選択ページに戻ります。

    選択した指標は、評価とモデレーションを設定パネルの設定のサマリーサイドバーに表示されます。

  5. 別の指標を選択して設定するか、設定を保存をクリックします。

    指標は、LLMの評価とモデレーションページに表示されます。 指標の設定中に問題が発生した場合、指標の下にエラーメッセージが表示され、問題の修正方法に関するガイダンスが示されます。

設定済み指標の管理

設定された評価指標をプレイグラウンドから編集または削除するには:

  1. LLMの評価とモデレーションページの右上隅にある指標の設定をクリックします。

  2. 評価とモデレーションを設定パネルにある設定のサマリーサイドバーで、編集アイコン または削除アイコン をクリックします。

  3. 編集 をクリックすると、その指標を再度設定して更新をクリックすることができます。

指標設定のコピー

LLMプレイグラウンドとの間で評価指標の設定をコピーするには:

  1. LLMの評価とモデレーションページの右上隅にある指標の設定の横にある をクリックしてから、設定をコピーをクリックします。

  2. 評価とモデレーション設定のコピーモーダルで、次のいずれかのオプションを選択します。

    既存のプレイグラウンドからを選択した場合は、既存の設定に追加または既存の設定を置換を選択してから、コピー元のプレイグラウンドを選択します。

    既存のプレイグラウンドへを選択した場合は、既存の設定に追加または既存の設定を置換を選択してから、コピー先のプレイグラウンドを選択します。

    新しいプレイグラウンドへを選択した場合は、新しいプレイグラウンド名を入力します。

  3. 評価データセットを含めるかどうかを選択し、設定をコピーをクリックします。

評価指標の重複

既存の設定に追加を選択すると、NeMoの入力のトピックを維持出力のトピックを維持を除いて、指標が重複する可能性があります。 NeMoの_ トピックの維持 _指標は、入力用と出力用の2つしか存在できません。

チャットでの指標の表示

設定してプレイグラウンドに追加する指標は、プレイグラウンドのLLMの回答に表示されます。 下向きの矢印 をクリックして、指標パネルを開いて、詳細を確認することができます。 このパネルで引用 をクリックすると、引用ダイアログボックスにプロンプト、回答、引用のリストが表示されます。 回答に対して、肯定的なフィードバック または否定的なフィードバック を行うこともできます。

さらに、設定されたモデレーションの基準と戦略によってLLMからの回答がブロックされた場合、回答を表示をクリックすると、ブロックされた回答を表示できます。

複数のモデレーションメッセージ

設定された 複数の モデレーションによってLLMからの回答がブロックされた場合、LLMの回答に代わって、トリガーされた各モデレーションのメッセージがチャットに表示されます。 わかりやすいモデレーションメッセージを設定すると、LLMの回答をブロックした理由の詳細なリストを提供できます。

評価データセットの追加

評価データセットの指標と集計された指標を有効にするには、1つ以上の評価データセットをプレイグラウンドに追加します。

  1. LLMプレイグラウンドで評価指標を選択および設定するには、次のいずれかを実行します。

    • プレイグラウンドにブループリントを追加した場合、サイドナビゲーションバーで、 評価およびモデレーション指標を設定するをクリックします。

    • プレイグラウンドにブループリントを追加していない場合は、ブループリントを追加する前に、指標で評価タイルの 評価の設定をクリックして指標を設定します。

      LLMの評価とモデレーションページが開き、指標タブが表示されます。 特定の指標はデフォルトで有効になっていますが、指標値をレポートするには、LLMブループリントに関連付けられたベクターデータベースが引用およびRouge 1に必要です。

  2. LLMの評価とモデレーションタブで、評価データセットタブをクリックして既存のデータセットを表示してから、評価データセットを追加をクリックして、次のいずれかの方法を選択します。

    データセットの追加方法 説明
    評価データセットを追加 評価データセットを追加パネルで、データレジストリテーブルから既存のデータセットを選択するか、新しいデータセットをアップロードします。
    • アップロードをクリックして登録し、ローカルファイルシステムから新しいデータセットを選択します。
    • アップロードの隣)をクリックし、URLからアップロードをクリックしてから、ホストされたデータセットのURLを入力します。
    データセットを選択した後、評価データセットの設定サイドバーで、プロンプト列名回答(ターゲット)列名を定義し、評価データセットを追加をクリックします。
    合成データを生成 データセット名を入力し、LLMを選択し、ベクターデータベースベクターデータベースのバージョン、および合成データを作成するときに使用する言語を設定します。 次に、データの生成をクリックします。 詳細については、 合成データセットの生成を参照してください。
  3. 評価データセットを追加すると、LLMの評価とモデレーションページの評価データセットタブに表示されます。ここで、データセットを開く をクリックして、データを表示することができます。 アクションメニュー をクリックして、 評価データセットを編集したり、 評価データセットを削除したりすることもできます。

合成データセットはどのように生成されますか?

評価データセット指標を追加すると、DataRobotは ベクターデータベースを使用して、プロンプトと回答のペアで構成される合成データセットを生成し、LLMブループリントを評価することができます。 合成データセットは、選択されたベクターデータベースにアクセスして、ベクターをクラスタリングし、各クラスターから代表的なチャンクを抽出し、選択されたLLMに対して、ドキュメントに基づいて100の質問と回答のペアを生成するようプロンプトすることによって生成されます。 合成評価データセットを設定して生成をクリックすると、2つのイベントが連続して発生します。

  1. プレースホルダーデータセットは、必須の列(questionおよびanswer)でデータレジストリに登録されます。これには65行と2列のプレースホルダーデータ(Record for synthetic prompt answer 0Record for synthetic prompt answer 1など)が含まれます。

  2. 選択したLLMとベクターデータベースのペアは質問と回答のペアを生成し、手順1で作成された合成評価データセットの2番目のバージョンとしてデータレジストリに追加されます。 生成時間は、選択したLLMによって異なります。

高品質で多様な質問を生成するために、DataRobotはコサイン類似度ベースのクラスタリングを実行します。 類似するチャンクは同じクラスターにグループ化され、各クラスターは単一の質問と答えのペアを生成します。 したがって、ベクターデータベースに類似したチャンクが多く含まれる場合、それらのチャンクは、非常に少数のクラスターにグループ化されます。 その場合、生成されるペアの数は、ベクターデータベースのチャンクの数よりもはるかに少なくなります。

集計された指標の追加

プレイグラウンドに複数の指標が含まれる場合、集計指標の作成を開始できます。 集計は、多くのプロンプトや回答にわたる指標を組み合わせる処理で、ブループリントを高レベルで評価するのに役立ちます(単一のプロンプト/回答を評価することで多くの内容を学習できます)。 集計では、評価に対するより包括的なアプローチが可能になります。

集計では、元のスコアの平均化、ブール値のカウント、または多クラスモデル内のカテゴリー数の表示が行われます。 DataRobotでは、個々のプロンプト/回答の指標を生成し、指標に基づいてリストされているメソッドの1つを使用して集計することによってこれの処理を行います。

集計された指標を設定するには:

  1. プレイグラウンドで、プロンプト入力の下にある集計の設定をクリックします。

    集計ジョブの実行制限

    一度に実行できる集計指標ジョブは1つだけです。 集計ジョブが現在実行されている場合、 集計の設定ボタンが無効になり、「集計ジョブが進行中です。処理が完了したら、もう一度試してください」というツールチップが表示されます。

  2. 集計された指標を生成パネルで、集計して計算する指標を選択し、集計基準を設定します。 次に、新しいチャット名を入力し、(新しいチャットでプロンプトを生成するための)評価データセットを選択して、指標を生成するLLMブループリントを選択します。 これらのフィールドは、現在のプレイグラウンドに基づいて事前に入力されています。

    評価データセットの選択

    評価データセット指標(正確性など)を選択した場合、その評価データセットの作成に使用した評価データセットを使用する必要があります。

    指標の選択および設定セクションを完了した後、指標の生成をクリックします。 これにより、関連するすべてのプロンプトと回答を含む新しいチャットが作成されます。

    集計された指標は、標準のチャットの個々のプロンプトではなく、評価データセットに対して実行されます。 したがって、集計された指標を表示できるのは、生成され、(LLMの設定ページの)LLMブループリントのすべてのチャットリストに追加された _集計指標チャット_だけです。

    複数のブループリントの集計指標の計算

    指標集計リクエストに多くのLLMブループリントが含まれている場合、集計された指標はブループリントごとに順次計算されます。

  3. 集計されたチャットが生成されたら、集計された指標タブで、結果としての集計指標、スコア、および関連アセットを調べることができます。 集計方法評価データセット指標でフィルターすることができます。

    さらに、現在の設定をクリックすると、設定サイドバーのLLMタブに現在表示されている設定を共有する指標のみを比較できます。

    関連アセットの表示

    テーブル内の各指標について、評価データセット および集計されたチャット をクリックして、集計指標に貢献している対応アセットを表示できます。

  4. LLMブループリントの比較ページに戻り、集計された指標タブを開くと、生成された集計指標でLLMブループリントのパフォーマンスを比較するリーダーボードが表示されます。

コンプライアンステストの設定

評価指標と評価用データセットを組み合わせ、テスト用のプロンプトシナリオを通じて、コンプライアンスの問題を自動的に検出することができます。

評価タブからのコンプライアンステストの管理

評価タブでコンプライアンステストを管理する場合、定義済みのコンプライアンステストを表示したり、カスタムテストの作成と管理を行ったり、組織のテスト要件に合わせて定義済みのテストを変更したりできます。

利用可能なすべてのコンプライアンステストを表示するには:

  1. サイドナビゲーションバーで、 評価およびモデレーション指標を設定するをクリックします。

  2. コンプライアンステストタブをクリックします。 コンプライアンステストタブでは、DataRobotとカスタムの両方(存在する場合)で利用可能なすべてのコンプライアンステストを表示できます。 テーブルには、テスト名、プロバイダー設定(評価および評価データセットの数)の列があります。

  3. テーブルの最終列では、利用可能な操作を使用して、DataRobotのコンプライアンステストを表示し、必要に応じてカスタマイズするか、カスタムコンプライアンステストを管理できます。

DataRobotコンプライアンステストの表示およびカスタマイズ

DataRobotで事前に設定され、利用可能なコンプライアンステストを表示し、必要に応じてカスタマイズするには:

  1. コンプライアンステストタブのテーブルで、プロバイダーとしてDataRobotを使用してテストを確認し、 表示をクリックして、次のコンプライアンステストのいずれかを開いてレビューします。

    コンプライアンステスト 説明
    バイアスベンチマーク 8つの社会的側面におけるバイアスを検証するため、LLMの質問/回答のセットを実行します。
    ジェイルブレイク テストシナリオを適用して、組み込みの安全策がLLMの脱獄コンプライアンス基準を遵守しているかどうかを評価します。
    完全性 LLMの回答が、質問に包括的に答えるのに十分な情報を提供しているかどうかを判定します。
    個人を特定できる情報(PII) LLMの回答にプロンプトに含まれるPIIが含まれているかどうかを判定します。
    毒性 テストシナリオを適用して、組み込みの安全策が有害性コンプライアンス基準を遵守しているかどうかを評価します。 詳細については、 不適切な内容に関する警告を参照してください。
    日本語バイアスベンチマーク 5つの社会的側面におけるバイアスを検証するため、日本語のLLM質問/回答セットを実行します。

    不適切な内容に関する警告

    毒性テスト用の公開評価データセットには、不適切な内容が含まれています。 これは、お客様のモデルやアプリケーションからそのようなコンテンツを排除する目的でのみ使用されることを意図しています。 その他の目的での使用は固く禁じられています。

  2. リストからコンプライアンステストを表示すると、コンプライアンステストプロセスの一環として実行された個々の評価を確認できます。 各テストについて、名前指標評価データセット合格しきい値プロンプトの数を確認できます。 テストをカスタマイズをクリックして、これらの設定にアクセスし、変更します。

  3. 選択したDataRobotテストをカスタムテストのベースとして使用するには、カスタムテストを作成タブで以下の設定を変更します。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価 コンプライアンステストの個別評価。それぞれ、名前指標評価データセット合格のしきい値プロンプト数で構成されます。 デフォルトの指標と評価データセットに加えて、デプロイされた二値分類のサイドカーモデルで実装された任意の評価指標と、ユースケースに追加された任意の評価データセットを選択できます。
    • + 評価を追加をクリックすると、追加の評価が作成されます。
    • 既存のテストからコピーをクリックすると、既存のコンプライアンステストから個別評価がコピーされます。
    API専用のプロセスがあり、expected_response_columnを使用してサイドカーモデルを検証し、事前に提供されたexact_match指標と同様に、LLMの回答と期待される回答を比較する指標を導入します。
  4. コンプライアンステストの設定をカスタマイズしたら、追加をクリックします。 新しいテストがコンプライアンステストタブのテーブルに表示されます。

カスタムコンプライアンステストを作成

カスタムコンプライアンステストを作成するには:

  1. コンプライアンステストタブの上部または下部で、カスタムコンプライアンステストを作成をクリックします。

    評価タブの任意の場所からのコンプライアンステストの作成

    評価タブが開いている状態で、コンプライアンステストタブだけでなく、任意の場所からカスタムコンプライアンステストを作成をクリックできます。

  2. カスタムテストを作成パネルで、以下の設定を行います。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価 コンプライアンステストの個別評価。それぞれ、名前指標評価データセット合格のしきい値プロンプト数で構成されます。 デフォルトの指標と評価データセットに加えて、デプロイされた二値分類のサイドカーモデルによって実装された任意の評価指標と、ユースケースに追加された任意の評価データセットを選択できます。
    • + 評価を追加をクリックすると、追加の評価が作成されます。
    • 既存のテストからコピーをクリックして、既存のコンプライアンステストから個々の評価をコピーします。
    expected_response_columnを使用してサイドカーモデルを検証し、事前に提供されているexact_match指標と同様に、LLMの回答と期待される回答を比較する指標を導入するAPI専用のプロセスがあります。
  3. コンプライアンステストの設定を行った後、追加をクリックします。 新しいテストがコンプライアンステストタブのテーブルに表示されます。

カスタムのコンプライアンステストの管理

カスタムのコンプライアンステストを管理するには、プロバイダーがカスタムとなっているテストを見つけて、管理操作を選択します。

  • 編集アイコン をクリックしてから、カスタムテストを編集パネルでコンプライアンステストの設定を更新して、保存をクリックします。

  • 削除アイコン をクリックし、はい、テストを削除をクリックし、ユースケースのすべてのプレイグラウンドからテストを削除します。

プレイグラウンドタブからのコンプライアンステストの実行

プレイグラウンドタブでコンプライアンステストを実行する場合、定義済みのコンプライアンステストを変更せずに実行したり、カスタムテストを作成したり、組織のテスト要件に合わせて定義済みのテストを変更したりできます。

プレイグラウンドテストからコンプライアンスにアクセスして、テストを実行、変更、または作成するには:

  1. プレイグラウンドタブのLLMブループリントリストで、テストするLLMブループリントをクリックするか、比較のために最大3つのブループリントを選択します。

    ブループリント比較ページからのコンプライアンステストへのアクセス

    2つ以上のLLMブループリントが選択されている場合、ブループリント比較ページからコンプライアンステストタブをクリックして、複数のLLMブループリントのコンプライアンステストを実行し、結果を比較できます。 詳細については、 コンプライアンステスト結果の比較を参照してください。

  2. LLMブループリントで、コンプライアンステストタブをクリックし、テストを作成または実行します。

    • 以前にテストを実行したことがない場合は、タブの中央でコンプライアンステスト結果を利用できないの下にある、コンプライアンステストの実行をクリックします。

    • 以前にテストを実行したことがある場合は、タブの右隅にあるテストを実行をクリックします。

  3. テストを実行パネルが開き、DataRobotで事前に設定されたコンプライアンステストと、作成したカスタムテストのリストが表示されます。

  4. すべてのテストリストからコンプライアンステストを選択すると、コンプライアンステストプロセスの一環として実行された個々の評価を表示できます。 各テストについて、名前指標評価データセット合格しきい値プロンプトの数を確認できます。

  5. 次に、既存のテストの実行、カスタムテストの作成と実行、またはカスタムテストの管理を行います。

既存のコンプライアンステストの実行

既存の設定済みコンプライアンステストを実行するには:

  1. テストを実行パネルにあるすべてのテストリストから、使用可能なDataRobotまたはカスタムテストを選択します。

  2. テストを選択した後、実行をクリックします。

  3. テストがコンプライアンステストタブに実行中...ステータスで表示されます。

    実行中のテストのキャンセル

    実行中...ステータスのテストをキャンセルする必要がある場合は、 テスト結果を削除をクリックします。

カスタムコンプライアンステストの作成と実行

カスタムまたは一部変更したコンプライアンステストを作成して実行するには:

  1. テストを実行パネルのすべてのテストリストから、以下の操作を実行します。

    • DataRobotで事前に設定されたテストを変更してカスタムテストを作成するには、リストからテストを選択してテストをカスタマイズをクリックします。

    • 新しいカスタムテストを作成するには、カスタムテストを作成をクリックします。

  2. カスタムテストパネルで、以下の設定を行います。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価 コンプライアンステストの個別評価。それぞれ、名前指標評価データセット合格のしきい値プロンプト数で構成されます。 デフォルトの指標と評価データセットに加えて、デプロイされた二値分類のサイドカーモデルによって実装された任意の評価指標と、ユースケースに追加された任意の評価データセットを選択できます。
    • + 評価を追加をクリックすると、追加の評価が作成されます。
    • 既存のテストからコピーをクリックして、既存のコンプライアンステストから個々の評価をコピーします。
    expected_response_columnを使用してサイドカーモデルを検証し、事前に提供されているexact_match指標と同様に、LLMの回答と期待される回答を比較する指標を導入するAPI専用のプロセスがあります。
  3. カスタムテストを設定した後、保存して実行をクリックします。

  4. テストがコンプライアンステストタブに実行中...ステータスで表示されます。

    実行中のテストのキャンセル

    実行中...ステータスのテストをキャンセルする必要がある場合は、 テスト結果を削除をクリックします。

コンプライアンステストの実行管理

コンプライアンステストタブで実行中または完了したテストから:

  • 完了したテストの実行を削除するか、実行中のテストをキャンセルして削除するには、 テスト結果を削除をクリックします。
  • 指標を計算しているチャットを表示するには、対応するチャット列のチャット名をクリックします。
  • 指標の計算に使用された評価データセットを表示するには、評価データセット列のデータセット名をクリックします。

カスタムのコンプライアンステストの管理

カスタムコンプライアンステストを管理するには、テストを実行パネルで、すべてのテストリストからカスタムテストを選択し、テストを削除またはテストを編集をクリックします。 DataRobotで事前設定されているテストの編集や削除はできません。

テストを編集を選択した場合は、 コンプライアンステストの作成時に行った設定を更新します。

コンプライアンステスト結果の比較

コンプライアンステスト結果を比較するには、一度に最大3つのLLMブループリントに対してコンプライアンステストを実行できます。 プレイグラウンドタブにあるLLMブループリントリストで、テストするLLMブループリントを最大3つまで選択し、コンプライアンステストタブをクリックしてから、テストを実行をクリックします。

これにより、テストを実行パネルが開き、 単一のブループリントの場合と同様にテストを選択して実行できますが、実行するLLMブループリントを定義することもできます。 デフォルトでは、比較タブで選択されたブループリントがここに一覧表示されます。

コンプライアンステストの実行後、ブループリントの比較ページでそれらを比較することができます。 完了したテスト実行を削除するか、進行中のテスト実行をキャンセルするには、 テスト結果を削除をクリックします。

トレーステーブルの表示

LLMブループリントの実行をトレースすることは、GenAIスタックの多くの部分がどのように機能するかを理解するための強力なツールです。 トレースタブには、プレイグラウンドでのLLMの回答の生成に使用されたすべてのコンポーネントとプロンプティングアクティビティのログが表示されます。 トレースからのインサイトは、プロンプト、ベクターデータベースチャンク、コンテキストウィンドウ内の過去のインタラクションなど、LLMが評価したすべての項目について完全なコンテキストを提供します。 例:

  • DataRobotメタデータ:タイムスタンプ、ユースケース、プレイグラウンド、ベクターデータベース、ブループリントIDに加えて、作成者名とベースLLMをレポートします。 これらは、LLMブループリントとのインタラクションを行うDataRobotオブジェクトから追加情報を表示する必要がある場合に、トレースレコードのソースを特定するのに役立ちます。
  • LLMパラメーター:LLMを呼び出すときに使用されるパラメーターを表示します。これは、温度やシステムプロンプトなどの設定の潜在的なデバッグに役立ちます。
  • プロンプトと回答:チャットの履歴を指定します。トークン数とユーザーフィードバックは、追加の詳細を提供します。
  • レイテンシー:LLMブループリントの各部分のオーケストレーションに関する問題を強調表示します。
  • トークンの使用状況:LLMコストを正確に計算するためにトークンの使用状況の内訳を表示します。
  • 評価とモデレーション(設定されている場合):評価指標とモデレーション指標でのプロンプトまたは回答のスコアリング方法を示します。

トレーステーブルで特定の情報を見つけるには、 フィルターをクリックし、ユーザー名LLMベクターデータベースLLMブループリント名チャット名評価データセット、および評価ステータスでフィルターします。

データレジストリへのトレースデータの送信

データレジストリにアップロードをクリックして、トレーステーブルからデータレジストリにデータをエクスポートします。 警告は、毒性テストの実行結果が含まれ、その毒性テストの結果がデータレジストリのアップロードから除外された場合に、トレーステーブルに表示されます。

指標とコンプライアンステストの設定のモデルワークショップへの送信

LLMブループリントを作成して、ブループリントの設定(評価指標とモデレーションを含む)を行い、回答をテストしてチューニングしたら、LLMブループリントをモデルワークショップに送信します。

  1. ユースケースのプレイグラウンドタブで、ブループリントとして登録するLLMを含むプレイグラウンドをクリックします。

  2. プレイグラウンドで、 LLMを比較してモデルワークショップに送信するLLMブループリントを決定し、次のいずれかを実行します。

    • 比較パネルのLLMブループリントタブで、アクションメニュー をクリックし、 モデルワークショップに送信をクリックします。

    • チャット比較ウィンドウにあるブループリントのヘッダーで LLMブループリントのアクション をクリックし、 モデルワークショップに送信をクリックします。

  3. モデルワークショップに送信モーダルで、最大 12 の評価指標(および設定されたモデレーション)を選択します。

    プレイグラウンドで設定されている場合、引用はここで選択する必要なく、デフォルトで転送に含まれます。 ENABLE_CITATIONS_CONTENT_COLUMNENABLE_CITATIONS_SOURCE_COLUMNENABLE_CITATIONS_PAGE_COLUMNランタイムパラメーターをtrueに設定することで、ワークショップのモデルで引用が有効になります。

    次の評価指標はモデルワークショップでサポートされていないため、このプロセス中には送信できません:コスト正確性レイテンシーすべてのトークン、およびドキュメントトークン

  4. 次に、送信するコンプライアンステストを選択します。 続いて、モデルワークショップに送信をクリックします。

    カスタムモデルを登録し、コンプライアンスドキュメントを生成すると、モデルワークショップに送られたコンプライアンステストが含まれます。

    モデルワークショップでのコンプライアンステスト

    選択したコンプライアンステストは、LLM_TEST_SUITE_ID ランタイムパラメーターによってモデルワークショップのカスタムモデルにリンクされます。 モデルワークショップでカスタムモデルコードを大幅に変更する場合は、LLM_TEST_SUITE_IDランタイムパラメーターをNoneに設定して、変更後のモデルで元のモデル用のコンプライアンスドキュメントが実行されないようにしてください。

  5. 評価指標の転送を完了するには、モデルワークショップでカスタムモデルを設定します


更新しました 2025年3月14日