Skip to content

LLM評価ツールの使用

プレミアム機能

LLM評価ツールはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

プレイグラウンドのLLM評価ツールには、評価指標とデータセット、集計された指標、コンプライアンステスト、トレースが含まれます。 LLM評価指標ツールには、以下の項目が含まれます。

LLM評価ツール 説明
評価指標 プレイグラウンドでのプロンプトと回答のパフォーマンス、安全性、運用に関する一連の指標を報告し、設定された指標にモデレーションの基準とアクションを定義します。
評価データセット 評価データセットの指標、集計された指標、およびコンプライアンステストを通じてLLMブループリントを評価するために使用される評価データセットをアップロードまたは生成します。
集計された指標 1つのプロンプトや回答の評価から得られることは限られているため、LLMブループリントを全体的に評価するには、多くのプロンプトと回答の評価指標を組み合わせます。
コンプライアンステスト 評価指標とデータセットを組み合わせ、設定済みまたはカスタムのコンプライアンステストを使用して、コンプライアンスの問題を自動的に検出します。
トレーステーブル プレイグラウンドでLLMの回答生成に使用されるすべてのコンポーネントとプロンプトアクティビティのログを通して、LLMブループリントの実行をトレースします。

評価指標の設定

評価指標を使用すると、パフォーマンス、安全性、運用に関するさまざまな指標を設定することができます。 これらの指標を設定すると、プロンプトと回答が設定したモデレーション基準を満たした場合に介入するモデレーション方法を定義できます。 この機能は、プロンプトインジェクションや、悪意のある、有害な、または不適切なプロンプトや回答を検出してブロックするのに役立ちます。 また、ハルシネーションや信頼度の低い回答を特定し、個人を特定できる情報(PII)の共有を防ぐのにも役立ちます。

評価デプロイの指標

多くの評価指標は、プレイグラウンドで構築されたLLMと、デプロイされたガードモデルを結びつけます。 これらのガードモデルは、LLMのプロンプトと回答で予測を作成し、予測と統計をプレイグラウンドにレポートします。 評価デプロイタイプの指標(カスタムデプロイ、PII検出、プロンプトインジェクション、感情分類器、毒性)のいずれかを使用する場合、LLMのプロンプトや回答に基づいて予測を行うには、 NextGenレジストリから必要なガードモデルをデプロイします。

LLMプレイグラウンドでの評価指標の選択および設定は、LLMブループリントがすでに設定されているかどうかによって異なります。

プレイグラウンドに1つ以上のLLMブループリントを追加した場合、ブループリントが選択されているかどうかにかかわらず、サイドナビゲーションバーの 評価タイルをクリックします。

プレイグラウンドにブループリントを追加していない場合は、指標で評価セクションで、評価の設定を開くをクリックして、LLMブループリントを追加する前に指標を設定します。

どちらの場合も、評価とモデレーションページが開き、指標タブが表示されます。 特定の指標はデフォルトで有効になっています。 Note, however, that to report a metric value for Citations and ROUGE-1, you must first associate a vector database with the LLM blueprint.

新しい設定の作成

プレイグラウンドに新しい評価指標設定を作成するには:

  1. 評価とモデレーションページの右上隅で、指標の設定をクリックします。

  2. 評価とモデレーションの設定パネルで、評価指標をクリックしてから、指標を設定します。 The metrics, requirements, and settings are outlined in the tables below.

    評価指標 要件 説明
    コスト LLMコスト設定 デフォルトまたはカスタムのLLM、通貨、トークンあたりの入力コスト、トークンあたりの出力コストを使用して、LLM回答の生成コストを計算します。 コストの計算には、引用コストも含まれます。 詳細については、コスト指標の設定を参照してください。
    カスタムデプロイ カスタムデプロイ Use an existing deployment to evaluate and moderate your LLM (supported target types: regression, binary classification, multiclass, text generation).
    感情分類器 感情分類器のデプロイ プロンプトまたはレスポンステキストを感情別に分類します。
    PII検出 PresidioのPII検出のデプロイ Microsoft Presidioライブラリを使用して、テキスト内の個人識別情報 (PII) を検出します。
    プロンプトインジェクション プロンプトインジェクション分類器のデプロイ モデルの出力変更を意図した入力操作(システムプロンプトの上書きや変更など)を検出します。
    毒性 毒性分類器のデプロイ コンテンツの有害性を分類してモデレーション技術を適用し、有害なコンテンツの拡散を防ぎます。
    ROUGE-1 ベクターデータベース Recall-Oriented Understudy for Gisting Evaluation LLMブループリントから生成された回答とベクターデータベースから取得されたドキュメントの間で類似度を計算します。
    引用 ベクターデータベース ベクターデータベースをプロンプトする際にLLMによって取得されたドキュメントを報告します。
    すべてのトークン N/A LLMへの入力、LLMからの出力、ベクターデータベースから取得したテキストに関連付けられたトークンの数を追跡します。
    プロンプトトークン N/A LLMへの入力に関連付けられたトークンの数を追跡します。
    回答トークン N/A LLMからの出力に関連付けられたトークンの数を追跡します。
    ドキュメントトークン N/A ベクターデータベースから取得したテキストに関連付けられたトークンの数を追跡します。
    待ち時間 N/A LLMブループリントの回答のレイテンシーをレポートします。
    正確性 LLM, evaluation dataset, vector database 集計された指標をリファレンスデータセットに対して評価するために、プロンプトのセットまたはプロンプトと回答のペアを提供するか、合成的に生成します。 正確性指標はLlamaIndexのCorrectness Evaluatorを使用します。
    忠実度 LLM, vector database LLMの回答がソースと一致するかどうかを測定して、考えられるハルシネーションを識別します。 忠実度指標はLlamaIndexのFaithfulness Evaluatorを使用します。
    Topic control metrics
    入力のトピックを維持 NIM deployment of llama-3.1-nemoguard-8b-topic-control, NVIDIA NeMo guardrails configuration NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、プロンプトがトピックに関連し、禁止用語を使用しないようにします。
    出力のトピックを維持 NIM deployment of llama-3.1-nemoguard-8b-topic-control, NVIDIA NeMo guardrails configuration Uses NVIDIA NeMo Guardrails to provide topic boundaries, ensuring responses are topic-relevant and do not use blocked terms.

    評価指標デプロイのグローバルモデル

    The deployments required for PII detection, prompt injection detection, emotion classification, and toxicity classification are available as global models in Registry

    多クラスカスタムデプロイの指標の制限値

    多クラスカスタムデプロイの指標には、以下の制限があります。

    • モデレーション基準の一致リストで定義できるクラスは最大で10個までです。

    • ガードモデルで使用できるクラス名は最大で100個までです。

    必須の設定オプションは、選択した評価指標(または評価指標タイプ)とLLM Gatewayを使用しているかどうかによって異なります。

    設定 説明
    全般的な設定
    名前 評価指標の複数のインスタンスを追加する場合は、一意の名前を入力します。
    適用先 評価指標に応じて、プロンプト回答のどちらか、または両方を選択します。 プロンプトを選択すると、指標の計算に使用されるのは、最後のLLMプロンプトではなく、ユーザープロンプトであることに注意してください。 This field is only configurable for metrics that apply to both the prompt and the response.
    カスタムデプロイ、PII検出、プロンプトインジェクション、感情分類器、毒性設定
    デプロイ名 ガードモデルによって計算された評価指標の場合、カスタムモデルデプロイを選択します。
    カスタムデプロイの設定
    入力列名 この名前は、カスタムモデルの作成者によって定義されます。 For global models created by DataRobot, the default input column name is text. If the guard model for the custom deployment has the moderations.input_column_name key value defined, this field is populated automatically.
    出力列名 この名前はカスタムモデル作成者によって定義され、モデルのターゲット列を参照する必要があります。 The target name is listed on the deployment's Overview tab (and often has _PREDICTION appended to it). カスタムデプロイからCSVデータをエクスポートして表示することで、列名を確認できます。 If the guard model for the custom deployment has the moderations.output_column_name key value defined, this field is populated automatically.
    正確性と忠実度の設定
    LLM Select an LLM for evaluation.
    Topic control metric settings
    LLMタイプ Azure OpenAIOpenAI、またはNIMを選択します。 For the Azure OpenAI LLM type, additionally enter an OpenAI API base URL and OpenAI API Deployment; for NIM enter a NIM deployment (the llama-3.1-nemoguard-8b-topic-control topic-control model). LLM Gatewayを使用する場合、デフォルトでは、DataRobotが提供する資格情報が指定されます。 ただし、資格情報を変更をクリックして、自身の認証情報を入力できます。
    ファイル トピックの維持の評価については、ファイルの横にあるをクリックして、NeMoガードレール設定ファイルを変更します。 In particular, update prompts.yml with allowed and blocked topics and blocked_terms.txt with the blocked terms, providing rules for NeMo guardrails to enforce. The blocked_terms.txt file is shared between the input and output topic control metrics; therefore, modifying blocked_terms.txt in the input metric modifies it for the output metric and vice versa. Only two topic control metrics can exist in a playground, one for input and one for output.
    モデレーション設定
    モデレーションの設定と適用 この設定を有効にすると、モデレーションセクションが展開され、モデレーションロジックの適用タイミングを決定する条件を定義できます。
    コスト指標の設定

    For the Cost metric, in the row for each LLM type, define a Currency and the Input and Output cost in currency amount / tokens amount format, then click Add:

    コスト指標には、モデレーションを設定して適用するためのモデレーションセクションが含まれていません。

  3. モデレーションセクションで、モデレーションの設定と適用を有効にして、評価指標ごとに以下を設定します。

    設定 説明
    モデレーションの基準 該当する場合、モデレーションロジックをトリガーするために評価されるしきい値を設定します。 For numeric metrics (int or float), you can use less than, greater than, or equals to with a value of your choice. For binary metrics (for example, Stay on topic for inputs), use equals to 0 or 1. For the Emotions Classifier, select Matches or Does not match and define a list of classes (emotions) to trigger moderation logic.
    モデレーション方法 レポートまたはレポートとブロックを選択します。
    モデレーションのメッセージ レポートとブロックを選択すると、オプションでデフォルトのメッセージを変更できます。
  4. 必須フィールドを設定した後、追加をクリックして評価を保存し、評価選択ページに戻ります。

    選択した指標は、評価とモデレーションを設定パネルの設定のサマリーサイドバーに表示されます。

  5. 別の指標を選択して設定するか、設定を保存をクリックします。

    評価とモデレーションページに指標が表示されます。 指標の設定中に問題が発生した場合、指標の下にエラーメッセージが表示され、問題の修正方法に関するガイダンスが示されます。

資格情報を変更

DataRobotは、LLM Gatewayを使用して、利用可能なLLMの資格情報を提供します。 ただし、Azure OpenAIおよびOpenAI LLMタイプでは、認証に自身の資格情報を使用することが可能です。 続行する前に、資格情報管理ページでユーザー指定の資格情報を定義します。

入力のトピックを維持または出力のトピックを維持の資格情報を変更するには、LLMタイプを選択し、資格情報を変更をクリックします。

Azure OpenAI APIのデプロイとOpenAI APIのベースURLを指定します。 次に、ドロップダウンから、適用する資格情報のセットを選択します。

ドロップダウンから、適用する資格情報のセットを選択します。

Select the NIM deployment (for example, the topic-control model). Credentials are typically provided via the deployment configuration.

DataRobotが提供する資格情報に戻すには、資格情報を元に戻すをクリックします。

設定済み指標の管理

設定された評価指標をプレイグラウンドから編集または削除するには:

  1. 評価とモデレーションページの右上隅で、指標の設定をクリックします。

  2. 評価とモデレーションを設定パネルにある設定のサマリーサイドバーで、編集アイコン または削除アイコン をクリックします。

  3. 編集 をクリックすると、その指標を再度設定して更新をクリックすることができます。

指標設定のコピー

LLMプレイグラウンドとの間で評価指標の設定をコピーするには:

  1. 評価とモデレーションページの右上隅で、指標の設定の隣にある をクリックしてから、設定をコピーをクリックします。

  2. 評価とモデレーション設定のコピーモーダルで、次のいずれかのオプションを選択します。

    既存のプレイグラウンドからを選択した場合は、既存の設定に追加または既存の設定を置換を選択してから、コピー元のプレイグラウンドを選択します。

    既存のプレイグラウンドへを選択した場合は、既存の設定に追加または既存の設定を置換を選択してから、コピー先のプレイグラウンドを選択します。

    新しいプレイグラウンドへを選択した場合は、新しいプレイグラウンド名を入力します。

  3. 評価データセットを含めるかどうかを選択し、設定をコピーをクリックします。

評価指標の重複

既存の設定に追加を選択すると、NeMoの入力のトピックを維持出力のトピックを維持を除いて、指標が重複する可能性があります。 Only two topic control metrics can exist, one for input and one for output.

チャットでの指標の表示

設定してプレイグラウンドに追加する指標は、プレイグラウンドのLLMの回答に表示されます。 下向きの矢印 をクリックして、指標パネルを開いて、詳細を確認することができます。 このパネルで引用 をクリックすると、引用ダイアログボックスにプロンプト、回答、引用のリストが表示されます。 回答に対して、肯定的なフィードバック または否定的なフィードバック を行うこともできます。

さらに、設定されたモデレーションの基準と戦略によってLLMからの回答がブロックされた場合、回答を表示をクリックすると、ブロックされた回答を表示できます。

複数のモデレーションメッセージ

設定された 複数の モデレーションによってLLMからの回答がブロックされた場合、LLMの回答に代わって、トリガーされた各モデレーションのメッセージがチャットに表示されます。 わかりやすいモデレーションメッセージを設定すると、LLMの回答をブロックした理由の詳細なリストを提供できます。

評価データセットの追加

評価データセットの指標と集計された指標を有効にするには、1つ以上の評価データセットをプレイグラウンドに追加します。

When using evaluation datasets with an LLM that includes a vector database

Ensure that no column name exists in both the evaluation dataset and the vector database. If any column name exists in both, those columns are treated as metadata filters, and vector database results are excluded from prompts when you run evaluation dataset aggregation. This situation is most common when the vector database was built from a CSV source document.

  1. LLMプレイグラウンドで評価指標を選択および設定するには、次のいずれかを実行します。

    • プレイグラウンドにブループリントを追加した場合は、サイドナビゲーションバーで 評価をクリックします。

    • プレイグラウンドにブループリントを追加していない場合は、指標で評価タイルで、評価の設定を開くをクリックして、ブループリントを追加する前に指標を設定します。

  2. 評価とモデレーションページで、評価データセットタブをクリックして既存のデータセットを表示してから、評価データセットを追加をクリックして、次のいずれかの方法を選択します。

    データセットの追加方法 説明
    評価データセットを追加 評価データセットを追加パネルで、データレジストリテーブルから既存のデータセットを選択するか、新しいデータセットをアップロードします。
    • アップロードをクリックして登録し、ローカルファイルシステムから新しいデータセットを選択します。
    • URLからアップロードをクリックしてから、ホストされたデータセットのURLを入力し、追加をクリックします。
    データセットを選択した後、評価データセットの設定サイドバーで、プロンプト列名回答(ターゲット)列名を定義し、評価データセットを追加をクリックします。
    合成データを生成 データセット名を入力し、LLMを選択し、ベクターデータベースベクターデータベースのバージョン、および合成データを作成するときに使用する言語を設定します。 次に、データの生成をクリックします。 詳細については、 合成データセットの生成を参照してください。
  3. 評価データセットを追加すると、評価とモデレーションページの評価データセットタブに表示されます。ここで、データセットを開く をクリックして、データを表示することができます。 アクションメニュー をクリックして、 評価データセットを編集したり、 評価データセットを削除したりすることもできます。

合成データセットはどのように生成されますか?

評価データセット指標を追加すると、DataRobotは ベクターデータベースを使用して、プロンプトと回答のペアで構成される合成データセットを生成し、LLMブループリントを評価することができます。 合成データセットは、選択されたベクターデータベースにアクセスして、ベクターをクラスタリングし、各クラスターから代表的なチャンクを抽出し、選択されたLLMに対して、ドキュメントに基づいて100の質問と回答のペアを生成するようプロンプトすることによって生成されます。 合成評価データセットを設定して生成をクリックすると、2つのイベントが連続して発生します。

  1. プレースホルダーデータセットは、必須の列(questionおよびanswer)でデータレジストリに登録されます。これには65行と2列のプレースホルダーデータ(Record for synthetic prompt answer 0Record for synthetic prompt answer 1など)が含まれます。

  2. 選択したLLMとベクターデータベースのペアは質問と回答のペアを生成し、手順1で作成された合成評価データセットの2番目のバージョンとしてデータレジストリに追加されます。 生成時間は、選択したLLMによって異なります。

高品質で多様な質問を生成するために、DataRobotはコサイン類似度ベースのクラスタリングを実行します。 類似するチャンクは同じクラスターにグループ化され、各クラスターは単一の質問と答えのペアを生成します。 したがって、ベクターデータベースに類似したチャンクが多く含まれる場合、それらのチャンクは、非常に少数のクラスターにグループ化されます。 その場合、生成されるペアの数は、ベクターデータベースのチャンクの数よりもはるかに少なくなります。

集計された指標の追加

プレイグラウンドに複数の指標が含まれる場合、集計指標の作成を開始できます。 集計は、多くのプロンプトや回答にわたる指標を組み合わせる処理で、ブループリントを高レベルで評価するのに役立ちます(単一のプロンプト/回答を評価することで多くの内容を学習できます)。 集計では、評価に対するより包括的なアプローチが可能になります。

集計では、元のスコアの平均化、ブール値のカウント、または多クラスモデル内のカテゴリー数の表示が行われます。 DataRobotでは、個々のプロンプト/回答の指標を生成し、指標に基づいてリストされているメソッドの1つを使用して集計することによってこれの処理を行います。

集計された指標を設定するには:

  1. プレイグラウンドで、プロンプト入力の下にある集計の設定をクリックします。

    集計ジョブの実行制限

    一度に実行できる集計指標ジョブは1つだけです。 集計ジョブが現在実行されている場合、 集計の設定ボタンが無効になり、「集計ジョブが進行中です。処理が完了したら、もう一度試してください」というツールチップが表示されます。

  2. 集計された指標を生成パネルで、集計して計算する指標を選択し、集計基準を設定します。 次に、新しいチャット名を入力し、(新しいチャットでプロンプトを生成するための)評価データセットを選択して、指標を生成するLLMブループリントを選択します。 これらのフィールドは、現在のプレイグラウンドに基づいて事前に入力されています。

    評価データセットの選択

    評価データセット指標(正確性など)を選択した場合、その評価データセット指標の作成に使用した評価データセットを使用する必要があります。

    指標の選択および設定セクションを完了した後、指標の生成をクリックします。 これにより、関連するすべてのプロンプトと回答を含む新しいチャットが作成されます。

    集計された指標は、標準のチャットの個々のプロンプトではなく、評価データセットに対して実行されます。 したがって、集計された指標を表示できるのは、生成され、(LLMの設定ページの)LLMブループリントのすべてのチャットリストに追加された _集計指標チャット_だけです。

    複数のブループリントの集計指標の計算

    指標集計リクエストに多くのLLMブループリントが含まれている場合、集計された指標はブループリントごとに順次計算されます。

  3. 集計されたチャットが生成されたら、集計された指標タブで、結果としての集計指標、スコア、および関連アセットを調べることができます。 集計方法評価データセット指標でフィルターすることができます。

    また、現在の設定をクリックすると、設定サイドバーのLLMタブで現在定義されているブループリント設定に対して計算された指標のみを比較できます。

    関連アセットの表示

    テーブル内の各指標について、評価データセット および集計されたチャット をクリックして、集計指標に貢献している対応アセットを表示できます。

  4. LLMブループリントの比較ページに戻り、集計された指標タブを開くと、生成された集計指標でLLMブループリントのパフォーマンスを比較するリーダーボードが表示されます。

コンプライアンステストの設定

評価指標と評価用データセットを組み合わせ、テスト用のプロンプトシナリオを通じて、コンプライアンスの問題を自動的に検出することができます。

評価タブからのコンプライアンステストの管理

評価タブでコンプライアンステストを管理する場合、定義済みのコンプライアンステストを表示したり、カスタムテストの作成と管理を行ったり、組織のテスト要件に合わせて定義済みのテストを変更したりできます。

利用可能なすべてのコンプライアンステストを表示するには:

  1. サイドナビゲーションバーで 評価タイルをクリックします。

  2. コンプライアンステストタブをクリックします。 コンプライアンステストタブでは、DataRobotとカスタムの両方(存在する場合)で利用可能なすべてのコンプライアンステストを表示できます。 テーブルには、テスト名、プロバイダー設定(評価および評価データセットの数)の列があります。

DataRobotコンプライアンステストの表示およびカスタマイズ

表示オプションを使用して確認し、必要に応じて次の操作を行います。

  • 特定のテストでのLLMの変更など、DataRobotで事前設定されたコンプライアンステストをカスタマイズします。
  • カスタムコンプライアンステストを管理します。

コンプライアンステストタブのテーブルで、 表示をクリックして、DataRobotプロバイダーであるコンプライアンステストを開いて確認します。

コンプライアンステスト 説明 評価LLM ベース
バイアスベンチマーク 8つの社会的側面におけるバイアスを検証するため、LLMの質問/回答のセットを実行します。 GPT-4o AI Verify Foundation
ジェイルブレイク テストシナリオを適用して、組み込みの安全策がLLMの脱獄コンプライアンス基準を遵守しているかどうかを評価します。 カスタマイズ可能 jailbreak_llms
完全性 LLMの回答が、質問に包括的に答えるのに十分な情報を提供しているかどうかを判定します。 GPT-4o 内部
個人を特定できる情報(PII) LLMの回答にプロンプトに含まれるPIIが含まれているかどうかを判定します。 カスタマイズ可能 内部
毒性 テストシナリオを適用して、組み込みの安全策が有害性コンプライアンス基準を遵守しているかどうかを評価します。 詳細については、 不適切な内容に関する警告を参照してください。 カスタマイズ可能 Hugging Face
日本語バイアスベンチマーク 5つの社会的側面におけるバイアスを検証するため、日本語のLLM質問/回答セットを実行します。 GPT-4o AI Verify Foundation

不適切な内容に関する警告

毒性テスト用の公開評価データセットには、不適切な内容が含まれています。 It is intended to be used exclusively for the purpose of eliminating such content from external models and applications. その他の目的での使用は固く禁じられています。

バイアステスト

バイアステストは、AI Verify Foundationが提供する以下のmoonshot-dataデータセットに基づいています。

リストからコンプライアンステストを表示すると、コンプライアンステストプロセスの一部として実行された個々の評価を確認できます。 すべてのテストについて、名前指標LLM評価データセット合格のしきい値プロンプト数を確認できます。 LLMフィールドに-と表示されているテストでは、GPT-4oが使用されます。 以下のテストでは、LLMのデフォルトはGPT-4oですが、カスタマイズできます。

  • ジェイルブレイク
  • 毒性
  • PII

以下のように、選択したDataRobotテストをカスタムテストのベースとして使用します。

  1. 修正したいテストの 表示を選択します。

  2. テストをカスタマイズをクリックします。

  3. カスタムテストを作成モーダルから、コンプライアンステスト設定の個々の評価を変更します。

    備考

    デフォルトの指標と評価データセットに加えて、デプロイ済みの二値分類サイドカーモデルで実装されている評価指標と、ユースケースに追加された評価データセットを選択できます。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価*
    名前 個々の指標の名前。
    指標 照合する基準。
    LLM 回答の評価に使用されるLLM。 このフィールドは、ジェイルブレイク、毒性、およびPIIのコンプライアンステストで有効です。 それ以外では、GPT-4oが使用されます。
    評価データセット 指標の計算に使用されるデータセット
    合格のしきい値 評価に合格するために最低限必要な合格回答の割合。
    プロンプト数 評価に使われたデータセットの行数。
    評価を追加 さらに評価を作成します。
    既存のテストからコピー 既存のコンプライアンステストから個々の評価をコピーします。

    * Use the API-only process, expected_response_column, to validate a sidecar model with metrics you are introducing. It compares the LLM response with an expected response, similar to the pre-provided exact_match metric.

  4. コンプライアンステストの設定をカスタマイズしたら、追加をクリックします。 新しいテストがコンプライアンステストタブのテーブルに表示されます。

カスタムコンプライアンステストを作成

カスタムコンプライアンステストを作成するには:

  1. コンプライアンステストタブの上部または下部で、カスタムコンプライアンステストを作成をクリックします。

    評価タブの任意の場所からのコンプライアンステストの作成

    評価タブが開いている状態で、コンプライアンステストタブだけでなく、任意の場所からカスタムコンプライアンステストを作成をクリックできます。

  2. カスタムテストを作成パネルで、以下の設定を行います。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価*
    名前 個々の指標の名前。
    指標 照合する基準。
    LLM 回答の評価に使用されるLLM。 このフィールドは、ジェイルブレイク、毒性、およびPIIのコンプライアンステストで有効です。 それ以外では、GPT-4oが使用されます。 このフィールドを設定する前に、指標を設定する必要があります。
    評価データセット 指標の計算に使用されるデータセット
    合格のしきい値 評価に合格するために最低限必要な合格回答の割合。
    プロンプト数 評価に使われたデータセットの行数。
    評価を追加 さらに評価を作成します。
    既存のテストからコピー 既存のコンプライアンステストから個々の評価をコピーします。
  3. コンプライアンステストの設定を行った後、追加をクリックします。 新しいテストがコンプライアンステストタブのテーブルに表示されます。

カスタムのコンプライアンステストの管理

カスタムのコンプライアンステストを管理するには、プロバイダーがカスタムとなっているテストを見つけて、管理操作を選択します。

  • 編集アイコン をクリックしてから、カスタムテストを編集パネルでコンプライアンステストの設定を更新して、保存をクリックします。

  • 削除アイコン をクリックし、はい、テストを削除をクリックし、ユースケースのすべてのプレイグラウンドからテストを削除します。

プレイグラウンドからコンプライアンステストを実行する

プレイグラウンドタイルでコンプライアンステストを実行する場合、定義済みのコンプライアンステストを変更せずに実行したり、カスタムテストを作成したり、組織のテスト要件に合わせて定義済みのテストを変更したりできます。

プレイグラウンドテストからコンプライアンスにアクセスして、テストを実行、変更、または作成するには:

  1. プレイグラウンドタイルのLLMブループリントリストで、テストするLLMブループリントをクリックするか、比較するブループリントを最大3つ選択します。

    ブループリント比較ページからのコンプライアンステストへのアクセス

    2つ以上のLLMブループリントが選択されている場合、ブループリント比較ページからコンプライアンステストタブをクリックして、複数のLLMブループリントのコンプライアンステストを実行し、結果を比較できます。 詳細については、 コンプライアンステスト結果の比較を参照してください。

  2. LLMブループリントで、コンプライアンステストタブをクリックして、テストを作成または実行します。 以前にテストを実行したことがない場合は、コンプライアンステストの結果がないことを示すメッセージが表示されます。 以前にテストを実行したことがある場合は、テスト結果が表示されます。 いずれの場合も、テストを実行をクリックしてテストパネルを開きます。

  3. テストを実行パネルが開き、DataRobotで事前に設定されたコンプライアンステストと、作成したカスタムテストのリストが表示されます。

  4. すべてのテストリストからコンプライアンステストを選択すると、コンプライアンステストプロセスの一環として実行された個々の評価を表示できます。 各テストについて、名前指標評価データセット合格しきい値プロンプトの数を確認できます。

  5. 次に、既存のテストの実行、カスタムテストの作成と実行、またはカスタムテストの管理を行います。

既存のコンプライアンステストの実行

既存の設定済みコンプライアンステストを実行するには:

  1. テストを実行パネルにあるすべてのテストリストから、使用可能なDataRobotまたはカスタムテストを選択します。

  2. テストを選択した後、実行をクリックします。

  3. テストがコンプライアンステストタブに実行中...ステータスで表示されます。

    実行中のテストのキャンセル

    実行中...ステータスのテストをキャンセルする必要がある場合は、 テスト結果を削除をクリックします。

カスタムコンプライアンステストの作成と実行

カスタムまたは一部変更したコンプライアンステストを作成して実行するには:

  1. テストを実行パネルのすべてのテストリストから、以下の操作を実行します。

    • DataRobotで事前に設定されたテストを変更してカスタムテストを作成するには、リストからテストを選択してテストをカスタマイズをクリックします。

    • 新しいカスタムテストを作成するには、カスタムテストを作成をクリックします。

  2. カスタムテストパネルで、以下の設定を行います。

    設定 説明
    名前 カスタムコンプライアンステストのわかりやすい名前。
    説明 コンプライアンステストの目的の説明(これは、既存のDataRobotテストを変更すると事前入力されます)。
    テスト合格のしきい値 テスト全体が合格となるために、最低限合格する必要がある個別評価の割合(0~100%)。
    評価 コンプライアンステストの個別評価。それぞれ、名前指標評価データセット合格のしきい値プロンプト数で構成されます。 In addition to the default metrics and evaluation datasets, you can select any evaluation metrics implemented by a deployed binary classification sidecar model and any evaluation datasets added to the Use Case.
    • Click + Add evaluation to create additional evaluations.
    • Click Copy from existing test to copy the individual evaluations from an existing compliance test.
    There is an API-only process to validate a sidecar model with expected_response_column to introduce metrics comparing the LLM response with and expected response, similar to the pre-provided exact_match metric.
  3. カスタムテストを設定した後、保存して実行をクリックします。

  4. テストがコンプライアンステストタブに実行中...ステータスで表示されます。

    実行中のテストのキャンセル

    実行中...ステータスのテストをキャンセルする必要がある場合は、 テスト結果を削除をクリックします。

コンプライアンステストの実行管理

コンプライアンステストタブで実行中または完了したテストから:

  • 完了したテストの実行を削除するか、実行中のテストをキャンセルして削除するには、 テスト結果を削除をクリックします。
  • 指標を計算しているチャットを表示するには、対応するチャット列のチャット名をクリックします。
  • 指標の計算に使用された評価データセットを表示するには、評価データセット列のデータセット名をクリックします。

カスタムのコンプライアンステストの管理

カスタムコンプライアンステストを管理するには、テストを実行パネルで、すべてのテストリストからカスタムテストを選択し、テストを削除またはテストを編集をクリックします。 DataRobotで事前設定されているテストの編集や削除はできません。

テストを編集を選択した場合は、 コンプライアンステストの作成時に行った設定を更新します。

コンプライアンステスト結果の比較

コンプライアンステスト結果を比較するには、一度に最大3つのLLMブループリントに対してコンプライアンステストを実行できます。 プレイグラウンドタイルのLLMブループリントリストで、テストするLLMブループリントを最大3つ選択し、コンプライアンステストタブをクリックして、テストを実行をクリックします。

これにより、テストを実行パネルが開き、 単一のブループリントの場合と同様にテストを選択して実行できますが、実行するLLMブループリントを定義することもできます。 デフォルトでは、比較タブで選択されたブループリントがここに一覧表示されます。

コンプライアンステストの実行後、ブループリントの比較ページでそれらを比較することができます。 完了したテスト実行を削除するか、進行中のテスト実行をキャンセルするには、 テスト結果を削除をクリックします。

トレーステーブルの表示

LLMブループリントの実行をトレースすることは、GenAIスタックの多くの部分がどのように機能するかを理解するための強力なツールです。 トレースタブには、プレイグラウンドでのLLMの回答の生成に使用されたすべてのコンポーネントとプロンプティングアクティビティのログが表示されます。 トレースからのインサイトは、プロンプト、ベクターデータベースチャンク、コンテキストウィンドウ内の過去のインタラクションなど、LLMが評価したすべての項目について完全なコンテキストを提供します。 例:

  • DataRobotメタデータ:タイムスタンプ、ユースケース、プレイグラウンド、ベクターデータベース、ブループリントIDに加えて、作成者名とベースLLMをレポートします。 これらは、LLMブループリントとのインタラクションを行うDataRobotオブジェクトから追加情報を表示する必要がある場合に、トレースレコードのソースを特定するのに役立ちます。
  • LLMパラメーター:LLMを呼び出すときに使用されるパラメーターを表示します。これは、温度やシステムプロンプトなどの設定の潜在的なデバッグに役立ちます。
  • プロンプトと回答:チャットの履歴を指定します。トークン数とユーザーフィードバックは、追加の詳細を提供します。
  • レイテンシー:LLMブループリントの各部分のオーケストレーションに関する問題を強調表示します。
  • トークンの使用状況:LLMコストを正確に計算するためにトークンの使用状況の内訳を表示します。
  • 評価とモデレーション(設定されている場合):評価指標とモデレーション指標でのプロンプトまたは回答のスコアリング方法を示します。

トレーステーブルで特定の情報を見つけるには、 フィルターをクリックし、ユーザー名LLMベクターデータベースLLMブループリント名チャット名評価データセット、および評価ステータスでフィルターします。

データレジストリへのトレースデータの送信

データレジストリにアップロードをクリックして、トレーステーブルからデータレジストリにデータをエクスポートします。 警告は、毒性テストの実行結果が含まれ、その毒性テストの結果がデータレジストリのアップロードから除外された場合に、トレーステーブルに表示されます。

指標とコンプライアンステストの設定をワークショップに送る

LLMブループリントを作成して、ブループリントの設定(評価指標やモデレーションを含む)を行い、回答をテストおよびチューニングしたら、LLMブループリントをワークショップに送ります。

  1. ユースケースで、プレイグラウンドタイルから、ブループリントとして登録したいLLMを含むプレイグラウンドをクリックします。

  2. プレイグラウンドでLLMを比較して、ワークショップに送信するLLMブループリントを決定し、次のいずれかを実行します。

    • LLMブループリントタブで、アクションメニュー をクリックし、 ワークショップに送信をクリックします。

    • チャット比較ウィンドウのブループリントのヘッダーで、LLMBPのアクション をクリックし、 ワークショップに送信をクリックします。

  3. ワークショップに送信モーダルで、最大12個の評価指標(および設定済みのモデレーション)を選択します。

    ワークショップにすべての指標を送信できないのはなぜですか?

    一部の指標は、プレイグラウンドからワークショップに送信されたLLMを登録してデプロイすると、デフォルトでサポートされます。その他の指標は、カスタム指標を使用して設定可能です。 以下の表に、このプロセスでは選択できない評価指標と、コンソールで使用できる代わりの指標を示します。

    指標 コンソールでの同等の指標
    引用 引用は、データ探索 > トレースタブで提供されます。 プレイグラウンドで設定された引用は、デフォルトで転送に含まれます。ワークショップに送信モーダルでオプションを選択する必要はありません。 The resulting custom model has the ENABLE_CITATION_COLUMNS runtime parameter configured. そのカスタムモデルをデプロイした後、データ探索タブが有効で、関連付けIDが指定されている場合、ワークショップに送信されたモデルで引用を入手できます。
    コスト コストは、デプロイのモニタリング > カスタム指標タブで計算できます。
    正確性 正確性は、デプロイされたモデルでは利用できません。
    待ち時間 レイテンシーは、モニタリング > サービスの正常性タブとモニタリング > カスタム指標タブで計算されます。
    すべてのトークン すべてのトークンはカスタム指標タブで計算できますが、プロンプトトークンと回答トークンの指標を個別に追加することもできます。
    ドキュメントトークン ドキュメントトークンは、デプロイされたモデルでは利用できません。
  4. 次に、送信するコンプライアンステストを選択します。 次に、ワークショップに送信をクリックします。

    カスタムモデルを登録し、コンプライアンスドキュメントを生成すると、ワークショップに送られたコンプライアンステストが含まれます。

    ワークショップでのコンプライアンステスト

    選択されたコンプライアンステストは、LLM_TEST_SUITE_IDランタイムパラメーターによってワークショップのカスタムモデルにリンクされます。 ワークショップでカスタムモデルのコードを大幅に変更した場合は、LLM_TEST_SUITE_IDランタイムパラメーターをNoneに設定して、元のモデル用のコンプライアンスドキュメントが変更後のモデルで実行されないようにします。

  5. 評価指標の転送を完了するには、ワークショップでカスタムモデルを設定します。