Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

評価とモデレーションを設定

本機能の提供について

Evaluation and moderation guardrails are off by default. この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ:モデレーションのガードレールを有効にする、モデルレジストリでグローバルモデルを有効にする(プレミアム)、予測応答で追加のカスタムモデル出力を有効にする

評価とモデレーションのガードレールは、組織がプロンプトインジェクションや、悪意のある、有害な、または不適切なプロンプトや回答をブロックするのに役立ちます。 また、ハルシネーションや信頼性の低い回答を防ぎ、より一般的には、モデルをトピックに沿った状態に保つこともできます。 さらに、これらのガードレールは、個人を特定できる情報(PII)の共有を防ぐことができます。 多くの評価およびモデレーションガードレールは、デプロイされたテキスト生成モデル(LLM)をデプロイされたガードモデルに接続します。 These guard models make predictions on LLM prompts and responses, and then report these predictions and statistics to the central LLM deployment. 評価とモデレーションのガードレールを使用するには、まず、LLMのプロンプトや回答について予測するガードモデルを作成してデプロイします。たとえば、ガードモデルは、プロンプトインジェクションや有害な回答を識別することができます。 次に、ターゲットタイプがテキスト生成のカスタムモデルを作成する場合、評価とモデレーションのガードレールを1つ以上定義します。

Important considerations

Before you configure evaluation and moderation guardrails, you should follow these guidelines while deploying guard models and configuring your LLM deployment:

  • Deploy the central LLM on a different prediction environment than the deployed guard models.
  • Set an association ID and enable prediction storage before you start making predictions through the deployed LLM. If you don't set an association ID, the metrics for the moderations won't be calculated on the Custom Metrics tab.

To select and configure evaluation and moderation guardrails:

  1. In the Model workshop, open the Assemble tab of a custom model with the Text Generation target type and assemble a model, either manually from a custom model you created outside of DataRobot or automatically from a model built in a Use Case's LLM playground:

    When you assemble a text generation model with moderations, ensure you configure any required runtime parameters (for example, credentials) or resource settings (for example, public network access). Finally, set the Base environment to [GenAI] Python 3.11 with Moderations:

    リソース設定

    DataRobot recommends creating the LLM custom model using larger resource bundles with more memory and CPU resources.

  2. After you've configured the custom model's required settings, navigate to the Evaluation and Moderation section and click Configure:

  3. In the Configure evaluation and moderation panel, on the Evaluation tab, click one of the following metric cards to configure the required properties:

    Evaluation metric Deployment or API connection 説明
    Custom Deployment Custom deployment Use any deployment to evaluate and moderate your LLM (supported target types: regression, binary classification, multiclass, text generation).
    忠実度 OpenAI API Measure if the LLM response matches the source to identify possible hallucinations.
    PII検出 PresidioのPII検出 Detect Personally Identifiable Information (PII) in text using the Microsoft Presidio library.
    Prompt Injection プロンプトインジェクション分類器 Detect input manipulations, such as overwriting or altering system prompts, intended to modify the model's output.
    Rouge 1 N/A LLMブループリントから生成された回答とベクターデータベースから取得されたドキュメントの間で類似度を計算します。
    センチメント分類器 センチメント分類器 テキストのセンチメントを肯定的か否定的に分類します。
    Stay on topic for inputs NVIDIA NeMo Guardrails API Use NVIDIA NeMo Guardrails to provide topic boundaries, ensuring prompts are topic-relevant and do not use blocked terms.
    Stay on topic for output NVIDIA NeMo Guardrails API Use NVIDIA NeMo Guardrails to provide topic boundaries, ensuring responses are topic-relevant and do not use blocked terms.
    トークン数 N/A LLMへの入力、LLMからの出力、ベクターデータベースから取得したテキストに関連付けられたトークンの数を追跡します。
    毒性 毒性分類器 Classify content toxicity to apply moderation techniques, safeguarding against dissemination of harmful content.

    The deployments required for PII detection, prompt injection detection, sentiment classification, and toxicity classification are available as global models in the registry.

    次のグローバルモデルを使用できます。

    モデル タイプ ターゲット 説明
    プロンプトインジェクション分類器 二値 インジェクション テキストをプロンプトインジェクションまたは正当なものとして分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 deberta-v3-base-injectionモデルの詳細を参照してください。
    毒性分類器 二値 毒性 テキストを有毒か無毒に分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 toxic-comment-modelの詳細を参照してください。
    センチメント分類器 二値 センチメント テキストのセンチメントを肯定的か否定的に分類します。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 distilbert-base-uncased-finetuned-sst-2-englishモデルの詳細を参照してください。
    Emotions Classifier 多クラス ターゲット Classifies text by emotion. This is a multilabel model, meaning that multiple emotions can be applied to the text. このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 詳しくは、 roberta-base-go_emotions-onnxモデルの詳細を参照してください。
    拒否スコア 連続値 ターゲット プロンプトがモデルに設定されている回答範囲を超えているために、LLMがクエリーへの回答を拒否したケースのリストと、入力を比較して、最大類似性スコアを出力します。
    PresidioのPII検出 二値 contains_pii テキスト内の個人を特定できる情報(PII)を検出して置き換えます。 このモデルには、分類するテキストを含むtextという名前の列が1つ必要です。 必要に応じて、検出するPIIのタイプをコンマ区切りの文字列として列'entities'に指定できます。 この列が指定されていない場合は、サポートされているすべてのエンティティが検出されます。 エンティティのタイプは、PresidioがサポートするPIIエンティティのドキュメントに記載されています。

    検出結果に加えて、モデルはanonymized_text列を返します。この列には、検出されたPIIがプレースホルダーに置き換えられた更新バージョンの入力が含まれています。

    詳細については、Presidio: Data Protection and De-identification SDKのドキュメントを参照してください。
    ゼロショット分類器 二値 ターゲット ユーザー指定のラベルを持つテキストに対してゼロショット分類を実行します。 このモデルでは、textという名前の列に分類されたテキストが必要であり、labelsという名前の列にコンマ区切りの文字列としてクラスラベルが必要です。 すべての行に同じラベルセットが必要であるため、最初の行にあるラベルが使用されます。 詳しくは、 deberta-v3-large-zeroshot-v1モデルの詳細を参照してください。
    Pythonダミー二値分類 二値 ターゲット Positiveクラスでは、常に0.75となります。 詳しくは、 python3_dummy_binaryモデルの詳細を参照してください。
  4. Depending on the metric selected above, configure the following fields:

    フィールド 説明
    名前 Enter a unique name if adding multiple instances of the evaluation metric.
    適用先 Select one or both of Prompt and Response, depending on the evaluation metric.
    デプロイ名 For evaluation metrics calculated by a guard model, select the custom model deployment. For a Custom Deployment, you must also configure the following:
    OpenAI API For the Faithfulness evaluation metric, enter an OpenAI API base URL, OpenAI API key, and OpenAI API Deployment.
    NVIDIA API For the Stay on topic evaluations, enter an NVIDIA NeMo Guardrails API key.
    ファイル For the Stay on topic evaluations, modify the NeMo guardrails configuration files.
    モデレーションの基準 Define the criteria that determines when moderation logic is applied.
  5. 必須フィールドを設定したら、追加をクリックして評価を保存し、評価タブに戻ります。 Select and configure another metric, or click Next to proceed to the Moderation tab to configure a moderation strategy.

  6. On Moderation tab, set a Moderation strategy for Prompt moderation and Response moderation. For each evaluation metric, select a Moderation method—either Report or Block (if applicable).

    When you select Block, you can optionally configure the default Display message.

  7. Click Save configuration.

    The guardrails you selected appear in the Evaluation and moderation section of the Assemble tab.

After you add guardrails to a text generation custom model, you can test, register, and deploy the model to make predictions in production. After making predictions, you can view the evaluation metrics on the Custom metrics tab and prompts, responses, and feedback (if configured) on the Data exploration tab.

「トレース中」タブ

When you add moderations to an LLM deployment, you can't view custom metric data by row on the Data exploration > Tracing tab.

View evaluation and moderation guardrails

When a text generation model with guardrails is registered and deployed, you can view the configured guardrails on the registered model's Overview tab and the deployment's Overview tab:


更新しました June 19, 2024