DataRobotのモデレーションを備えたNVIDIA NeMo Guardrailsの使用¶
プレミアム機能
DataRobotでNVIDIA Inference Microservices (NIM)を利用するには、GenAIのエクスペリメントとGPUを使用した推論のためのプレミアム機能にアクセスする必要があります。 NVIDIA NeMo Guardrailsはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
追加の機能フラグ:モデレーションのガードレールを有効にする(プレミアム機能)、モデルレジストリでグローバルモデルを有効にする(プレミアム機能)、予測応答で追加のカスタムモデル出力を有効にする
DataRobotには、すぐに使用できるガードレールが用意されており、単純なルール、コード、またはモデルを使用してアプリケーションをカスタマイズできます。 NVIDIA Inference Microservices (NIM)を使用して、DataRobotのテキスト生成モデルにNVIDIA NeMo Guardrailsを接続することで、トピックから外れたディスカッション、安全でないコンテンツ、ジェイルブレイクの試みから保護できます。
The following NVIDIA NeMo Guardrails are available as a NIM and can be implemented using the associated evaluation metric type:
| モデル名 | 評価指標のタイプ |
|---|---|
llama-3.1-nemoguard-8b-topic-control |
入力のトピックを維持 / 出力のトピックを維持 |
llama-3.1-nemoguard-8b-content-safety |
コンテンツの安全性 |
nemoguard-jailbreak-detect |
ジェイルブレイク |
In addition, DataRobot provides access to NeMo Evaluator metrics (LLM Judge, Context Relevance, Response Groundedness, Topic Adherence, Agent Goal Accuracy, Response Relevancy, Faithfulness) in the Configure evaluation and moderation panel of the NeMo metrics section. Those metrics require a NeMo evaluator workload deployment (created via the Workload API) and are listed in the NeMo metrics section of that panel. This page covers NVIDIA NeMo Guardrails (Stay on topic, Content safety, Jailbreak) via NIM deployments.
デプロイされたNIMをNVIDIA NeMo Guardrailsで使用する¶
To use a deployed llama-3.1-nemoguard-8b-topic-control NVIDIA NIM with the topic control evaluation metrics, register and deploy the NVIDIA NeMo Guardrail. Once you have created a custom model with the text generation target type, configure the topic control evaluation metric.
トピック制御のためにNVIDIA NeMo Guardrailsを選択して設定するには:
-
ワークショップにおいて、ターゲットタイプがテキスト生成のカスタムモデルのアセンブルタブを開き、モデルを構築します。構築方法は、DataRobot以外で作成したカスタムモデルから手動で行うか、ユースケースのLLMプレイグラウンドで構築されたモデルから自動で行うかのいずれかです。
モデレーションを使ってテキスト生成モデルを構築する場合、必要なランタイムパラメーター(資格情報など)の設定やリソース設定(パブリックネットワークへのアクセスなど)を必ず行います。 最後に、基本環境をモデレーション対応の環境([GenAI] Python 3.12 with Moderationsなど)に設定します。
リソース設定
DataRobotでは、より多くのメモリーおよびCPUリソースを備えた、より大きなリソースバンドルを使用してLLMカスタムモデルを作成することをお勧めします。
-
カスタムモデルに必要な設定を行ったら、評価とモデレーションセクションに移動し、 設定をクリックします。
-
評価とモデレーションを設定パネルで、NVIDIA NeMo GuardrailsまたはNVIDIAのタグが付いている指標を探し、使用したい指標を選択します。
評価指標 要件 説明 1 コンテンツの安全性 A deployed NIM model llama-3.1-nemoguard-8b-content-safety imported from NVIDIA GPU Cloud (NGC) Catalog. プロンプトと回答を安全または安全でないものとして分類し、検出された安全でないカテゴリーのリストを返します。 2 ジェイルブレイク A deployed NIM model nemoguard-jailbreak-detect imported from NVIDIA GPU Cloud (NGC) Catalog. NemoGuard JailbreakDetectを使ってジェイルブレイクの試みを分類します。 3 入力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、プロンプトがトピックに関連し、禁止用語を使用しないようにします。 4 出力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、回答がトピックに関連し、禁止用語を使用しないようにします。 -
評価とモデレーションを設定ページで、選択した指標に基づいて以下のフィールドを設定します。
フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用対象 入力トピック維持がプロンプトに適用されます。 出力トピック維持が回答に適用されます。 LLMのタイプ LLMのタイプをNIMに設定します。 NIMのデプロイ NVIDIA NIMのデプロイを選択します。 詳細については、NVIDIA NIMによるインポートとデプロイを参照してください。 資格情報 リストからDataRobot APIキーを選択します。 資格情報は、資格情報管理ページで定義されます。 ファイル (オプション)NeMoファイルを設定します。 ファイルの横にある をクリックして、NeMo Guardrailsの設定ファイルを変更します。 In particular, update prompts.yml with allowed and blocked topics and blocked_terms.txt with the blocked terms, providing rules for NeMo guardrails to enforce. The blocked_terms.txt file is shared between the input and output topic control metrics; therefore, modifying blocked_terms.txt in the input metric modifies it for the output metric and vice versa. Only two topic control metrics can exist in a custom model, one for input and one for output. フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用対象 プロンプトと回答の両方にコンテンツの安全性を適用します。 デプロイ名 In the list, locate the name of the llama-3.1-nemoguard-8b-content-safety model registered and deployed in DataRobot and click the deployment name. フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用先 プロンプトにジェイルブレイクを適用します。 デプロイ名 In the list, locate the name of the nemoguard-jailbreak-detect model registered and deployed in DataRobot and click the deployment name. -
モデレーションセクションで、モデレーションの設定と適用を有効にして、評価指標ごとに以下を設定します。
フィールド 説明 モデレーション方法 レポートまたはレポートとブロックを選択します。 モデレーションのメッセージ レポートとブロックを選択すると、オプションでデフォルトのメッセージを変更できます。 -
必須フィールドを設定した後、追加をクリックして評価を保存し、評価選択ページに戻ります。 次に、別の指標を選択して設定するか、設定を保存をクリックします。
選択したガードレールは、アセンブルタブの評価とモデレーションセクションに表示されます。
テキスト生成カスタムモデルにガードレールを追加した後、モデルを テスト、 登録、および デプロイして本番環境で予測を作成できます。 予測を作成した後、 カスタム指標 タブで評価指標を表示し、 データ探索タブでプロンプト、回答、およびフィードバック(設定されている場合)を表示できます。








