DataRobotのモデレーションを備えたNVIDIA NeMo Guardrailsの使用¶
プレミアム機能
DataRobotでNVIDIA Inference Microservices (NIM)を利用するには、GenAIのエクスペリメントとGPUを使用した推論のためのプレミアム機能にアクセスする必要があります。 NVIDIA NeMo Guardrailsはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
追加の機能フラグ:モデレーションのガードレールを有効にする(プレミアム機能)、モデルレジストリでグローバルモデルを有効にする(プレミアム機能)、予測応答で追加のカスタムモデル出力を有効にする
DataRobotには、すぐに使用できるガードレールが用意されており、単純なルール、コード、またはモデルを使用してアプリケーションをカスタマイズできます。 NVIDIA Inference Microservices (NIM)を使用して、DataRobotのテキスト生成モデルにNVIDIA NeMo Guardrailsを接続することで、トピックから外れたディスカッション、安全でないコンテンツ、ジェイルブレイクの試みから保護できます。
以下のNVIDIA NeMo GuardrailsがNIMとして利用可能であり、関連する評価指標タイプを使用して実装できます。
| モデル名 | 評価指標のタイプ |
|---|---|
llama-3.1-nemoguard-8b-topic-control |
入力のトピックを維持 / 出力のトピックを維持 |
llama-3.1-nemoguard-8b-content-safety |
コンテンツの安全性 |
nemoguard-jailbreak-detect |
ジェイルブレイク |
さらに、DataRobotでは、NeMo指標セクションの評価とモデレーションを設定パネルで、NeMo Evaluator指標(LLM Judge, Context Relevance, Response Groundedness, Topic Adherence, Agent Goal Accuracy, Response Relevancy, Faithfulness)を利用できます。 これらの指標には、NeMo Evaluatorワークロードのデプロイ(ワークロードAPIを使用して作成)が必要であり、そのパネルのNeMo指標セクションに一覧表示されます。 このページでは、NIMデプロイ経由のNVIDIA NeMo Guardrails(トピックの維持、コンテンツの安全性、ジェイルブレイク)について説明します。
デプロイされたNIMをNVIDIA NeMo Guardrailsで使用する¶
トピック制御の評価指標を備えた、デプロイ済みのllama-3.1-nemoguard-8b-topic-control NVIDIA NIMを使用するには、NVIDIA NeMo Guardrailを登録してデプロイします。 ターゲットタイプがテキスト生成のカスタムモデルを作成したら、トピック制御の評価指標を設定します。
トピック制御のためにNVIDIA NeMo Guardrailsを選択して設定するには:
-
ワークショップにおいて、ターゲットタイプがテキスト生成のカスタムモデルのアセンブルタブを開き、モデルを構築します。構築方法は、DataRobot以外で作成したカスタムモデルから手動で行うか、ユースケースのLLMプレイグラウンドで構築されたモデルから自動で行うかのいずれかです。
モデレーションを使ってテキスト生成モデルを構築する場合、必要なランタイムパラメーター(資格情報など)の設定やリソース設定(パブリックネットワークへのアクセスなど)を必ず行います。 最後に、基本環境をモデレーション対応の環境([GenAI] Python 3.12 with Moderationsなど)に設定します。
リソース設定
DataRobotでは、より多くのメモリーおよびCPUリソースを備えた、より大きなリソースバンドルを使用してLLMカスタムモデルを作成することをお勧めします。
-
カスタムモデルに必要な設定を行ったら、評価とモデレーションセクションに移動し、 設定をクリックします。
-
評価とモデレーションを設定パネルで、NVIDIA NeMo GuardrailsまたはNVIDIAのタグが付いている指標を探し、使用したい指標を選択します。
評価指標 要件 説明 1 コンテンツの安全性 NVIDIA GPU Cloud (NGC) Catalogからインポートされた、デプロイ済みのNIMモデルllama-3.1-nemoguard-8b-content-safety。 プロンプトと回答を安全または安全でないものとして分類し、検出された安全でないカテゴリーのリストを返します。 2 ジェイルブレイク NVIDIA GPU Cloud (NGC) Catalogからインポートされた、デプロイ済みのNIMモデルnemoguard-jailbreak-detect。 NemoGuard JailbreakDetectを使ってジェイルブレイクの試みを分類します。 3 入力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、プロンプトがトピックに関連し、禁止用語を使用しないようにします。 4 出力のトピックを維持 NVIDIA NeMoガードレールの設定 NVIDIA NeMo Guardrailsを使用してトピックの境界を設定することで、回答がトピックに関連し、禁止用語を使用しないようにします。 -
評価とモデレーションを設定ページで、選択した指標に基づいて以下のフィールドを設定します。
フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用対象 入力トピック維持がプロンプトに適用されます。 出力トピック維持が回答に適用されます。 LLMのタイプ LLMのタイプをNIMに設定します。 NIMのデプロイ NVIDIA NIMのデプロイを選択します。 詳細については、NVIDIA NIMによるインポートとデプロイを参照してください。 資格情報 リストからDataRobot APIキーを選択します。 資格情報は、資格情報管理ページで定義されます。 ファイル (オプション)NeMoファイルを設定します。 ファイルの横にある をクリックして、NeMo Guardrailsの設定ファイルを変更します。 特に、prompts.ymlを許可されたトピックとブロックされたトピックで、blocked_terms.txtをブロックされた用語で更新し、NeMo Guardrailsに適用するルールを提供します。 blocked_terms.txtファイルは、入力と出力のトピック制御指標間で共有されるため、入力指標のblocked_terms.txtを変更すると出力指標でも変更され、その逆も同様です。 カスタムモデルには、トピック制御指標が2つしか存在できません。1つは入力用、もう1つは出力用です。 フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用対象 プロンプトと回答の両方にコンテンツの安全性を適用します。 デプロイ名 リストで、DataRobotに登録およびデプロイされているllama-3.1-nemoguard-8b-content-safetyモデルの名前を探し、デプロイ名をクリックします。 フィールド 説明 名前 設定する指標にわかりやすい名前を入力します。 適用先 プロンプトにジェイルブレイクを適用します。 デプロイ名 リストで、DataRobotに登録およびデプロイされているnemoguard-jailbreak-detectモデルの名前を探し、デプロイ名をクリックします。 -
モデレーションセクションで、モデレーションの設定と適用を有効にして、評価指標ごとに以下を設定します。
フィールド 説明 モデレーション方法 レポートまたはレポートとブロックを選択します。 モデレーションのメッセージ レポートとブロックを選択すると、オプションでデフォルトのメッセージを変更できます。 -
必須フィールドを設定した後、追加をクリックして評価を保存し、評価選択ページに戻ります。 次に、別の指標を選択して設定するか、設定を保存をクリックします。
選択したガードレールは、アセンブルタブの評価とモデレーションセクションに表示されます。
テキスト生成カスタムモデルにガードレールを追加した後、モデルを テスト、 登録、および デプロイして本番環境で予測を作成できます。 予測を作成した後、 カスタム指標 タブで評価指標を表示し、 データ探索タブでプロンプト、回答、およびフィードバック(設定されている場合)を表示できます。








