Skip to content

データ探索

デプロイのモニタリング > データ探索タブでは、デプロイの保存データを操作して、モデルやエージェントのパフォーマンスに関するインサイトを得ることができます。 また、デプロイデータをダウンロードして、カスタム指標の計算に使用することもできます。 データ探索のサマリーには、デプロイのタイプに応じて、以下の機能が含まれています。

機能性 説明
データのエクスポート すべてのデプロイについて、トレーニング データ、予測データ、実測値、カスタム指標データを含む、デプロイの保存データをダウンロードします。
トレース カスタムモデルや外部モデルのデプロイでは、モデルまたはワークフローのトレースを探索します。 各トレースには、モデルまたはエージェントによって実行されたすべてのアクションを表し、これらのアクションの順序と期間を示す視覚的なタイムラインが含まれています。
データ品質 生成AIやエージェントワークフローのデプロイでは、ユーザーからのフィードバックとカスタム指標に基づいて、生成AIモデルの回答の品質を評価します。

データの要件

データ探索タブを使用するには、デプロイに予測データを保存する必要があります。 データ探索(またはチャレンジャー)設定で、 予測行ごとの履歴保存が有効になっていることを確認してください。 データ探索タブでは、予測と共にリクエストされた場合でも、予測の説明は保存またはエクスポートされません。

データ探索範囲の設定

保存済みのトレーニングデータ、予測データ、または実測値をエクスポートするデプロイで、モニタリング > データ探索タブをクリックし、以下の設定を行って、エクスポートする保存済みのトレーニングデータ、予測データ、または実測値を指定します。

設定 説明
1 モデル 予測データをエクスポートするデプロイのモデル(現在または以前)を選択します。
2 範囲 (UTC) 予測データをエクスポートする期間の開始日と終了日を選択します。
3 単位 日付スライダーの時間単位を選択します。 選択した時間範囲に基づき、単位を毎時、毎日、毎週、毎月から選択します。 時間範囲が7日を超える場合、単位を毎時にすることはできません。
4 表示を更新 データ探索タブのデータを更新します。
5 リセット データ探索の設定をデフォルトにリセットします。

デプロイデータのエクスポート

データ探索のサマリーページ(またはデータ探索のサマリーデータのエクスポートタブ)では、デプロイの保存データをダウンロードできます。 これには、トレーニングデータ、予測データ、実測値、およびカスタム指標データが含まれます。 エクスポートされたデータを使用して、カスタム指標タブまたはDataRobotの外部で、カスタムビジネス指標またはパフォーマンス指標を計算して監視します。 カスタム指標のためにデプロイデータをエクスポートするには、デプロイに予測データが保存されていることを確認し、指定された時間範囲のデータを生成して、そのデータを表示またはダウンロードします。

デプロイの運用データのエクスポート

予測データ、実測データ、またはカスタム指標データにおいて、デプロイデータのエクスポートにアクセスするには、データ探索のサマリーページで実運用データパネルを見つけます。 実運用データパネルの生成ボタンで下向きの矢印 をクリックし、いずれかのデータ生成オプションを選択します。 以下のオプションが使用可能かどうかは、選択したモデルのデプロイに保存されたデータおよび選択した時間範囲に応じて異なります。

オプション 説明
すべての実運用データ 生成AIデプロイの場合、指定したモデルと時間範囲で使用できるすべての運用データ(予測値、実測値、カスタム指標)を生成します。
予測 指定されたモデルと時間範囲の予測データを生成します。
実測値と予測値のペア 指定されたモデルと時間範囲において、関連する予測とペアになる実測値を生成します。
カスタム指標 生成AIデプロイの場合、指定したモデルと時間範囲で使用できるカスタム指標データを生成します。

プレミアム機能

カスタム指標データのエクスポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

パネルの下にあるテーブルに、運用データが表示されます。 エクスポートされたデータ列でデータ型を識別できます。

予測データと実測値に関する注意事項

予測データまたは実測値を生成するときは、以下の点を考慮してください。

  • 予測データの生成時にエクスポート可能な行数は、1回のエクスポートで最大20万行までです。 設定した時間範囲で予測データが20万行を超える場合は、範囲を縮小してください。

  • データレジストリで持つことができる予測エクスポート項目は、最大で100個までです。 エクスポート用の予測データを生成すると、データレジストリの予測エクスポート項目の数がその制限を超える場合は、データレジストリで古い予測エクスポート項目を削除してください。

  • 時系列デプロイで予測データを生成する場合、2つの予測エクスポート項目がデータレジストリに追加されます。 1つは予測データ用、もう1つは予測結果用です。 データ探索タブは、予測結果にリンクしています。

  • 実測値データの生成時にエクスポート可能な行数は、最大で20万行までです。 設定した時間範囲で実測値が100万行を超える場合は、時間範囲を縮小してください。

  • データレジストリでは、実測値のエクスポート項目は最大100個まで可能です。 エクスポートする実測値データを生成することで、データレジストリ内の実測値エクスポートアイテムの数がその制限を超えた場合、古い実測値を削除してデータレジストリアイテムをエクスポートします。

  • 最大10,000,000の実測値がデプロイ用に保存されます。したがって、その期間に実測値が現在保存されていない場合、古い実測値をエクスポートするとエラーが発生する可能性があります。

デプロイのトレーニングデータのエクスポート

トレーニングデータ用のデプロイデータのエクスポートにアクセスするには、データ探索のサマリーページで、トレーニングデータパネルを見つけ、トレーニングデータを生成をクリックして、指定されたモデルと時間範囲のデータを生成します。

トレーニングデータを操作するためのオプションが、トレーニングデータパネルに表示されます。 下向きの矢印 をクリックして、 トレーニングデータを開くまたはトレーニングデータをダウンロード を選択します。

データのレビューとダウンロード

運用データまたはトレーニングデータを生成した後、データを表示またはダウンロードできます。 パネルの下にあるテーブルに運用データが表示され、エクスポートされたデータ列でデータ型を識別できます。 トレーニングデータはトレーニングデータパネルに表示されます。

オプション 説明
エクスポートされたデータをデータレジストリで開きます。
エクスポートされたデータをダウンロードします。

ノートブックにエクスポート

ノートブックにエクスポートをクリックして、トレーニングデータ、予測データ、実測値をエクスポートするためのセルを含む DataRobotのノートブックを開くこともできます。

エクスポートされたデプロイデータをカスタム指標に使用

エクスポートされたデプロイデータを使用して独自のカスタム指標を作成するには、エクスポートされたデータを含むCSVファイルから読み取り、エクスポートプロセスで自動的に生成された列を含む結果の値を使用して指標を計算するスクリプトを実行します。

この例では、エクスポートされた予測データを使い、DataRobotの予測タイムスタンプ(DR_RESERVED_PREDICTION_TIMESTAMP)をDateFrameインデックス(または行ラベル)として、30日間のtime_in_hospital特徴量の変化を計算およびプロットしています。 また、エクスポートされたトレーニングデータをプロットのベースラインとして使用します。

Example: Use exported data in a custom metric
import pandas as pd
feature_name = "<numeric_feature_name>"
training_df = pd.read_csv("<path_to_training_data_csv>")
baseline = training_df[feature_name].mean()
prediction_df = pd.read_csv("<path_to_prediction_data_csv>")
prediction_df["DR_RESERVED_PREDICTION_TIMESTAMP"] = pd.to_datetime(
    prediction_df["DR_RESERVED_PREDICTION_TIMESTAMP"]
)
predictions = prediction_df.set_index("DR_RESERVED_PREDICTION_TIMESTAMP")["time_in_hospital"]
ax = predictions.rolling('30D').mean().plot()
ax.axhline(y=baseline - 2, color="C1", label="training data baseline")
ax.legend()
ax.figure.savefig("feature_over_time.png") 

DataRobotの列参照

DataRobot は、エクスポート用に生成された予測データに、以下の列を自動的に追加します。

説明
DR_RESERVED_PREDICTION_TIMESTAMP 予測のタイムスタンプが格納されます。
DR_RESERVED_PREDICTION 連続値の予測値を示します。
DR_RESERVED_PREDICTION_<Label> 分類の予測値を示します。

デプロイデータトレースの探索

プレミアム機能

トレースはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

カスタムまたは外部モデルのデプロイのデータ探索タブで、トレースをクリックすると、モデルまたはエージェントワークフローのトレースを探索できます。 タイムスタンプとトレースIDによって識別される各トレースには、モデルまたはエージェントによって実行されたすべてのアクションを表し、これらのアクションの順序と期間を示す視覚的なタイムラインが含まれています。

トレースは、モデルまたはエージェントのワークフローに対するリクエストがたどった経路を表します。 DataRobotでは、トレースにOpenTelemetryフレームワークを使用しています。 トレースは、起点から解決まで、リクエストのエンドツーエンドの経路全体を追跡します。 各トレースには、ルートスパンから始まる1つ以上のスパンが含まれます。 ルートスパンはリクエストの経路全体を表し、プロセスの各ステップの子スパンが含まれます。 ルート(または親)スパンと各子スパンは、同じトレースIDを共有します。

トレーステーブルでは、各トレースに関連する以下のフィールドを確認できます。

説明
タイムスタンプ YYYY-MM-DD HH:MM形式でのトレースの日時。
ステータス すべてのスパンを含むトレースの全体的なステータス。 依存タスクが失敗した場合、ステータスエラーになります。
トレースID トレースの一意の識別子。
期間 トレースの完了にかかった時間(ミリ秒単位)。 この値は、(四捨五入された)ルートスパンの期間と同じで、子スパンによって表されるすべてのアクションが含まれます。
スパン数 トレースに含まれる完了したスパン(アクション)の数。
コスト コストデータが指定されている場合は、トレースの総コスト。
プロンプト トレースに関連するユーザープロンプト。
補完 トレースのプロンプトに関連付けられているエージェントまたはモデルの回答(補完)。

:material-filter: フィルターをクリックして、最小スパン期間最大スパン期間最小トレースコスト最大トレースコストでフィルターします。 スパンフィルターの単位はナノ秒(ns)です。チャートにはスパンがミリ秒(ms)で表示されます。

フィルターのアクセシビリティ

スパンが詳細ビューに展開されると、:material-filter: フィルターボタンは非表示になります。 フィルターを適用したチャートビューに戻るには、:octicons-x-12: 詳細パネルを表示しないをクリックします。

トレースに含まれるスパンとトレースの詳細を確認するには、トレーステーブルのトレース行をクリックします。 スパンの色は、スパンサービス(通常はデプロイ)に対応します。 スパンに関連付けられたデプロイまたはサービスへのアクセス権がない場合、制限されたスパンが表示されます。 スパンはチャート形式またはリスト形式で表示できます。

スパンの詳細をコントロール

どちらのビューからでも、:material-table: テーブルを表示しないをクリックしてタイムスタンプテーブルを折りたたんだり、:octicons-x-12: 詳細パネルを表示しないをクリックして展開されたトレーステーブルビューに戻ったりすることができます。

トレースの詳細

リストビューでトレースの詳細をクリックすると、現在のスパンに関連付けられているトレースに関する入力/出力プロンプト補完)および評価の詳細を表示できます。

どちらのビューでも、スパンサービス名をクリックして、デプロイまたはリソースにアクセスします(アクセス権がある場合)。 生成AIモデルまたはエージェントワークフローの設定に応じた追加情報を、情報リソースイベントエラーの各タブで入手できます。 エラータブは、トレースでエラーが発生した場合にのみ表示されます。

デプロイデータ品質の探索

プレミアム機能

データ品質はプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

生成AIデプロイのデータ探索タブで、データ品質をクリックすると、プロンプトと回答をユーザーの評価やカスタム指標(実装されている場合)と一緒に調べ、生成AIモデルの品質に関するインサイトを得ることができます。 プロンプト、回答、および利用可能な指標は、関連付けIDによって対応付けられます。

データ品質テーブルに表示される行を設定するには、 設定をクリックして列管理パネルを開きます。このパネルでは、列の選択、非表示、並べ替えを行うことができます。

プロンプトと回答の一致

データ品質テーブルを使用するには、同じ行にあるプロンプトと回答を一致させる 関連付けIDを定義します。 トレース分析は、同じ行で関連付けIDが一致するプロンプトと回答でのみ利用できます。集計カスタム指標データは除外されます。

データ品質テーブルの特定の行を検索で見つけます。 検索条件をクリックし、プロンプトの値回答実測値のいずれかを選択します。 次に検索 をクリックします。

さらに、現在のデプロイ用に作成されたカスタム指標のいずれかから、1つのカスタム指標値でデータ品質テーブルをフィルターできます。 テーブルをフィルターするには、 フィルターをクリックし、指標を選択して、指標値を入力してから、フィルターを適用をクリックします。

データ品質テーブルの並べ替え

データ品質テーブルは、プロンプト作成日関連付けID、または現在のデプロイ用に作成されたカスタム指標のいずれかの列をクリックすることで並べ替えが可能です。

開くアイコン をクリックして、詳細パネルを展開します。 行の完全なプロンプトと、関連付けIDによってそのプロンプトと一致した回答が表示されます。 また、(設定されていれば)カスタム指標値と引用も表示されます。

外部で使用するために列をエクスポートするには、選択された範囲のすべてをエクスポートをクリックして、カスタム指標の上部で定義されている時間範囲のすべての行をエクスポートするか、テーブルで1つ以上の行を選択している場合は、選択された行をエクスポートをクリックします。