データ探索¶
デプロイのモニタリング > データ探索タブでは、デプロイの保存済みデータを操作してモデルのパフォーマンスに関するインサイトを取得し、そのデータを使用してカスタム指標を計算できます。 データ探索のサマリーには、デプロイタイプに応じて以下の機能が含まれています。
タブの可視性
予測AIデプロイの場合、データ探索のサマリーページにはサブタブが含まれません。 データのエクスポートとトレースを切り替えるタブは、生成AIのデプロイでのみ表示されます。
機能性 | 説明 |
---|---|
データのエクスポート | 予測AIデプロイおよび生成AIデプロイの場合、トレーニングデータ、予測データ、実測値、カスタム指標データを含むデプロイの保存済みデータをダウンロードします。 |
トレース | 生成AIデプロイの場合のみ、ユーザーのフィードバックとカスタム指標に基づいて生成AIモデルの回答の品質を評価します。 |
データの要件
データ探索タブを使用するには、デプロイに予測データを保存する必要があります。 データ探索(またはチャレンジャー)設定で、 予測行ごとの履歴保存が有効になっていることを確認してください。 データ探索タブでは、予測と共にリクエストされた場合でも、予測の説明は保存またはエクスポートされません。
データ探索範囲の設定¶
保存済みのトレーニングデータ、予測データ、または実測値をエクスポートするデプロイで、モニタリング > データ探索タブをクリックし、以下の設定を行って、エクスポートする保存済みのトレーニングデータ、予測データ、または実測値を指定します。
設定 | 説明 | |
---|---|---|
1 | モデル | 予測データをエクスポートするデプロイのモデル(現在または以前)を選択します。 |
2 | 範囲 (UTC) | 予測データをエクスポートする期間の開始日と終了日を選択します。 |
3 | 単位 | 日付スライダーの時間単位を選択します。 選択した時間範囲に基づき、単位を毎時、毎日、毎週、毎月から選択します。 時間範囲が7日を超える場合、単位を毎時にすることはできません。 |
4 | 表示を更新 | データ探索タブのデータを更新します。 |
5 | リセット | データ探索の設定をデフォルトにリセットします。 |
デプロイデータのエクスポート¶
データ探索のサマリー(生成AIデプロイの場合はデータ探索のサマリーのデータエクスポートタブ)で、デプロイの保存済みデータをダウンロードすることができます。 これには、トレーニングデータ、予測データ、実測値、およびカスタム指標データが含まれます。 エクスポートされたデータを使用して、 カスタム指標タブまたはDataRobotの外部で、カスタムビジネス指標またはパフォーマンス指標を計算して監視できます。 カスタム指標のためにデプロイデータをエクスポートするには、デプロイに予測データが保存されていることを確認し、指定された時間範囲のデータを生成して、そのデータを表示またはダウンロードします。
デプロイの運用データのエクスポート¶
予測データ、実測値、またはカスタム指標データのデプロイデータのエクスポートにアクセスするには、データ探索のサマリーページで実運用データパネルを見つけます。 実運用データパネルの生成ボタンで下向きの矢印 をクリックし、いずれかのデータ生成オプションを選択します。 以下のオプションが使用可能かどうかは、選択したモデルのデプロイに保存されたデータおよび選択した時間範囲に応じて異なります。
オプション | 説明 |
---|---|
すべての実運用データ | 生成AIデプロイの場合、指定したモデルと時間範囲で使用できるすべての運用データ(予測、実測値、カスタム指標)を生成します。 |
予測 | 指定されたモデルと時間範囲の予測データを生成します。 |
実測値と予測値のペア | 指定されたモデルと時間範囲において、関連する予測とペアになる実測値を生成します。 |
カスタム指標 | 生成AIデプロイの場合、指定したモデルと時間範囲で使用できるカスタム指標を生成します。 |
本機能の提供について
カスタム指標データのエクスポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:テキスト生成のターゲットタイプでデータ品質テーブルを有効にする(プレミアム機能)、生成モデルで実測値の保存を有効にする (プレミアム機能)
パネルの下にあるテーブルに、運用データが表示されます。 エクスポートされたデータ列でデータ型を識別できます。
予測データと実測値に関する注意事項
予測データまたは実測値を生成するときは、以下の点を考慮してください。
-
予測データの生成時にエクスポート可能な行数は、1回のエクスポートで最大20万行までです。 設定した時間範囲で予測データが20万行を超える場合は、範囲を縮小してください。
-
データレジストリで持つことができる予測エクスポート項目は、最大で100個までです。 エクスポート用の予測データを生成すると、データレジストリの予測エクスポート項目の数がその制限を超える場合は、データレジストリで古い予測エクスポート項目を削除してください。
-
時系列デプロイで予測データを生成する場合、2つの予測エクスポート項目がデータレジストリに追加されます。 1つは予測データ用、もう1つは予測結果用です。 データ探索タブは、予測結果にリンクしています。
-
実測値データの生成時にエクスポート可能な行数は、最大で20万行までです。 設定した時間範囲で実測値が100万行を超える場合は、時間範囲を縮小してください。
-
データレジストリでは、実測値のエクスポート項目は最大100個まで可能です。 エクスポートする実測値データを生成することで、データレジストリ内の実測値エクスポートアイテムの数がその制限を超えた場合、古い実測値を削除してデータレジストリアイテムをエクスポートします。
-
最大10,000,000の実測値がデプロイ用に保存されます。したがって、その期間に実測値が現在保存されていない場合、古い実測値をエクスポートするとエラーが発生する可能性があります。
デプロイのトレーニングデータのエクスポート¶
トレーニングデータのデプロイデータのエクスポートにアクセスするには、データ探索のサマリーページで、トレーニングデータパネルを見つけ、トレーニングデータを生成をクリックして、指定されたモデルと時間範囲のデータを生成します。
トレーニングデータがトレーニングデータパネルに表示されます。 下向きの矢印 をクリックして、 トレーニングデータを開くまたはトレーニングデータをダウンロード を選択します。
データのレビューとダウンロード¶
運用データまたはトレーニングデータを生成した後、データを表示またはダウンロードできます。 パネルの下にあるテーブルに運用データが表示され、エクスポートされたデータ列でデータ型を識別できます。 トレーニングデータはトレーニングデータパネルに表示されます。
オプション | 説明 |
---|---|
データレジストリで予測データを開きます。 | |
予測データをダウンロードします。 |
備考
ノートブックにエクスポートをクリックして、トレーニングデータ、予測データ、実測値をエクスポートするためのセルを含む DataRobotのノートブックを開くこともできます。
エクスポートされたデプロイデータをカスタム指標に使用¶
エクスポートされたデプロイデータを使用して独自のカスタム指標を作成するには、エクスポートされたデータを含むCSVファイルから読み取り、エクスポートプロセスで自動的に生成された列を含む結果の値を使用して指標を計算するスクリプトを実行します。
この例では、エクスポートされた予測データを使い、DataRobotの予測タイムスタンプ(DR_RESERVED_PREDICTION_TIMESTAMP
)をDateFrameインデックス(または行ラベル)として、30日間のtime_in_hospital
特徴量の変化を計算およびプロットしています。 また、エクスポートされたトレーニングデータをプロットのベースラインとして使用します。
import pandas as pd
feature_name = "<numeric_feature_name>"
training_df = pd.read_csv("<path_to_training_data_csv>")
baseline = training_df[feature_name].mean()
prediction_df = pd.read_csv("<path_to_prediction_data_csv>")
prediction_df["DR_RESERVED_PREDICTION_TIMESTAMP"] = pd.to_datetime(
prediction_df["DR_RESERVED_PREDICTION_TIMESTAMP"]
)
predictions = prediction_df.set_index("DR_RESERVED_PREDICTION_TIMESTAMP")["time_in_hospital"]
ax = predictions.rolling('30D').mean().plot()
ax.axhline(y=baseline - 2, color="C1", label="training data baseline")
ax.legend()
ax.figure.savefig("feature_over_time.png")
DataRobotの列参照¶
DataRobot は、エクスポート用に生成された予測データに、以下の列を自動的に追加します。
列 | 説明 |
---|---|
DR_RESERVED_PREDICTION_TIMESTAMP |
予測のタイムスタンプが格納されます。 |
DR_RESERVED_PREDICTION |
連続値の予測値を示します。 |
DR_RESERVED_PREDICTION_<Label> |
分類の予測値を示します。 |
デプロイデータトレースの探索¶
本機能の提供について
トレースはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:テキスト生成のターゲットタイプでデータ品質テーブルを有効にする(プレミアム機能)、生成モデルで実測値の保存を有効にする (プレミアム機能)
生成AIデプロイのデータ探索タブで、トレース をクリックすると、プロンプトと回答をユーザーの評価やカスタム指標(実装されている場合)と一緒に調べ、生成AIモデルの品質に関するインサイトを得ることができます。 プロンプト、回答、および利用可能な指標は、関連付けIDによって対応付けられます。
トレーステーブルに表示される行を設定するには、 設定をクリックして列管理パネルを開きます。このパネルでは、列の選択、非表示、並べ替えを行うことができます。
プロンプトと回答の一致
トレーステーブルを使用するには、同じ行でプロンプトと回答を一致させる関連付けIDを定義します。 トレース分析は、同じ行で関連付けIDが一致するプロンプトと回答でのみ利用できます。集計カスタム指標データは除外されます。
トレーステーブルの特定の行を検索で見つけます。 検索条件をクリックし、プロンプトの値、回答、実測値のいずれかを選択します。 次に検索 をクリックします。
In addition, you can filter the Tracing table on a single custom metric value from one of the custom metrics created for the current deployment. To filter the table, click Filter, select a Metric, enter a Metric value, and then click Apply filters:
Sorting the tracing table
You can sort the Tracing table by clicking the column for Prompt created at, Association ID, or any custom metrics created for the current deployment.
開くアイコン をクリックすると、詳細パネルが展開され、行の完全なプロンプトおよび関連付けIDでプロンプトに一致する回答が表示されます。
外部で使用するために列をエクスポートするには、選択された範囲のすべてをエクスポートをクリックして、カスタム指標の上部で定義されている時間範囲のすべての行をエクスポートするか、テーブルで1つ以上の行を選択している場合は、選択された行をエクスポートをクリックします。