Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

カスタムモデルにトレーニングデータを追加

モデルデプロイで特徴量ドリフト追跡を有効にするには、トレーニングデータを追加する必要があります。 これを行うには、モデルのバージョンにトレーニングデータを割り当てます。 非構造化カスタム推論モデルのトレーニングデータセットとホールドアウトデータセットを指定する方法では、トレーニングデータセットとホールドアウトデータセットを個別にアップロードする必要があります。 さらに、これらのデータセットにはパーティション列を含めることはできません。

ファイルサイズに関する注意

DataRobotにアップロードされるカスタムモデルトレーニングデータのファイルサイズの上限は1.5GBです。

Considerations for training data prediction rows count

Training data uploaded to a custom model is used to compute Feature Impact, drift baselines, and Prediction Explanation previews. To perform these calculations, DataRobot automatically splits the uploaded training data into partitions for training, validation, and holdout (i.e., T/V/H) in a 60/20/20 ratio. Alternatively, you can manually provide a partition column in the training dataset to assign predictions, row-by-row, to the training (T), validation (V), or holdout (H) partitions.

Prediction Explanations require 100 rows in the validation partition, which—if you don’t define your own partitioning—requires the provided training dataset to contain a minimum of 500 rows. If the training data and partition ratio (defined automatically or manually) result in a validation partition containing fewer than 100 rows, Prediction Explanations are not calculated. While you can still register and deploy the model—and the deployment can make predictions—if you request predictions with explanations, the deployment returns an error.

Prediction Explanation support for custom models

For custom models, only XEMP explanations are supported. See the XEMP considerations for more requirements.

カスタムモデルのバージョンにトレーニングデータを割り当てるには:

  1. モデルレジストリ > カスタムモデルワークショップモデルリストで、トレーニングデータを追加するモデルを選択します。

  2. アセンブルタブのデータセットの隣:

    • モデルのバージョンにトレーニングデータが割り当てられていない場合は、割り当てるをクリックします。

    • モデルのバージョンにトレーニングデータが割り当てられている場合は、編集アイコン をクリックし、トレーニングデータを変更ダイアログボックスで、削除アイコン をクリックして既存のトレーニングデータを削除します。

  3. トレーニングデータを追加(またはトレーニングデータを変更)ダイアログボックスで、トレーニングデータセットファイルをクリックしてトレーニングデータボックスにドラッグするか、ファイルを選択をクリックして以下のいずれかを実行します。

    • ローカルファイルをクリックし、ローカルストレージからファイルを選択して、開くをクリックします。

    • AIカタログをクリックし、以前にDataRobotにアップロードしたトレーニングデータセットを選択して、このデータセットを使用をクリックします。

    スコアリングに必要な特徴量を含める

    カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 プレビュー版の機能です。NextGenエクスペリエンスで カスタムモデルを構築する場合、 列のフィルター設定を使用して、この動作を無効にできます。

  4. (オプション)(トレーニング/検定/ホールドアウトのパーティションに基づいて)データのパーティション情報を含む列名を指定します。 カスタムモデルをデプロイし、そのデータドリフト精度を監視する予定であれば、列にホールドアウトパーティションを指定して、精度のベースラインを確立します。

  5. アップロードが完了したら、トレーニングデータを追加をクリックします。

    トレーニングデータの割り当てエラー

    トレーニングデータの割り当てに失敗すると、新しいカスタムモデルバージョンのデータセットの下にエラーメッセージが表示されます。 このエラーが存在する間は、影響を受けるバージョンをデプロイするモデルパッケージを作成できません。 エラーを解決してモデルパッケージをデプロイするには、トレーニングデータを再割り当てして新しいバージョンを作成するか、新しいバージョンを作成してからトレーニングデータを割り当てます。


更新しました January 8, 2025