カスタムモデルにトレーニングデータを追加¶
モデルデプロイで特徴量ドリフト追跡を有効にするには、トレーニングデータを追加する必要があります。 これを行うには、モデルのバージョンにトレーニングデータを割り当てます。 非構造化カスタム推論モデルのトレーニングデータセットとホールドアウトデータセットを指定する方法では、トレーニングデータセットとホールドアウトデータセットを個別にアップロードする必要があります。 さらに、これらのデータセットにはパーティション列を含めることはできません。
ファイルサイズに関する注意
DataRobotにアップロードされるカスタムモデルトレーニングデータのファイルサイズの上限は1.5GBです。
トレーニングデータの予測行数に関する注意事項
カスタムモデルにアップロードされたトレーニングデータは、特徴量のインパクト、ドリフトベースライン、および予測の説明プレビューを計算するために使用されます。 これらの計算を行うために、DataRobotでは、アップロードされたトレーニングデータが60/20/20の比率でトレーニング用、検定用、ホールドアウト用(すなわち、T/V/H)のパーティションに自動的に分割されます。 あるいは、トレーニングデータセットにパーティション列を手動で指定することで、予測を行ごとにトレーニング(T
)、検定(V
)、またはホールドアウト(H
)のパーティションに割り当てることもできます。
予測の説明には、検定パーティションに100行が必要です。独自のパーティショニングを定義しない場合、提供されるトレーニングデータセットには最小でも500行を含める必要があります。 トレーニングデータとパーティションの比率(自動または手動で定義)により、検定パーティションに100行未満しか含まれない場合、予測の説明は計算されません。 モデルの登録およびデプロイは可能であり、デプロイされたモデルで予測を行うこともできますが、説明付きの予測をリクエストした場合、デプロイはエラーを返します。
カスタムモデルの予測の説明のサポート
カスタムモデルの場合、 XEMPベースの説明のみがサポートされています。 その他の要件については、 XEMPに関する注意事項を参照してください。
カスタムモデルのバージョンにトレーニングデータを割り当てるには:
-
モデルレジストリ > カスタムモデルワークショップのモデルリストで、トレーニングデータを追加するモデルを選択します。
-
アセンブルタブのデータセットの隣:
-
モデルのバージョンにトレーニングデータが割り当てられていない場合は、割り当てるをクリックします。
-
モデルのバージョンにトレーニングデータが割り当てられている場合は、編集アイコン をクリックし、トレーニングデータを変更ダイアログボックスで、削除アイコン をクリックして既存のトレーニングデータを削除します。
-
-
トレーニングデータを追加(またはトレーニングデータを変更)ダイアログボックスで、トレーニングデータセットファイルをクリックしてトレーニングデータボックスにドラッグするか、ファイルを選択をクリックして以下のいずれかを実行します。
-
ローカルファイルをクリックし、ローカルストレージからファイルを選択して、開くをクリックします。
-
AIカタログをクリックし、以前にDataRobotにアップロードしたトレーニングデータセットを選択して、このデータセットを使用をクリックします。
スコアリングに必要な特徴量を含める
カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 プレビュー版の機能です。NextGenエクスペリエンスで カスタムモデルを構築する場合、 列のフィルター設定を使用して、この動作を無効にできます。
-
-
(オプション)(トレーニング/検定/ホールドアウトのパーティションに基づいて)データのパーティション情報を含む列名を指定します。 カスタムモデルをデプロイし、そのデータドリフトと精度を監視する予定であれば、列にホールドアウトパーティションを指定して、精度のベースラインを確立します。
-
アップロードが完了したら、トレーニングデータを追加をクリックします。
トレーニングデータの割り当てエラー
トレーニングデータの割り当てに失敗すると、新しいカスタムモデルバージョンのデータセットの下にエラーメッセージが表示されます。 このエラーが存在する間は、影響を受けるバージョンをデプロイするモデルパッケージを作成できません。 エラーを解決してモデルパッケージをデプロイするには、トレーニングデータを再割り当てして新しいバージョンを作成するか、新しいバージョンを作成してからトレーニングデータを割り当てます。