カスタムモデルにトレーニングデータを追加¶
モデルデプロイで特徴量ドリフト追跡を有効にするには、トレーニングデータを追加する必要があります。 これを行うには、モデルのバージョンにトレーニングデータを割り当てます。 非構造化カスタム推論モデルのトレーニングデータセットとホールドアウトデータセットを指定する方法では、トレーニングデータセットとホールドアウトデータセットを個別にアップロードする必要があります。 さらに、これらのデータセットにはパーティション列を含めることはできません。
ファイルサイズに関する注意
DataRobotにアップロードされるカスタムモデルトレーニングデータのファイルサイズの上限は1.5GBです。
カスタムモデルのバージョンにトレーニングデータを割り当てるには:
-
モデルレジストリ > カスタムモデルワークショップのモデルリストで、トレーニングデータを追加するモデルを選択します。
-
アセンブルタブのデータセットの隣:
-
モデルのバージョンにトレーニングデータが割り当てられていない場合は、割り当てるをクリックします。
-
モデルのバージョンにトレーニングデータが割り当てられている場合は、編集アイコン をクリックし、トレーニングデータを変更ダイアログボックスで、削除アイコン をクリックして既存のトレーニングデータを削除します。
-
-
トレーニングデータを追加(またはトレーニングデータを変更)ダイアログボックスで、トレーニングデータセットファイルをクリックしてトレーニングデータボックスにドラッグするか、ファイルを選択をクリックして以下のいずれかを実行します。
-
ローカルファイルをクリックし、ローカルストレージからファイルを選択して、開くをクリックします。
-
AIカタログをクリックし、以前にDataRobotにアップロードしたトレーニングデータセットを選択して、このデータセットを使用をクリックします。
スコアリングに必要な特徴量を含める
カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 プレビュー版の機能です。NextGenエクスペリエンスで カスタムモデルを構築する場合、 列のフィルター設定を使用して、この動作を無効にできます。
-
-
(オプション)(トレーニング/検定/ホールドアウトのパーティションに基づいて)データのパーティション情報を含む列名を指定します。 カスタムモデルをデプロイし、そのデータドリフトと精度を監視する予定であれば、列にホールドアウトパーティションを指定して、精度のベースラインを確立します。
パーティション列を必要とする機能
以下の状況では、パーティション列を指定する必要があります。
-
カスタムモデルで予測の説明を有効にする
XEMPベースの説明のみがサポートされており、計算するには、重複していない行が検定セットに少なくとも100行必要です。 予測の説明の要件については、XEMPに関する注意事項を参照してください。
-
ドリフトと精度の追跡でベースラインを指定する
パーティション列を指定しなくても、データのドリフトと精度を追跡できます。ただし、この場合、DataRobotにベースライン値はありません。 選択されたパーティション列は
T
、V
、H
のいずれかの値のみを含む必要があります。
-
-
アップロードが完了したら、トレーニングデータを追加をクリックします。
トレーニングデータの割り当てエラー
トレーニングデータの割り当てに失敗すると、新しいカスタムモデルバージョンのデータセットの下にエラーメッセージが表示されます。 このエラーが存在する間は、影響を受けるバージョンをデプロイするモデルパッケージを作成できません。 エラーを解決してモデルパッケージをデプロイするには、トレーニングデータを再割り当てして新しいバージョンを作成するか、新しいバージョンを作成してからトレーニングデータを割り当てます。