Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

カスタムモデルにトレーニングデータを追加

モデルデプロイで特徴量ドリフト追跡を有効にするには、トレーニングデータを追加する必要があります。 これを行うには、モデルのバージョンにトレーニングデータを割り当てます。 非構造化カスタム推論モデルのトレーニングデータセットとホールドアウトデータセットを指定する方法では、トレーニングデータセットとホールドアウトデータセットを個別にアップロードする必要があります。 さらに、これらのデータセットにはパーティション列を含めることはできません。

廃止の通知

現在、トレーニングデータはカスタムモデルに直接割り当てているため、そのモデルのすべてのバージョンで同じデータが使用されます。ただし、この割り当て方法は使用非推奨であり、削除が予定されています。 使用非推奨の期間中も、後方互換性をサポートするために、新しく作成されたモデルであってもデフォルトの方法のままです。

ファイルサイズに関する注意

カスタムモデルにトレーニングデータを追加する場合、トレーニングデータはRAMとCPUリソースを節約するために フローズン実行の対象となり、トレーニングデータセットのファイルサイズを1.5 GBに制限できます。

  1. モデルレジストリ > カスタムモデルワークショップモデルリストで、トレーニングデータを追加するモデルを選択します。

  2. カスタムモデルのバージョンにトレーニングデータを割り当てるには、モデルを変換する必要があります。 アセンブルタブで、モデルバージョン用のトレーニングデータのアラートを見つけて、恒久的に変換をクリックします。

    注意

    モデルのトレーニングデータの割り当て方法を変更することは、一方向の操作です。 元に戻すことはできません。 変換後は、モデルレベルでトレーニングデータを割り当てることはできません。 この変更はUIおよびAPIに適用されます。 「モデルごと」 のトレーニングデータの割り当てに基づく自動化を組織内で行っている場合は、モデルを変換する前に、関連する自動化を更新して新しいワークフローをサポートする必要があります。 別の方法として、新しいカスタムモデルを作成して 「バージョンごと」 のトレーニングデータの割り当て方法に変更し、自動化に必要なモデルで使用非推奨の 「モデルごと」 の方法を維持することもできます。ただし、機能のギャップを避けるために、使用非推奨のプロセスが終了する前に自動化を更新する必要があります。

    モデルにトレーニングデータがすでに割り当てられている場合は、モデルを変換した後、データセットセクションに既存のトレーニングデータセットに関する情報が表示されます。

  3. アセンブルタブのデータセットの隣:

    • モデルのバージョンにトレーニングデータが割り当てられていない場合は、割り当てるをクリックします。

    • モデルのバージョンにトレーニングデータが割り当てられている場合は、編集アイコン()をクリックし、トレーニングデータを変更ダイアログボックスで、削除アイコン()をクリックして既存のトレーニングデータを削除します。

  4. トレーニングデータを追加(またはトレーニングデータを変更)ダイアログボックスで、トレーニングデータセットファイルをクリックしてトレーニングデータボックスにドラッグするか、ファイルを選択をクリックして以下のいずれかを実行します。

    • ローカルファイルをクリックし、ローカルストレージからファイルを選択して、開くをクリックします。

    • AIカタログをクリックし、以前にDataRobotにアップロードしたトレーニングデータセットを選択して、このデータセットを使用をクリックします。

    スコアリングに必要な特徴量を含める

    カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 この要件は、 カスタムモデルのテスト中に行われた予測には適用されません。

  5. (Optional) Specify the column name containing partitioning info for your data (based on training/validation/holdout partitioning). カスタムモデルをデプロイし、そのデータドリフト精度を監視する予定であれば、列にホールドアウトパーティションを指定して、精度のベースラインを確立します。

    重要

    パーティション列を指定しなくても、データのドリフトと精度を追跡できます。ただし、このシナリオでは、DataRobotにベースライン値はありません。 選択されたパーティション列はTVHのいずれかの値のみを含む必要があります。

  6. アップロードが完了したら、トレーニングデータを追加をクリックします。

    トレーニングデータの割り当てエラー

    トレーニングデータの割り当てに失敗すると、新しいカスタムモデルバージョンのデータセットの下にエラーメッセージが表示されます。 このエラーが存在する間は、影響を受けるバージョンをデプロイするモデルパッケージを作成できません。 エラーを解決してモデルパッケージをデプロイするには、トレーニングデータを再割り当てして新しいバージョンを作成するか、新しいバージョンを作成してからトレーニングデータを割り当てます。

カスタム推論モデルにトレーニングデータを追加する場合(モデルをデプロイできるようにする場合)は、カスタムモデルを選択し、モデル情報タブに移動します。

モデル情報タブには、カスタム推論モデルの属性が一覧表示されます。 トレーニングデータを追加をクリックします。

トレーニングデータをアップロードするよう求めるポップアップが表示されます。

ファイルを選択をクリックし、トレーニングデータをアップロードします。 (Optional) You can specify the column name containing the partitioning information for your data (based on training/validation/holdout partitioning). カスタムモデルをデプロイして精度を監視する場合、列にホールドアウトパーティションを指定して、精度のベースラインを規定します。 パーティション列を指定しなくても精度は追跡できますが、精度のベースラインはありません。 アップロードが完了したら、トレーニングデータを追加をクリックします。

スコアリングに必要な特徴量を含める

カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 この要件は、 カスタムモデルのテスト中に行われた予測には適用されません。


更新しました February 20, 2024