Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデル推奨プロセス

DataRobot provides an option to set the Autopilot modeling process to recommend a model for deployment. If you have enabled the Recommend and prepare a model for deployment option, one of the models—the most accurate individual, non-blender model—is selected and then prepared for deployment.

The following tabs describe the process for each process when this option is enabled—by project type (AutoML or time-aware) and by modeling mode (full Autopilot/Comprehensive or Quick).

The following description describes the model recommendation process for full Autopilot and Comprehensive mode in AutoML projects. 精度は、検定データの最大サンプルサイズ(通常64%)に基づきます。 準備されたモデルには、デプロイ推奨およびデプロイの準備バッジが付けられます。 リーダーボードから任意のモデルを選択して、デプロイの準備プロセスを開始することもできます。

準備プロセスを以下に説明します。

  1. 最初に、選択されたモデルの特徴量のインパクトが計算され、その結果を使用して削減済み特徴量セットが生成されます。

  2. 次に、選択されたモデルが削減済み特徴量セットで再トレーニングされます。 新しいモデルのパフォーマンスが元のモデルよりも優れている場合、次のステージで新しいモデルが使用されます。 そうでない場合、元のモデルが使用されます。

  3. その後、選択したモデルがホールドアウトを除いた全サンプル(一般的に80%)で再トレーニングされます。 サンプルがフローズンしきい値(1.5GB)未満である限り、ステージはフリーズされません。

  4. 最後に、選択したモデルが100%のサンプルサイズを使用してフローズン実行として再トレーニングされます(ハイパーパラメーターはホールドアウト実行の時点から変更されません)。このモデルはデプロイに推奨として選択されます。

データセットのサイズに応じて、推奨されるモデルのインサイトはホールドアウトまでのモデルまたは100%の推奨モデル(アウトオブサンプル予測が使用できる場合)に基づきます。

The following description describes the model recommendation process for Quick Autopilot mode in AutoML projects. 精度は、検定データの最大サンプルサイズ(通常64%)に基づきます。 準備されたモデルには、デプロイ推奨およびデプロイの準備バッジが付けられます。 リーダーボードから任意のモデルを選択して、デプロイの準備プロセスを開始することもできます。

準備プロセスを以下に説明します。

  1. First, DataRobot calculates Feature Impact for the 64% sample size of the recommended model.
  2. Next, DataRobot uses the results of that calculation to create a reduced feature list if applicable (e.g., feature list can be reduced).
  3. 最後に、選択したモデルが100%のサンプルサイズを使用してフローズン実行として再トレーニングされます。このモデルはデプロイに推奨として選択されます。 This frozen run model is trained on the same feature list as the 64% sample size model.

To apply the reduced feature list to the recommended model, manually retrain it—or any Leaderboard model—using the reduced feature list.

データセットのサイズに応じて、推奨されるモデルのインサイトはホールドアウトまでのモデルまたは100%の推奨モデル(アウトオブサンプル予測が使用できる場合)に基づきます。

The following description describes the model recommendation process for OTV and time series projects in Quick Autopilot mode. バックテストが終了すると、モデルの1つ(最も精度の高い非アンサンブルモデル)が選択され、デプロイ用に準備されます。 準備されたモデルには、デプロイ推奨バッジが付けられます。

時系列プロジェクトの準備プロセスを以下に説明します。

  1. 最初に、選択されたモデルの特徴量のインパクトが計算され、その結果を使用して削減済み特徴量セットが生成されます。

  2. 次に、選択されたモデルが削減済み特徴量セットで再トレーニングされます。 (選択したモデルが 開始/終了モデルである場合、これはフローズンなので削減済み特徴量セットや最新のデータで再トレーニングされません。)

  3. 新しいモデルのパフォーマンスが元のモデルよりも優れている場合、DataRobotは最新のデータでより良いスコアリングモデルを再トレーニングします(元のモデルと同じ期間/行数が使用されます)。 期間を使用し、同等の期間でトレーニングに十分な行が提供されない場合、期間は最小要件が満たされるまで拡張されます。

時系列モデルには、2つの例外があります。

  • 特徴量の削減は、ベースライン(ナイーブ)およびARIMAモデルに対して実行できません。 この理由は、これらのモデルではdate+naive予測特徴量だけが使用されるからです(削減するものがありません)。
  • トレーニングでは加重が使用されず、再トレーニングが必要ないので、ベースライン(ナイーブ)モデルは最新のデータで再トレーニングされません。

The following description describes the model recommendation process for OTV and time series projects in Quick Autopilot mode. バックテストが終了すると、モデルの1つ(最も精度の高い非アンサンブルモデル)が選択され、デプロイ用に準備されます。 準備されたモデルには、デプロイ推奨バッジが付けられます。

時系列プロジェクトの準備プロセスを以下に説明します。

  1. DataRobot calculates Feature Impact for the selected model.

  2. Next, DataRobot uses the results of that calculation to create a reduced feature list if applicable (e.g., feature list can be reduced).

  3. Finally, DataRobot retrains the best-scoring model on the most recent data (using the same duration/row count as the original model). 期間を使用し、同等の期間でトレーニングに十分な行が提供されない場合、期間は最小要件が満たされるまで拡張されます。

    To apply the reduced feature list to the best-scoring model, manually retrain it—or any Leaderboard model—using the reduced feature list.

時系列モデルには、2つの例外があります。

  • 特徴量の削減は、ベースライン(ナイーブ)およびARIMAモデルに対して実行できません。 この理由は、これらのモデルではdate+naive予測特徴量だけが使用されるからです(削減するものがありません)。
  • トレーニングでは加重が使用されず、再トレーニングが必要ないので、ベースライン(ナイーブ)モデルは最新のデータで再トレーニングされません。

モデルのデプロイ準備

オートパイロットは、デプロイ用に単一のモデルを推奨および準備しますが、任意のリーダーボードモデルに対してオートパイロットの推奨およびデプロイの準備段階を開始できます。 これを行うには、リーダーボードからモデルを選択し、予測 > デプロイに移動します。

デプロイの準備をクリックします。 DataRobotは、選択したモデルに対して上記の推奨段階の実行を開始します(右側のパネルに進行状況が表示されます)。 言い換えると、DataRobotは特徴量のインパクトを実行し、削減済み特徴量リストでモデルを再トレーニングし、より高いサンプルサイズでトレーニングします。次に完全なサンプルサイズ(日付/時刻で分割されていないプロジェクトの場合)または最新のデータ(時間認識プロジェクトの場合)で実行します。

プロセスが完了すると、DataRobotは100%で構築された新しい最終モデルに デプロイの準備 バッジを付けます。 (最初に推奨されたモデルもバッジを維持しています。) 元のモデルのデプロイタブからモデルに移動をクリックし、準備されたモデルをリーダーボードに表示します。

新しいモデルのブループリント番号をクリックして、プロセスに関連する新しい特徴量セットとサンプルサイズを確認します。

元のリクエストを行ったモデル(64%のサンプルサイズなど)に戻って、デプロイタブにアクセスすると、準備されたモデルにリンクされていることがわかります。

メモおよび注意事項

  • 最終的なデプロイに推奨モデルの100%での再トレーニングは、常にフローズン実行として実行されます。 その結果、モデルの再トレーニングの速度が向上し、80%と同じ設定が100%モデルで使用されるようにします。

  • デプロイに推奨されるモデルが検定セットでトレーニングされていた場合は、このモデルのホールドアウトスコアがロック解除されて表示されますが、その他のリーダーボードモデルでは表示されません。 右側のパネルから、その他のモデルのホールドアウトのロックを解除できます。

  • デプロイに推奨されるモデルが検定セットにトレーニングされている場合、またはプロジェクトがホールドアウト分割なしで作成されている場合、検定およびホールドアウトデータを使用して予測を計算することはできません。

  • モデルを自動推奨するヒューリスティックロジックは、プロジェクトの種類ごとに異なる場合があります。 たとえば、非冗長特徴量でのモデルの再学習は連続値および二値分類で行われますが、より多いサンプルサイズでのモデルの再学習は連続値、二値分類、および多クラス分類プロジェクトで行われます。

  • より大きいサンプルサイズでのトレーニングを中断した場合、またはより大きいサンプルサイズでのトレーニングが正常に終了しない場合、そのモデルはデプロイに推奨モデルの候補にはなりません。

廃止されたバッジ

v6.1以前に作成されたプロジェクトには、最も精度が良いおよび速い&精度が良いバッジでタグ付けされていることもあります。 オートパイロットの自動化が改善されたので、これらのバッジは不要になりましたが、割り当てられている場合は、v6.1より以前のプロジェクトで引き続き表示されます。 廃止されたバッジの変換を自動化するコードスニペットについては、DataRobotの担当者にお問い合わせください。

  • 必ずしもそうではありませんが、最も精度が良いとマークされたモデルは一般的にアンサンブルです。 その名前が示すように、これはリーダーボードで最も精度の高いモデルです(検定または交差検定スコアのランキングによって決定されます)。

  • 非アンサンブルモデルにのみ適用される高速&精度が良いバッジは、最も精度が高く、 かつ 予測作成の速度が最も速いモデルに割り当てられます。 評価するために以下の予測タイミングが使用されます。

    • プロジェクトのホールドアウトセット。
    • ホールドアウトなしのプロジェクトのトレーニングデータのサンプル。

    すべてのプロジェクトに高速&精度が良いとしてタグ付けされたモデルがあるわけではありません。 これは、予測時間が内部アルゴリズムで決定された最小速度しきい値を満たさない場合に発生します。


更新しました March 15, 2023
Back to top