Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデル推奨過程

オートパイロットモデリングプロセス(フルとクイックの両方)が終わると、_アンサンブルモデル以外_で最も精度の高いモデルが選択され、デプロイ用の準備がされます。精度は、検定データの最大サンプルサイズ(通常64%)に基づきます。準備されたモデルには、デプロイ推奨バッジとデプロイの準備済みバッジが表示されます。リーダーボードから任意のモデルを選択して、デプロイの準備プロセスを開始することもできます。

以下は、日付/時刻分割プロジェクトの準備プロセスについて説明しています。時間認識の推奨プロセスは若干異なります。

  1. 最初に、選択されたモデルの特徴量のインパクトが計算され、その結果を使用して削減済み特徴量セットが生成されます。

  2. 次に、選択されたモデル(一般的に64%のサンプルサイズ)が削減済み特徴量セットで再トレーニングされます。新しいモデルのパフォーマンスが元のモデルよりも優れている場合、次のステージで新しいモデルが使用されます。そうでない場合、元のモデルが使用されます。

  3. その後、選択したモデルがホールドアウトを除いた全サンプル(一般的に80%)で再トレーニングされます。サンプルがフローズンしきい値(1.5GB)未満である限り、ステージはフリーズされません。

  4. 最後に、100%のサンプルサイズを使用したフローズン実行として、選択したモデルをDataRobotは再トレーニングされます(ハイパーパラメーターはホールドアウト実行の時点から変更されません)。このモデルはデプロイに推奨として選択されます。

  5. プロジェクトをクイックモードで実行した場合、デプロイに推奨モデルは最後の16%サンプルサイズで計算され、すべてのプリセットサイズにわたるモデルが学習曲線グラフに表示されます。

推奨されるモデルのインサイトは、データセットのサイズに応じて、ホールドアウトの手前までトレーニングされたモデルか、100%までトレーニングされた推奨モデル(外部のデータセットが利用可能な場合)のどちらかから計算されます。

デプロイにモデルを準備します

オートパイロットは、デプロイ用に単一のモデルを推奨および準備しますが、任意のリーダーボードモデルに対してオートパイロットの推奨およびデプロイの準備段階を開始できます。これを行うには、リーダーボードからモデルを選択し、予測 > デプロイに移動します。

デプロイの準備をクリックします。DataRobotは、選択したモデルに対して上記の推奨段階の実行を開始します(右側のパネルに進行状況が表示されます)。言い換えると、DataRobotは特徴量のインパクトを実行し、削減済み特徴量リストでモデルを再トレーニングし、より高いサンプルサイズでトレーニングします。次に完全なサンプルサイズ(日付/時刻で分割されていないプロジェクトの場合)または最新のデータ(時間認識プロジェクトの場合)で実行します。

プロセスが完了すると、DataRobotは100%で構築された新しい最終モデルに デプロイの準備 バッジを付けます。(最初に推奨されたモデルもバッジを維持しています。)元のモデルのデプロイタブからモデルに移動をクリックし、準備されたモデルをリーダーボードに表示します。

新しいモデルのブループリント番号をクリックして、プロセスに関連する新しい特徴量セットとサンプルサイズを確認します。

元のリクエストを行ったモデル(64%のサンプルサイズなど)に戻って、デプロイタブにアクセスすると、準備されたモデルにリンクされていることがわかります。

メモおよび注意事項

  • 最終的なデプロイに推奨モデルの100%での再トレーニングは、常にフローズン実行として実行されます。その結果、モデルの再トレーニングの速度が向上し、80%と同じ設定が100%モデルで使用されるようにします。

  • デプロイに推奨されるモデルが検定セットでトレーニングされていた場合、このモデルのホールドアウトスコアがロック解除されて表示されますが、その他のリーダーボードモデルでは表示されません。右側のパネルから、その他のモデルのホールドアウトのロックを解除できます。

  • デプロイに推奨されるモデルが検定セットにトレーニングされている場合、またはプロジェクトがホールドアウト分割なしで作成されている場合、検定およびホールドアウトデータを使用して予測を計算することはできません。

  • モデルを自動推奨するヒューリスティックロジックは、プロジェクトの種類ごとに異なる場合があります。たとえば、非冗長特徴量でのモデルの再学習は連続値および二値分類で行われますが、より多いサンプルサイズでのモデルの再学習は連続値、二値分類、および多クラス分類プロジェクトで行われます。

  • より大きいサンプルサイズでのトレーニングを中断した場合、またはより大きいサンプルサイズでのトレーニングが正常に終了しない場合、そのモデルはデプロイに推奨モデルの候補にはなりません。

廃止されたバッジ

v6.1以前に作成されたプロジェクトには、最も精度が良いおよび速い&精度が良いバッジでタグ付けされていることもあります。オートパイロットの自動化が改善されたので、これらのバッジは不要になりましたが、割り当てられている場合は、v6.1より以前のプロジェクトで引き続き表示されます。使用非推奨バッジの変換を自動化するコードスニペットについては、DataRobotの担当者にお問い合わせください。

  • 必ずしもそうではありませんが、最も精度が良いとマークされたモデルは一般的にアンサンブルです。その名前が示すように、これはリーダーボードで最も精度の高いモデルです(検定または交差検定スコアのランキングによって決定されます)。

  • 非アンサンブルモデルにのみ適用される速い&精度が良いバッジは、最も精度 高く、かつ予測作成の速度が最も早いモデルに割り当てられます。評価するために以下の予測タイミングが使用されます。

    • プロジェクトのホールドアウトセット。
    • ホールドアウトなしのプロジェクトのトレーニングデータのサンプル。

    すべてのプロジェクトに速い&精度が良いとしてタグ付けされたモデルがあるわけではありません。これは、予測時間が内部アルゴリズムで決定された最小速度しきい値を満たさない場合に発生します。


更新しました April 12, 2022
Back to top