Skip to content

時間認識プロジェクトのオートパイロット

備考

非時間認識モデリングに対するAutoMLモデリングモードの説明を参照してください。

モデリングモードは、実行されるブループリントのセットと使用されるサンプリングサイズの自動化されたモデル構築戦略を定義します。 DataRobotは、指定されたターゲットと日付/時刻特徴量に基づいて、事前定義されたブループリントのセットを選択して実行し、トレーニングバックテストパーティションの増え続ける部分でブループリントをトレーニングします。 初期段階でより多くのモデルを実行し、上位モデルのみを次の段階に進めることをサポートして、モデルの多様性を高め、オートパイロットのランタイムを高速化します。

デフォルトのクイックオートパイロットは、フルオートパイロットモードの短縮および最適化バージョンです。 非常に時間がかかる可能性がある包括モードでは、すべてのリポジトリブループリントが実行されます。 手動モードでは、ブループリントとサンプルサイズを選択できます。 使用されるサンプルの割合サイズは、以下の表で説明されている選択したモードに基づいています。

備考

時系列プロジェクトの場合、モデリングモードでは、実行されるブループリントのセットは定義されますが、特徴量削減プロセスは定義されません。 Using Quick mode has additional implications for time series (not OTV) projects.

次の表は、OTVプロジェクトの選択可能なモードのモデリングの割合を定義しています。 時系列プロジェクトは100%のデータで実行されます。 デフォルトでは、すべてのモードは次の特徴量セットで実行されます。

リストされている割合は、合計行の割合を示しています(行はパーティションの期間または行数によって定義されます)。 Maximum number of rows is determined by project type. ただし、任意のモデルをリポジトリから任意のサンプルサイズにトレーニングできます。 Or, from the Leaderboard, retrain models to any size or change the training range and sample size using the New training period option.

開始モード ブループリントの選択 各パーティションのサンプルサイズ
クイック(デフォルト) 指定したターゲット特徴量とパフォーマンス指標に基づいて、ブループリントのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。 モデルは、プロジェクトの日付 / 時刻の分割によって定義された各バックテストについて最大トレーニングサイズで直接トレーニングされます。
オートパイロット より多くのブループリントを選択して実行します。 前のフェーズの最高精度モデルで、25%、50%、そして最後に100%のサンプルサイズを使用して実行します。
包括的 100%
手動 Runs EDA2 and then provides a link to the blueprint Repository for full control over which models to run and at what sample size. カスタム

小さいデータセットで作業する場合、それぞれのサンプルサイズは異なります。

たとえば、OTVプロジェクトのフルオートパイロットを開始すると、DataRobotは最初に、選択したターゲットと日付/時刻特徴量に基づいて、プロジェクトに最適化されたブループリントを選択します。 次に、バックテスト1のデータの25%を使用してモデルを実行します。これらモデル精度のスコアリングが行われるとDataRobotは上位のモデルを選択し、それらに対してデータの50%を使用してモデル構築を再実行します。 その実行から上位のモデルがデータの100%に対して実行されます。 全てのサンプルサイズでの全てのモデル実行結果がリーダーボードに表示されます。 The data that comprises those samples is determined by the sampling method, either random (random x% rows within the same range) or latest (x% of latest rows within the backtest for row count or selected time period for duration).

小さなデータセット

オートパイロットでは、データセットに含まれる行数に応じてサンプルパーセンテージ実行が変更されます。 次の表が基準を示します。

行数 実行するパーセンテージ
2000行未満 最終オートパイロットステージのみ(100%)
2001~3999行 最終の2つのオートパイロットステージ(50%および100%)
4000行以上 オートパイロットの全てのステージ(25%、50%、および100%)

サンプリング方法が重要な理由

バックテストサンプリング方法は、バックテストの設定、モデルのアンサンブル、および最適なモデルの選択に影響を与えます。 AutoMLとは異なり、最大のサンプルサイズでトレーニングされたモデルは、最適なモデルではない場合があります。 ランダムサンプリングを使用する場合、観察可能な履歴は、すべてのサンプルサイズで同じままです。 その場合、DataRobotの動作はAutoMLに似ており、オートパイロットはより高いサンプルサイズでトレーニングされたモデルを優先します。

対照的に、最新のサンプリング方法を使用することは、モデルトレーニングにおける履歴データの重要性のレベルを意味します。 これは、時間認識プロジェクトでは、履歴データに戻ると、精度が向上したり、ノイズが追加されたりして、精度に大きな影響を与える可能性があるためです。 最新の場合、オートパイロットでは、さまざまな段階(削減済み特徴量セットで最適なモデルを再トレーニングするとき、またはデプロイの準備をするとき)での任意のサンプルサイズでトレーニングされたモデルが考慮されます。

期間またはカスタマイズされたバックテスト(「プロジェクト設定モード」)の場合、DataRobotは時間ウィンドウサンプルの割合を使用します。 行数モードの場合は、最小のバックテストで使用する最大行を使用します。 You can see the mode/sampling/training type listed on the Leaderboard.

マルチステップOTVのその他の側面

次のセクションでは、時間認識モデリングに固有の側面について説明します。

アンサンブル

マルチステップOTVを使用すると、さまざまなサンプルサイズでトレーニングできます。 これは、上位モデルがさまざまなサンプルサイズでトレーニングされている可能性があるためです。 DataRobotは、最高スコアのモデルであっても、(サンプルサイズが異なる)ブループリントと特徴量セットを使用するモデルをアンサンブルしません。

デプロイの準備中

デプロイに最適なモデルを準備するとき、DataRobotは、トレーニング期間をデータセットの最後にシフトし、パラメーターを固定することにより、最新のデータでモデルを再トレーニングします。 The sampling method can affect how the model is prepared for deployment in a following manner:

  • ランダムの場合、デプロイ用に準備されたモデルは、可能な限り最大のサンプルを使用します。 たとえば、最良のモデルがP1Y @ 50% (Random)でトレーニングされた場合、結果のモデルは、サンプリングなしでデータセットの最後のP1Yでトレーニングされます。
  • 最新の場合は、正確なトレーニングパラメーターが保持されます。 (上記の同じケースでは、結果のモデルはP1Y @ 50% (Latest).でトレーニングされます)

ダウンスケーリング

オートパイロットを実行すると、最初はサンプルサイズが制限されてデータセットが500MBにダウンスケールされます。 推定トレーニングサイズがその量を超えると、それに比例してダウンスケールが発生します。 ランダムサンプリングを使用するダウンスケールプロジェクトでは、デプロイ用に準備されたモデルは、(オートパイロットの最大サンプルサイズが小さくても)精度を最大化するために100%でトレーニングされます。 追加のフローズンのモデルは、バックテスト内のデータの100%でトレーニングされ、デプロイモデルの準備に可能な限り近いインサイトをユーザーに提供します。リポジトリから任意のモデルを任意のサンプルサイズ(500MB以上)にトレーニングすることや、リーダーボードから任意のサイズにモデルを再トレーニングすることができます。

時系列での特徴量の削減

時系列(OTVではない)モデリングでクイックモードを使用する場合、より積極的な特徴量削減戦略が適用されます。その結果、派生した特徴量が少なくなり、リポジトリで使用できるさまざまなタイプのブループリントが作成されます。

これは、教師なし時系列プロジェクトには適用されません。 教師なしの場合、ブループリントの選択はフルオートパイロットモードとクイックモードで同じです。 The only difference for Quick is that the feature reduction threshold used affects the number of derived features used for the SHAP-based Reduced Features list.