時間認識プロジェクトのオートパイロット¶
備考
非時間認識モデリングに対するAutoMLモデリングモードの説明を参照してください。
モデリングモードは、実行されるブループリントのセットと使用されるサンプリングサイズの自動化されたモデル構築戦略を定義します。 DataRobotは、指定されたターゲットと日付/時刻特徴量に基づいて、事前定義されたブループリントのセットを選択して実行し、トレーニングバックテストパーティションの増え続ける部分でブループリントをトレーニングします。 初期段階でより多くのモデルを実行し、上位モデルのみを次の段階に進めることをサポートして、モデルの多様性を高め、オートパイロットのランタイムを高速化します。
デフォルトのクイックオートパイロットは、フルオートパイロットモードの短縮および最適化バージョンです。 非常に時間がかかる可能性がある包括モードでは、すべてのリポジトリブループリントが実行されます。 手動モードでは、ブループリントとサンプルサイズを選択できます。 使用されるサンプルの割合サイズは、以下の表で説明されている選択したモードに基づいています。
備考
時系列プロジェクトの場合、モデリングモードでは、実行されるブループリントのセットは定義されますが、特徴量削減プロセスは定義されません。 クイックモードでは、時系列(OTVではない)プロジェクトに追加の影響があります。
次の表は、OTVプロジェクトの選択可能なモードのモデリングの割合を定義しています。 時系列プロジェクトは100%のデータで実行されます。 デフォルトでは、すべてのモードは次の特徴量セットで実行されます。
- 有用な特徴量(OTV)
- 時系列で有用な特徴量(時系列)
リストされている割合は、合計行の割合を示しています(行はパーティションの期間または行数によって定義されます)。 行の最大数は、プロジェクトタイプによって決定されます。 ただし、任意のモデルをリポジトリから任意のサンプルサイズにトレーニングできます。 または、リーダーボードから任意のサイズにモデルを再トレーニングするか、新しいトレーニング期間オプションを使用して、トレーニング範囲とサンプルサイズを変更します。
開始モード | ブループリントの選択 | 各パーティションのサンプルサイズ |
---|---|---|
クイック(デフォルト) | 指定したターゲット特徴量とパフォーマンス指標に基づいて、ブループリントのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。 | モデルは、プロジェクトの日付 / 時刻の分割によって定義された各バックテストについて最大トレーニングサイズで直接トレーニングされます。 |
オートパイロット | より多くのブループリントを選択して実行します。 | 前のフェーズの最高精度モデルで、25%、50%、そして最後に100%のサンプルサイズを使用して実行します。 |
包括的 | 最大のサンプルサイズ(100%)ですべてのリポジトリブループリントを実行して、モデルの最高精度を高めます。 このモードでは構築時間が大幅に長くなります。 時系列プロジェクトまたは教師なしプロジェクトでは使用できません。 | 100% |
手動 | EDA2を実行し、次に、実行するモデルとサンプルサイズを完全に制御するためのブループリントリポジトリへのリンクを提供します。 | カスタム |
小さいデータセットで作業する場合、それぞれのサンプルサイズは異なります。
たとえば、OTVプロジェクトのフルオートパイロットを開始すると、DataRobotは最初に、選択したターゲットと日付/時刻特徴量に基づいて、プロジェクトに最適化されたブループリントを選択します。 次に、バックテスト1のデータの25%を使用してモデルを実行します。これらモデル精度のスコアリングが行われるとDataRobotは上位のモデルを選択し、それらに対してデータの50%を使用してモデル構築を再実行します。 その実行から上位のモデルがデータの100%に対して実行されます。 全てのサンプルサイズでの全てのモデル実行結果がリーダーボードに表示されます。 これらのサンプルを構成するデータは、ランダム(同じ範囲内のランダムなx%の行)または最新(行数のバックテスト内の最新行のx%または期間の選択された期間)のいずれかのサンプリング方法によって決定されます。
小さなデータセット¶
オートパイロットでは、データセットに含まれる行数に応じてサンプルパーセンテージ実行が変更されます。 次の表が基準を示します。
行数 | 実行するパーセンテージ |
---|---|
2000行未満 | 最終オートパイロットステージのみ(100%) |
2001~3999行 | 最終の2つのオートパイロットステージ(50%および100%) |
4000行以上 | オートパイロットの全てのステージ(25%、50%、および100%) |
サンプリング方法が重要な理由¶
バックテストサンプリング方法は、バックテストの設定、モデルのアンサンブル、および最適なモデルの選択に影響を与えます。 AutoMLとは異なり、最大のサンプルサイズでトレーニングされたモデルは、最適なモデルではない場合があります。 ランダムサンプリングを使用する場合、観察可能な履歴は、すべてのサンプルサイズで同じままです。 その場合、DataRobotの動作はAutoMLに似ており、オートパイロットはより高いサンプルサイズでトレーニングされたモデルを優先します。
対照的に、最新のサンプリング方法を使用することは、モデルトレーニングにおける履歴データの重要性のレベルを意味します。 これは、時間認識プロジェクトでは、履歴データに戻ると、精度が向上したり、ノイズが追加されたりして、精度に大きな影響を与える可能性があるためです。 最新の場合、オートパイロットでは、さまざまな段階(削減済み特徴量セットで最適なモデルを再トレーニングするとき、またはデプロイの準備をするとき)での任意のサンプルサイズでトレーニングされたモデルが考慮されます。
期間またはカスタマイズされたバックテスト(「プロジェクト設定モード」)の場合、DataRobotは時間ウィンドウサンプルの割合を使用します。 行数モードの場合は、最小のバックテストで使用する最大行を使用します。 リーダーボードにリストされているモード/サンプリング/トレーニングタイプを確認できます。
マルチステップOTVのその他の側面¶
次のセクションでは、時間認識モデリングに固有の側面について説明します。
アンサンブル¶
マルチステップOTVを使用すると、さまざまなサンプルサイズでトレーニングできます。 これは、上位モデルがさまざまなサンプルサイズでトレーニングされている可能性があるためです。 DataRobotは、最高スコアのモデルであっても、(サンプルサイズが異なる)ブループリントと特徴量セットを使用するモデルをアンサンブルしません。
デプロイの準備中¶
デプロイに最適なモデルを準備するとき、DataRobotは、トレーニング期間をデータセットの最後にシフトし、パラメーターを固定することにより、最新のデータでモデルを再トレーニングします。 サンプリング方法は次のようにモデルをデプロイするための準備方法に影響を与える可能性があります。
- ランダムの場合、デプロイ用に準備されたモデルは、可能な限り最大のサンプルを使用します。 たとえば、最良のモデルが
P1Y @ 50% (Random)
でトレーニングされた場合、結果のモデルは、サンプリングなしでデータセットの最後のP1Yでトレーニングされます。 - 最新の場合は、正確なトレーニングパラメーターが保持されます。 (上記の同じケースでは、結果のモデルは
P1Y @ 50% (Latest).
でトレーニングされます)
ダウンスケーリング¶
オートパイロットを実行すると、最初はサンプルサイズが制限されてデータセットが500MBにダウンスケールされます。 推定トレーニングサイズがその量を超えると、それに比例してダウンスケールが発生します。 ランダムサンプリングを使用するダウンスケールプロジェクトでは、デプロイ用に準備されたモデルは、(オートパイロットの最大サンプルサイズが小さくても)精度を最大化するために100%でトレーニングされます。 追加のフローズンのモデルは、バックテスト内のデータの100%でトレーニングされ、デプロイモデルの準備に可能な限り近いインサイトをユーザーに提供します。リポジトリから任意のモデルを任意のサンプルサイズ(500MB以上)にトレーニングすることや、リーダーボードから任意のサイズにモデルを再トレーニングすることができます。
時系列での特徴量の削減¶
時系列(OTVではない)モデリングでクイックモードを使用する場合、より積極的な特徴量削減戦略が適用されます。その結果、派生した特徴量が少なくなり、リポジトリで使用できるさまざまなタイプのブループリントが作成されます。
これは、教師なし時系列プロジェクトには適用されません。 教師なしの場合、ブループリントの選択はフルオートパイロットモードとクイックモードで同じです。 クイックモードの唯一の違いは、使用される特徴量削減しきい値が、SHAPベースの削減済み特徴量リストに使用される派生した特徴量の数に影響することです。