ナウキャスティング¶
ナウキャスティングは、過去と現在のデータに基づいてターゲットの現在の値を予測する時系列モデリングの方法です。 技術的には、開始と終了時刻が0(現在)である予測ウィンドウのことです。 ナウキャスティングは、特定の進行中の動作に寄与する現在の条件と要因を説明する説明モデルを構築します。 つまり、現在の入力値と最近の履歴に基づいて、今のターゲットは何になるのか。たとえば、異常検知プロジェクトでは、自分が今見ている観測値が異常かどうかを知りたい場合があります。
対照的に、予測は、過去と現在のデータに基づいて将来の値を予測します。 つまり、所与の時間での情報を使用して、将来の行の予測を行います。 過去の行の特徴量に沿って後続の行のターゲット値を予測します。
いくつかのサンプルは、ナウキャスティングに使用されています。
- 製造業と金融市場は、「公平な値」モデリングを実行します。 たとえば、連邦準備が、中期間の政策と市場変化を促進するナウキャストを構築して公開します。
- さまざまな条件の天然ガス価格の説明をします。
- その指標が報告される前に、経済指標の推定をします。
- 時間が重要となる場合、何らかの要因を理解します。
- 複数の過去のポイント(毎日のEOMのみの予測など)から固定ポイントを予測します。
- データ読み込みまたは従来の計算が遅れる場合、よりタイムリーな状態の推定が生成されます(気象モデリングに役立ちます)。
予測距離フレームワークに従う時系列予測モデルは、ナウキャスティングに使用できます。 標準の時系列インサイトは、ナウキャスティングにも適用されます。 特徴量のインパクトが、観測された現在の値を説明する重要な特徴量について適切なインサイトを提供するため、ナウキャスティングに特に役立ちます。 詳細については、次のセクションを参照してください。
ナウキャスティングを使用¶
ナウキャスティングワークフローは、時系列セクションで説明される予測方法(ターゲット、日付/時刻特徴量、および該当する場合、系列ID)と同じステップに従います。 次に、ナウキャスティングを選択した後のプロセスについて説明しています。
FDWの設定¶
ナウキャスティングは、予測開始と終了時刻に[0, 0]の予測ウィンドウ(FW)の設定を適用します。 さらに、特徴量派生ウィンドウ(FDW)の終了は、現在の時間ステップ前に単一の時間ステップで設定され、DataRobotでターゲットリーケージのリスクなしに、ターゲットの追加の特徴量(ローリング統計(ラグ)など)を導入できます。
選択された過去と将来の日付範囲を示す予測画像表現と異なり、ナウキャスティングは過去のローリングウィンドウのみを表示します。
事前に既知の特徴量:¶
デフォルトでは、DataRobotはすべての共変(ターゲット以外の)特徴量を事前に既知(KA)としてマークします。 これは正解率を提供するガードレールを提供するため、より適切なモデルの構築に役立ちます。 最も一般的なこととして、ナウキャスティングプロジェクトのすべての値は、事前に既知されています。(「明日」ではなく「今」を予測しているため)。 これは、今知らないデータを持つルールに対する例外となります。
DataRobotは、KAである特徴量の数を報告します。
鉛筆アイコン()をクリックして、時系列 > 特徴量を事前に既知として追加するの高度なオプションを開き、特徴量のセットを調整します。
ターゲットから特徴量の派生¶
ナウキャスティングでは、DataRobotはデフォルトでターゲットから特徴量を派生し、時間ベースの特徴量エンジニアリングを自動的に有効にします。 これは、ターゲットリーケージのリスクを防ぐために共変動で使用される技術であり、ナウキャスティングでターゲットから派生した特徴量を無効にすることは、使用可能なブループリントの性能と選択の制限をします。 さらに、複数系列プロジェクトの場合、ターゲット派生は、他の系列から特徴量の計算をサポートします。
選択すると、ターゲットから特徴量が派生します。 この設定は、時系列 > 特徴量の派生からの除外の高度なオプションの設定にリンクされています。 ボックスの選択を解除すると、そのフィールドに特徴量セットにターゲット特徴量名が追加されます。
詳しい情報...¶
次のセクションでは、ナウキャスティングのアプリケーションを理解するためのバックグラウンド情報を提供します。
ターゲットから派生した特徴量の追加¶
ナウキャスティングはFWの開始と終了時間を[0,0]に設定するだけでなく、様々な利益を提供します。
- より多くの特徴量セットが作成されました。
- 選択に使用できるその他のブループリント。
- 派生した特徴量を大幅に増加します。
- ターゲットから派生した特徴量が利用可能です。
さらに、交差系列を有効にすると、派生した特徴量のセットはまた豊かになり、交差系列のブループリントが利用可能になりました。
ナウキャスティングがどのように機能するのか¶
時間認識モデリング方法としてナウキャスティングを選択して、EDA2が開始される場合DataRobotは、ターゲット以外の特徴量(Covariates)を事前に既知(KA)として自動的にマークします。 これは、リアルタイム特徴量(たとえば、latest transaction volume of stock
)でターゲット(latest known price index
)を予測することができます。
目的のFDW設定を選択し、事前に既知として共変をマークできます。
DataRobotは、自動的に派生した特徴量をターゲットリーケージの発生から防ぐためにガードレールを提供しています。 具体的には、ターゲットから派生した特徴量ラグは、時間内の現在の時点の前にあるFDWエンドから推奨されます。 これは、最新の派生ローリング統計がターゲットリーケージの発生とはならないことを保証します(それ以外の場合、トレーニングされたモデルは非現状的な性能を示すことになります)。
ナウキャスティングフレームワーク¶
標準の時系列フレームワーク(予測)は時系列セクションで説明され、時系列問題に固有のギャップを追加すると、次のように説明できます。
ナウキャスティングでは、その説明は少し変更されます。
指定された時系列データセット:
時間 | 入力 | ターゲット |
---|---|---|
2009 | 1.23 | 9.9 |
2010 | 1.41 | 10.0 |
2011 | 2.09 | 9.82 |
2012 | 1.31 | 7.99 |
2013 | 0.31 | 8.54 |
2014 | 3.09 | 7.42 |
2015 | 4.12 | 4.01 |
2016 | 5.91 | 6.73 |
予測では、DataRobotは次のように派生した時系列特徴量と予測ターゲットを作成します。
時間 | 予測ポイント | 距離 | ターゲット |
---|---|---|---|
2010 | 2009 | +1 年 | 10.0 |
2011 | 2009 | +2 年 | 9.82 |
-- | -- | -- | |
2011 | 2010 | +1 年 | 9.82 |
2012 | 2010 | +2 年 | 7.99 |
-- | -- | -- | |
2012 | 2011 | +1 年 | 7.99 |
2013 | 2011 | +2 年 | 8.54 |
ナウキャスティングでは、次のように派生した時系列特徴量と予測ターゲットを作成します。
時間 | 予測ポイント | 距離 | ターゲット |
---|---|---|---|
2009 | 2009 | +0 年 | 9.9 |
2010 | 2010 | +0 年 | 10.0 |
2011 | 2011 | +0 年 | 9.82 |
2012 | 2012 | +0 年 | 7.99 |
2013 | 2013 | +0 年 | 8.54 |
2014 | 2014 | +0 年 | 7.42 |
2015 | 2015 | +0 年 | 4.01 |
2016 | 2016 | +0 年 | 6.73 |