時系列フレームワーク¶
このセクションでは、基本的な時系列フレームワーク、ウィンドウによって作成されるギャップ、および時系列問題の一般的なデータパターンについて説明します。
基本的な時系列フレームワーク¶
シンプルな時系列モデリングフレームワークは次のように表現できます。
- 予測ポイントは、予測を作成する任意の時間ポイントを定義します。
- 予測ポイントの左にある特徴量の派生ウィンドウ(FDW)は、DataRobotでモデリングデータセットの新しい特徴量を派生させるために使用されるデータのローリングウィンドウを定義します。
- 最後に、予測ポイントの右にある予測ウィンドウ(FW)は、予測する将来値の範囲(予測距離(FD))を定義します。 DataRobotは、この予測ウィンドウを基に「このウィンドウ内の各日の予測」を作成します。
予測ウィンドウで指定した範囲には、指定した値も含まれます。 たとえば、+2日から+7日と設定した場合、ウィンドウには、2、3、4、5、6、7日目が含まれます。 それに対して、特徴量の派生ウィンドウには、左側の境界が含まれませんが右側の境界が含まれます。 (上記の画像では、DataRobotは予測ポイントの7日前から27日前まで使用し、28日目は使用しません。) 左側(古い方)では排他的ラグが設定され、右側(新しい方)では包含的ラグが設定されるので、これの点はウィンドウを設定する際に注意する必要があります。 差分特徴量セットを予測時に使用する場合、差分を考慮に入れる必要があります。 たとえば、モデルで7日の差分を使用し、特徴量の派生ウィンドウの間隔が[-28~0]日である場合、効果的な派生ウィンドウは、[-35~0]日です。
時系列フレームワークは、新しい予測を作成するために必要な最近の履歴の量をエンコードすることによって、モデルの使用方法のビジネスロジックをキャプチャします。 最近の履歴を設定すると、特徴量、予測ポイント、そして最終的に予測に使用するローリングウィンドウが設定されます。 言い換えれば、特徴量の作成プロセスの最低制約と予測の作成に必要な最小の履歴が設定されます。
上記のようなフレームワークを基に、この例では28日前から7日前までのデータが使用されます。 モデルでレポートされる予測距離は2日目から7日目までです。予測には、これらの各日に対して1行が含まれます。 予測ウィンドウは、トレーニングに使用するモデルの全体的な精度を測定する客観的な方法を提供します。この場合、合計誤差は、データのすべての潜在的な予測ポイントとウィンドウの各予測距離の精度を平均化することによって算出されます。
ウィンドウが作成するギャップ¶
次に、時系列特有の問題であるギャップを追加します。
この図には、ブラインド履歴ギャップ(B1)と運用不可ギャップ(2)が含まれます。
「ブラインド履歴」は、最近のデータ(たとえば、 「直近」 は常に1週間前である場合があります)へのアクセスの遅れによって生じたギャップを補います。 これは、特徴量派生ウィンドウと予測ウィンドウで指定される値の小さい方の間の期間として定義されます。 ギャップが0の場合は「今日とそれ以前のデータを利用」、ギャップが1の場合は「昨日からのデータを利用」というふうになります。
「運用化できない」期間とは、予測ポイントの直後から予測ウィンドウの開始までの空白期間を指します。 モデルがトレーニングされ、本番環境にデプロイされ、予測を開始するまでに必要な時間を表します。この期間は、短期的すぎて役に立たない期間です。 たとえば、明日必要な人員を予測することは、その予測に基づいた行動をとるには遅すぎるかもしれません。
時系列データの一般的なパターン¶
時系列モデルは、時系列データの共通パターンを考慮して構築されます。
-
線形性:トレンドの特定のタイプ。 「機械学習」という用語を検索すると、時間経過に伴う増加が確認できます。 検索用語によって作成された線形性トレンドを示します(非線形トレンドとして見ることもできます)。このトレンドは、興味が変動しつつも、時間の経過に伴って興味が増大していることを示します。
-
季節性:「感謝祭」という用語を検索すると周期性が確認できます。 言い換えると、興味の変動はカレンダーのイベントに密接に関係しています(たとえば、毎年7月に上昇が開始し、11月後半に下降します)。
-
サイクル:サイクルは季節性に似ていますが、間隔は必ずしも一定ではなく、サイクルを確認するには少なくとも4年分のデータが必要です。 通常、サイクルはグローバルなマクロ経済イベントや政治情勢の変化に関連し、一連の拡大と収縮としてとらえることができます。
-
組み合わせ:データでは、複数のパターンを組み合わせることもできます。 たとえば、「ジム」という用語を検索したとします。この検索件数は毎年1月に増加し、ホリデーシーズンに減少します。 しかし、興味は時間の経過に伴って増えています。 この例のトレンドでは、季節性と線形性の両方を確認できます。