時系列予測¶
本機能の提供について
自動時系列モデリング(AutoTS)を有効にする情報については、DataRobotの担当者にお問い合わせください。
時系列モデリングの操作に関する追加の考慮事項を参照してください 。
次のセクションで説明するように、予測を行う前にモデルを準備します。
最終モデルについて¶
元の(「最終的な」)モデルはホールドアウトデータなしでトレーニングされているので、最新のデータが含まれません。 これは最初のバックテストを表します。 したがって、予測は、インサイト、係数、およびモデルの評価に役立つタブに表示されるその他のデータに一致します。 (これは、新しいトレーニング期間ダイアログの最終モデルをクリックし、データモデルで使用されるデータを表示することによって確認できます。) より最新のデータを使用する場合は、開始日と終了日を使用してモデルを再トレーニングします。
備考
すべてのデータに対する再トレーニングには、注意が必要です。 時系列では、過去のデータが現在の予測にマイナスの影響を与えることがよくあります。 100%のデータでデプロイ用モデルを再トレーニングしないほうがよい理由は数多くあります。 トレーニングウィンドウがデプロイに与える影響の程度を考えて、次のことを確認してください。
- データのすべてが、実際に最近の予測と関連しているか?
- 現在の予測に悪影響を及ぼす可能性があり、関連性がなくなった過去の変更やイベントがデータにあるか?
- バックテスト1のトレーニングウィンドウサイズ以外に、実際に関連するものはあるか?
デプロイ前の再トレーニング¶
モデルを選択してホールドアウトのロックを解除した後、(ハイパーパラメーターが固定された状態であっても)予測の精度を確認するためにモデルを再トレーニングすることができます。 元のデータはホールドアウトデータを使用せずにトレーニングされているので、最新のデータが含まれていません。 これは、新しいトレーニング期間ダイアログの最終モデルをクリックし、データモデルで使用されるデータを表示することによって確認できます。
モデルを再トレーニングするには、次の手順を実行します。
-
リーダーボードで、プラス記号(+)をクリックして新しいトレーニング期間ダイアログを開き、トレーニング期間を変更します。
-
最終モデルを表示して、モデルが最新のデータでトレーニングされていることを確認します。
-
スライダーをクリックして、フローズン実行を有効にします。
-
開始/終了日を選択して、再トレーニングに使用する(ホールドアウトデータの日付を含む)データの日付を入力します。 「+1」の手法を使用することを忘れないでください(指定する最後の日付の翌日の日付を入力します)。
モデルの再トレーニング¶
最新のデータでモデルを再トレーニング*すると、モデルはサンプル外予測を行わなくなります(リーダーボードインサイトの多くがサンプル外予測に基づいています)。 したがって、最新のデータでトレーニングされた子(推奨および再構築)モデルには、再トレーニングしたモデルをスコアリングする追加サンプルがありません。 インサイトはDataRobotの推奨を理解したり、モデルパフォーマンス分析を進めたりする上で、主要なコンポーネントなので、親(元の)モデルのインサイトが子(固定)モデルにリンクされます。
* この状況は、モデルがホールドアウトに対してトレーニングされた場合でも発生することがあります(「スリム実行」モデルにもスタックされた予測がありません)。
影響を受けるインサイトを以下に示します。
- ROC曲線
- リフトチャート
- 混同行列
- 安定性
- 予測の精度
- 系列のインサイト
- 時系列の精度
- 特徴量ごとの作用
「予測を作成」タブ¶
時系列モデルを使用して予測を行う方法は次の2通りあります。
-
リーダーボードから予測を作成タブを使用する(1GB未満の予測データセットの場合)。 その方法を以下に示します。
-
モデルをデプロイして、バッチ予測機能(デプロイ > 予測から入手可能)を使用する(1GBから5GBの予測データセットの場合)。
備考
時系列予測で予測範囲を使用すると、元のデータセットサイズよりもサイズが大幅に増加することがあります。 バッチ予測機能を使用して、メモリー不足エラーを回避します。
リーダーボードの予測を作成タブの動作は、従来のモデリングとは少し異なります。 以下のセクションでは、時系列での 予測を作成 の使用について簡単に説明します。詳細については、予測を作成タブの詳細を参照してください。
備考
バッチ予測を作成するとき、ARIMAモデルブループリントに完全な履歴を提供する必要があります。
この予測を作成タブは、予測データセットで必要な最近のデータの量(特徴量派生および予測ポイントウィンドウの設定方法に応じて時間単位または行)を特定し、予測行とKAをレビューするのに有用なサマリーを提供します。 KAとして表示される特徴量のセットには、現在のモデルを構築するために使用された特徴量セットの一部である、KA特徴量だけが含まれます。 予測設定 タブには、設定の変更や自動生成された予測ファイルテンプレートへのアクセスに役立つ予測データセットの概要が表示されます。
この例では、予測データセットには、少なくとも42日分の履歴データが必要で、最大7行の予測が可能です。 これは、モデルが予測ポイントの35日前に設定されていたにもかかわらず、7日の差分を使っているため、必要な履歴に7日が追加されるためです。 一般に、Historical rows = FDW size + seasonality
であり、seasonalityは検出された最長の周期性です。 トレーニングに必要な行はHistorical rows = FDW size + seasonality + FW size
として計算されます。
以下に、時系列モデリングで予測を行うための概要を示します。
-
予測するモデルを選択した後、ホールドアウトのロックを解除し、モデルを再トレーニングするよう求めるメッセージが表示されます(この操作をまだ行っていない場合)。 モデルで最近のデータが使用されるよう、この手順を完了することを推奨しますが、必須ではありません。
-
予測データセットを準備しアップロードする。 予測に必要な予測行を含む予測可能なデータセットをアップロードするか、DataRobotで予測ファイルテンプレートを作成します。
-
(オプション)予測ポイント(予測を開始する日付)をDataRobotのデフォルトから変更します。
予測可能なデータセットの作成¶
予測データセットを手動で作成する場合は、提供されているサマリーを使用して、必要な履歴行の数を指定します。 (オプション)予測設定を開いて予測ポイントを変更し、新しい予測ポイントの履歴行の要件が予測データセットで満たされていることを確認してください。必要に応じてをクリックします。 CSVファイルの必要な形式について視覚表現については、データセットの例を参照してください。
以下の例では、7~9行目の(「予測行」)のターゲット値と非KA値を空白のままにします。これらの行には、予測計算時にDataRobotによって予測値が入力されます。
予測データセットが適切な形式であれば、 データのインポート元 をクリックして、データセットをDataRobotにアップロードします。 次に、予測を計算します。
備考
予測ウィンドウ内の予測データのKA特徴量に欠損値があると、予測精度に影響することがあります。 その場合、影響を受けるデータセットの下に注意および情報メッセージが表示されます。 また、デフォルトより後の予測ポイントを選択するときに履歴が欠損している場合でも、DataRobotを使用して予測を計算できます。
予測ファイルテンプレート¶
予測ポイントの設定で、追加の予測行を元の予測データセットに追加する必要がある場合、DataRobotは必要な行を追加するテンプレートファイルを自動的に生成します。 自動生成された予測テンプレートをそのまま使用するか、ダウンロードして、予測を作成します。 テンプレートを作成するには、データのインポート元 をクリックして選択し、目的のデータセットをアップロードします。 DataRobotは、デフォルトの予測ポイントの後にターゲット値を含まない(空の予測行がない)行が見つからないために予測行になる可能性がある場合、テンプレートを生成します。
たとえば、予測ウィンドウが+5 ... +6
で、デフォルトの予測ポイントがt0
であるとします。 ポイントt5
とt6
は欠損していますが、t1
とt
は存在しています。 この場合、デフォルトの予測ポイントの後にt5
またはt6
を満たす予測行が見つからなかったため、DataRobotは拡張ファイルを生成します。
DataRobotがテンプレートを生成するには、次の条件を満たす必要があります。
- サポートする予測行がない(予測ウィンドウ内にある空のターゲット行)。
- 生成されたテンプレートファイルのサイズが、アップロードファイルの制限に満たない。
テンプレートをそのまま使用¶
予測行を変更したり、KA特徴量を追加したりする必要がない場合は、テンプレートをそのまま使用してください。 DataRobotは予測ポイントを設定し、プロジェクトの予測ウィンドウ設定を満たすために必要な行数を追加します。
最新のデータを予測ポイントとして使用しており、ギャップがなく、すべての行が必要な場合は、デフォルトの自動拡張を使用します。 この場合、データセットをアップロードして、予測の計算を行います。
テンプレートの変更¶
DataRobotは、予測データセットをアップロードするとすぐに予測ファイルテンプレートを生成します。 ただし、予測の計算を行う前にテンプレートを変更する必要がある場合があります。
-
列をKA特徴量として識別し、予測行に関連情報を入力する必要があります。
-
複数の系列があり、データセット内のすべての系列よりも少ない系列で予測したい場合。 (DataRobotは、データセットの各系列に必要な行数を追加します。)
-
設定に基づいて、DataRobotは追加の行をいくつか生成しますが、より少ない数で予測する必要があります。
テンプレートを変更するには:
-
予測設定(予測ポイント予測タブ)をクリックし、高度なオプションリンクを展開して、自動生成された予測ファイルテンプレートをダウンロードします。
-
テンプレートを開き、必要な情報を新しい予測行に追加するか、予測を遅らせるだけの場合は不要な行を削除します。
-
変更したテンプレートを保存し、データのインポート元を使用してDataRobotにアップロードします。
-
(オプション)予測ポイントをデフォルト以外の値に設定します。
予測の設定¶
DataRobotは、予測のベースとなるデフォルトの予測ポイント(1)を選択します。 デフォルトでは、予測ポイントは、特徴量派生ウィンドウ内の時間履歴の使用を最大化する最新の有効なタイムスタンプです。 ただし、デフォルト設定を次のように変更できます。
予測設定モデル(2)を使用して、デフォルト設定以外の日付設定を設定します。
備考
デフォルトの予測ポイントは、有効なターゲット値を含むデータセット内の最新の行か、プロジェクト設定中にギャップを設定した場合、特徴量派生ウィンドウの履歴要件を満たすデータセット内の行です。 小数点以下の秒の予測には、デフォルトの予測ポイントを使用する必要があることにも注意してください。
予測ポイント予測¶
予測ポイント予測を使用して、予測を開始したい特定の日付(予測ポイント)を選択します。 DataRobotはすべての潜在的な予測ポイントを使用してモデルをトレーニングするため、表示されている任意の日付を選択できます。 別の予測ポイントを選択する場合は、データセットに十分な履歴があることを確認してください。 各フィールドの説明については 表を参照してください。
予測範囲予測¶
予測範囲予測を使用して、選択した日付範囲内のすべての予測距離を予測します。 このオプションを使用すると、外部データセットで一括予測が生成されます(データセット内のすべての行の、予測距離予測すべてが含まれます)。 将来の予測を作成するのではなく、モデル検定の結果を使用します。
備考
範囲予測を使用する場合、DataRobotは予測開始日を含め、予測終了日を除外します。 つまり、範囲内の最後の日付は、予測の出力結果の予測ポイントではありません。
予測範囲予測は、モデルの精度を検証するのに役立ちます。 DataRobotは、データセットからすべてのポイントの実測値を抽出します。 予測の開始日と終了日を設定して、一括予測を行う期間の履歴範囲を定義します。 このモデル評価プロセスでは実測値が使用されるため、DataRobotはすべての予測距離の予測をサポートできるタイムスタンプの予測のみを生成します。 各フィールドの説明については 表を参照してください。
予測設定の定義¶
次の表では、予測ポイントと予測範囲の設定フィールドについて説明します。
要素 | 説明 | |
---|---|---|
1 | 予測タイプセレクター | 予測ポイント(特定の開始日)または予測範囲(一括予測)を選択します。 |
2 | 高度なオプション | 展開して予測ファイルテンプレートをダウンロードします(作成されている場合)。 |
3 | 行のサマリー (予想ポイント) |
予測を作成タブと同じサマリー情報を提供します。 色は上記の(6)視覚化に対応し、元のプロジェクトの作成中に設定された過去の行と予測行を表示します。 |
3 | 行のサマリー (予想範囲) |
上記の行(5)の意味を示す凡例。 |
4 | 有効な予測オプション | データセット全体の日付範囲(5)のコンテキストでは、有効な予測設定である日付の範囲(有効な予測を生成する日付)を示します。 範囲全体の上にある点線の色付きのバーは有効なオプションを示し、黄色の範囲内の日付は、KA特徴量の履歴が欠損しているためにDataRobotの推奨設定を超えている日付です。 また、この範囲内にギャップがある場合でも、予測が失敗する可能性があります(時間履歴が不十分であるか、予測行がないため)。 |
5 | データセットの開始と終了 | データセットで見つかった日付範囲の全体(履歴行)のコンテキスト内で、予測に選択しているポイントの範囲を示します。 DataRobotが予測ファイルテンプレートを作成した場合、データセットの終了日とテンプレートファイルの終了日の両方が表示されます。 データセットの終了と最大予測距離が同じ場合、ディスプレイにはデータセットの終了が表示されません。 予測ポイントの設定では、上記(3)で要約した履歴行と予測行もスパンにオーバーレイされます。 予測ポイントの設定を変更すると、オーバーレイが移動します。 |
6 | 過去および予測ズーム | 予測ポイントの選択を簡素化するための、関連する過去行と予測行のズームビュー。 スライダーを動かしたり、カレンダーの日付を設定したりすると、上記の日付行(5)に変更が反映されます。 |
7 | 日付セレクター | 予測ポイントまたは予測範囲(開始日と終了日)を設定するためのカレンダーピッカー。 カレンダーでは、無効な日付(有効な予測範囲(4)に示されていない日付)は無効になっています。 |
8 | 予測を計算 | 予測計算を開始します(予測を作成ページの予測計算と同様)。 または、設定を保存し、予測を計算せずにモデルを閉じます。 新しい設定は予測を作成ページに反映され、そこから予測計算をクリックすると、いつでもこれらの設定が使用できます。 または、Xをクリックして保存せずに閉じます。 |
予測設定の日付を理解する¶
予測データセットをアップロードすると、DataRobotは予測ポイントとして使用できる日付の範囲(有効な予測範囲)を検出します。 また、デフォルトの予測ポイントも決定します。これは完全な履歴を使用して予測を行うために使用できる最新のタイムスタンプです。
視覚化では、次のタイムスタンプがマークされます。
- データ開始はデータセットで検出された最初の行のタイムスタンプです。
- データ終了は元のテンプレートか自動生成されたテンプレートに関係なく、データセットで検出された最後の行のタイムスタンプです。
- 最大予測距離は、データセット内の可能な最後の予測距離のタイムスタンプです。
予測ポイントを変更する前に、基本的な時系列モデリングフレームワークを確認してください。
いくつかの考慮すべき事項があります。
-
最新の有効な予測ポイントとは 最新の有効な予測ポイントは、エラーなしで予測を実行するために使用できる最大予測ポイントです。 デフォルトの予測ポイントでは、時間履歴の使用が考慮されるため、デフォルトの予測ポイントとは異なる場合があります。
-
予測ウィンドウに基づいて、出力された最後の予測のタイムスタンプとは 予測ウィンドウは、予測ポイントに対して定義されます。最後の予測タイムスタンプは、予測ウィンドウと予測データセット内のタイムスタンプの両方の関数です。
たとえば、1〜7日間の予測ウィンドウを考えてみましょう。 予測ポイントは2001-01-01ですが、データセットの最大日付は2001-01-05です。この場合、2001-01-06~2001-01-08の行がないため、最大予測タイムスタンプは2001-01-05になります。
-
予測ウィンドウの長さを考慮してください。 つまり、実測値を持つ最後の行の後に、少なくとも1つの予測行(予測ウィンドウの境界内に)があるか ある場合、DataRobotはテンプレートを生成しません。ない場合は、DataRobotはプロジェクト設定に基づいて予測行を生成します。
予測設定 モデルを使用して、予測データセットの概要を取得します。 予測ポイントや予測の開始日と終了日のような設定を選択するのに役立ちます。 さらに、DataRobotは最終行の後に実測値を含む予測行を生成し(デフォルトの予測ポイントに基づく予測行がない場合)、予測ワークフローを簡素化します。実測値は、各系列IDの最後の行から取得され、予測行に複製されたデータです。
時系列予測データセット検定
DataRobotは、アップロード時に時系列予測データセットを検定し、プロジェクトに必要な処理済み特徴量の作成に履歴行があるかどうか確認します。
季節性がプロジェクトで検出された場合、派生ウィンドウ(FDW)よりも長い追加履歴行が必要です。 たとえば、[-14、0]および7日間の季節性のFDWがあるプロジェクトには、ターゲットが異なる特徴量(target (7 day diff) (mean)
など)と差分特徴量(target (14 day max) (diff 7 day mean)
など)を収容するために予測データセット内に21履歴日が必要です。 複数の季節性が検出された場合、最長の季節性が検定を実行するために使用されます。
DataRobotは、ウィンドウ統計特徴量(target (7 day mean)
やfeature (14 day max)
など)を計算する場合、すべての履歴行の存在を必要としません。 FDW設定に基づき、DataRobotは予測に必要な最小履歴行数を事前に決定します。 予測データセットに欠損した履歴行が多すぎる場合、予測はエラーとなります。
倍数的トレンドが検出された場合、予測データセット内のすべてのターゲット値を真に正( > 0)である必要があります。 ゼロまたは負のターゲット値は、データセットが倍数的であるというモデルの前提に違反しており、予測はエラーを生成します。 その場合は、トレーニングデータセットが予測時間中にユースケースを代表しているかを確認するか、高度なオプションの指数トレンドとして扱うを無効にしてプロジェクトを再生します。
予測の計算とアクセス¶
予測ポイントを設定し、データセットを正しい形式で正常にアップロードしたら、予測を計算します。
-
2つの予測計算方法があります。 次のいずれかをクリックします。
- 予測設定モーダルにある予測計算ボタン。
- 予測を作成 ページにある 予測計算 リンク( 予測設定 リンクの横)。
-
処理が完了すると、データセットから過去のデータおよび予測をプレビューするか、予測のCSVをダウンロードします。 ダウンロードするには、ダウンロードをクリックして予測にアクセスします。
備考
予測の出力結果に関する備考:
• ユーザーの権限に応じて、「元の形式のタイムスタンプ」列が表示されることがあります。 この列の値は「タイムスタンプ」列の値と同じですが、元の予測データセットのタイムスタンプ形式が使用されます。 この権限を有効にするには、管理者に依頼してください。
• ダウンロードされた予測を操作するときは、時系列プロジェクトでは、row_id
は元のプロジェクトデータ(トレーニング予測用)または特定のタイムスタンプやseries_id
のアップロードされた予測データからの行の位置を表すものではありません。 これはプロジェクトに固有の派生値です。
スプレッドシートソフトウェアによっては、予測の出力結果のグラフを作成することができます。 たとえば、サンプルデータで翌日から7日間の販売予測が示されている場合、在庫と人員配置に役立てることができます。
予測プレビュー¶
予測を計算した後、プレビューリンクをクリックして、過去のデータのコンテキスト内での時系列の予測のプロットを表示します。 このプロットは、単一の予測ポイントに相対的な各予測距離の予測を一度に示します。
デフォルトでは、予測間隔(青の網掛け)は予測の80%が含まれる領域を表します。 この間隔は、ターゲットの実測値が含まれると予期される値の範囲です。 これらの範囲は予測の信頼度間隔に似ていますが、モデルのバックテスティング中に測定された残差誤差に基づきます。
以下の条件を満たすチャートには、推定予測間隔が表示されます。
-
すべてのバックテストをトレーニングする必要があります。 使用可能なすべての検定行を使用することができるようになり、使用可能な情報に基づいて異なる間隔値を防止できます。
-
予測距離値ごとに少なくとも10のデータポイントが必要です。
上記の条件が満たされない場合、予測値(オレンジのポイント)だけが表示されます。
予測間隔サイズを指定して、間隔範囲に含まれる実測値の確率を指定することが可能です。 値が大きいほど精度は低くなりますが、より控え目になります。 たとえば、80%のデフォルト値では、下位の境界が10%になり、上位の境界が90%になります。 予測間隔を変更するには、オプションリンクをクリックして表示を再計算します。
備考
予測を作成するときに予測間隔を設定することもできます。
予測間隔はアウトオブサンプル残差の分位に基づいて計算されるので、対称ではないことがあります。 DataRobotでは系列ごと(該当する場合)および予測距離ごとに個別に計算が行われるので、間隔が距離とともに広がり、各系列に固有の範囲が設定されることがあります。 新しい系列で予測を行う場合、または検定とのオーバーラップのない系列で予測を行う場合、すべての系列にまたがる平均が使用されます。
プレビューグラフ上のポイント(予測ポイントの左)にカーソルを置くと、履歴データの値が表示されます。
予測ポイントの右にカーソルを置くと、予測が表示されます。
複数系列のモデリングで使用した場合、プレビューする系列を選択するオプションが表示されます。 この概要は、個々の系列のターゲット、特徴量、または精度が時系列でどのように変化するかを示し、その系列の予測を提供します。 ドロップダウンから系列を選択します。 または、左向きの矢印ボタンまたは右向きの矢印ボタンを使用して系列のオプションを表示します。 各系列の予測間隔を比較することによって、最も精度の高い予測を提供する系列を識別できます。
プレビュープロット内から予測をダウンロードすることもできます。