Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時系列モデリング

本機能の提供について

自動時系列モデリング(AutoTS)を有効にする情報については、DataRobotの担当者にお問い合わせください。

備考

ファイルサイズおよび系列制限に関する注意事項については、サポート記事ファイルサイズ要件を参照してください。

以下のセクションでは、DataRobotの予測(将来の値を予測するモデリング)とナウキャスティング(現在の値を決定するモデリング)機能の使用に関する時系列特徴量の使用について説明します。次に、最初に時系列モデリングの簡単な概要を説明し、その後に詳細なワークフローについて説明します。

従来の教師あり学習との比較、時系列データの一般的なパターン、およびDataRobotでのモデリングデータセットの作成方法のセクションを参照してください。

時系列モデルを開発するための一般的なフレームワークの詳細な技術的説明(特徴量の生成、データの前処理、高度な機械学習アルゴリズムをほとんどすべての時系列問題に適応するプロセスの自動化など)については、こちらの記事を参照してください。

時系列の概要

時系列データを使用する場合、次のことを確認してください: いつまでの過去を検討し、いつまでの将来を予測したいのか。この2点を決定した後、時間に左右されるデータでDataRobotの高度なモデリング技法をどのように使用して、データから予測を作成するかを設定できます。

DataRobotはモデリングデータ内の時系列特徴量を自動的に作成および選択します。開始画面で時系列フレームワークを設定することで、特徴量の制約(最小および最大のラグなど)ができます。設定と生データセットの分析に基づいて、DataRobotは新しい特徴量を派生させ、モデリングデータセットを作成します。時間シフト、ラグ、および特徴量が既に適用されているので、DataRobotでは一般的な機械学習アルゴリズムを使用して、新しいモデリングデータセットでモデルを構築できます。

一般的な時系列モデルの構築プロセスを以下に示します。

  1. 元のデータをアップロードします。DataRobotによってEDA1が実行されます。
  2. ウィンドウパラメーター(特徴量の派生ウィンドウや予測ウィンドウなど)を設定します。
  3. そのフレームワークがDataRobotによってデータセットに適用され、時系列特徴量で新しいモデリングデータセットが作成されます。

時間ステップ

しかし、最初に、データが予測またはナウキャスティングを行うための正しい型のものであることを確認する必要があります。DataRobotでは、時間ステップ(行間の時間差)に基づいてデータが次の3つのいずれかに分類されます。

時間ステップ 説明
定期的 均等な間隔で発生するイベント 月曜日から日曜日
半定期的 ほぼ均等な間隔で発生するイベント 週末を除く各営業日。
不定期的 一貫しない時間ステップ ランダムな誕生日

定期的または半定期的な時間ステップを前提として、DataRobotの時系列機能は、時間に左右されるコンポーネントを特徴量としてエンコーディングし、従来の機械学習技法で使用できるモデリングデータセットに元の入力データセットを変換します。(時間ステップは、以下に示す時間間隔とは異なることに気をつけてください。)データの元の各行に対して、モデリングデータセットは以下の両方を含めます。

  • 将来における距離差の予測の例を表す新しい行
  • (各入力特徴量に対して)新しい距離を予測するためのラグ特徴量とローリング統計量の新しい列

プロジェクトタイプ

DataRobotの時系列モデリングでは、連続値プロジェクトと二値分類の両方がサポートされます。それぞれのタイプでは、プロジェクトタイプに固有のモデルを多数取り揃えており、オートパイロットまたはリポジトリで選択することができます。一般的に、両方のタイプのワークフローとオプションは同じですが、二値分類プロジェクトには次のような違いがあります。

  • 指数トレンドとして扱いますか?差分を適用しますか?高度なオプションは無効化されます(エクスポージャー設定と同様)。
  • シンプルな差異および季節的な差異は適用されません。
  • 分類指標だけがサポートされます。
  • 差分は実行されないので、差分ターゲットを使用する特徴量セットは作成されません。デフォルトでは、オートパイロットはBaseline only (average baseline)およびTime Series Informative Features上で実行します。「平均値ベースライン」とは特徴量派生ウィンドウ内のターゲットの平均値を意味します。
  • 分類ブループリントでは、モデリングのオフセットとしてナイーブ予測が使用されません。

詳細なワークフロー

時系列モデリングは、以下のフレームワークに基づきます。フレームワークの要素の説明については以下を参照してください。そのフレームワークを理解するにはナウキャスティングのセクションを参照してください。

時系列モデリングを有効にする詳細な手順を以下に示します。

  1. 時系列可能なデータセットをアップロードした後、ターゲットを選択し、時間認識モデルを設定をクリックします:

  2. ドロップダウンからプライマリー日付/時刻特徴量を選択します。ドロップダウンには、EDA1で検出されたすべての日付/時刻特徴量がリストされます。

  3. 特徴量を選択すると(備考:時間単位はDataRobotによって検出されます)、ターゲット特徴量(時間の経過に伴う特徴量)に対してプロットされた時刻特徴量のヒストグラムが計算されて読み込まれます。データセットが複数系列のモデリング条件を満たす場合、このヒストグラムは、ターゲット特徴量に対してプロットされたすべての系列にわたる時間特徴量値の平均を表します。ヒストグラムをレビューする:

    この例では、週ごとの販売量を時間の経過でプロットします。この2年間のデータでは、季節的なピークとビジネスの全体的な成長が確認できます。

  4. 適用したい時系列アプローチとして予測またはナウキャスティングを選択します:

  5. データセットで複数の系列が検出された場合:

    • 複数系列のモデリングを有効にするには、系列識別子を設定します。
    • DataRobotで系列が検出されなくても、データセットが条件を満たす場合は、高度なオプションを使用して系列識別子を設定します。
    • セグメントモデリングを有効にするには、系列識別子を選択した後、セグメンテーション方法の値をなしからセグメントIDに変更します。

    その後、次のステップに戻り、時系列設定を完了します。

  6. 時系列モデリングを設定します。DataRobotで特徴量の派生およびウィンドウの基準を設定し、ウィンドウの基準を設定します。

    備考

    ナウキャスティングを使用する場合、これらのウィンドウ設定は異なります。

  7. トレーニングウィンドウの形式を期間または行数に設定して、モデルを構築するときにオートパイロットでトレーニング期間を選択する方法を指定します。値の設定をする前に、行数とそれに対する期間、及びそれらがデータ群にどのように適用されるのかの詳細を参照してください。不規則なデータセットの場合、行数がデフォルト設定です。この設定は変更できますが、期間を変更すると予期されないトレーニングウィンドウまたはモデルエラーが生成されることがあるので、そのままにしておくことが推奨されます。

  8. 「事前に既知」(KA: Known in Advance)の特徴量を設定するか、高度なオプションでイベントカレンダーをアップロードするかどうかを検討してください。このページでは、KA特徴量として扱う特徴量を定義することで、予測を作成するときにラグなしで使用するように設定できます。また、DataRoobotが時系列特徴量を自動的に派生するときに用いられる、イベントのリストが入ったカレンダーを指定することもできます(予測を行うときはその特徴量をラグなしと設定します)。

  9. 次に、特徴量が時間の経過と共にどのようになるかを参照してトレンドを確認し、データにギャップがあるかどうかを判断します(これが知っておく必要のあるデータの不備です)。このヒストグラムにアクセスするには、数値特徴量を展開して時間経過オプションをクリックします。

    この例では、週単位の強いパターンと季節的なパターンが見られます。また、期間を変更して、別の間隔でデータがどのように集約されるかを確認することもできます。ビンに入れられたデータ(プロットの下部の青いバー)は、ビンごとの行数を表します。データ密度を視覚化すると、潜在的な欠損値に関する情報を得ることができます。

  10. 必要に応じて、高度なオプション > 時系列を設定します。

  11. 開始 をクリックします。設定したフレームワークで新しい特徴量を使用して、時系列モデリングデータセットが作成されます。

  12. データページを表示して、作成された新しい特徴量を表示します。デフォルトでは、派生したモデリングデータパネルが表示されます。元のデータを表示するには、元の時系列データをクリックします。

    • 派生ログへのアクセスなど、より具体的な特徴量生成の詳細については、詳細情報を表示をクリックしてください。

    • 特徴量の系統チャートを表示して、特徴量を作成したプロセスを確認します。

  13. データセットを確認した後、特徴量削減プロセスによって削除された特徴量を復元するかどうかを検討します。

リーダーボードで考慮すること

モデリングが開始されると、完了したモデルが順次リーダーボードに表示されます。時系列モデリングでは日付/時刻のパーティショニングが使用されるので、バックテストの実行、ウィンドウサンプリングの変更、トレーニング期間の変更などをリーダーボードから行うことができます(詳細についてはこちらを参照)。

時系列モデルに関するメモ:

  • DataRobotでは、標準のアルゴリズムと特殊な時系列ブループリントの両方が構築され、時系列に特有なモデルが実行されます。通常の場合と同様に、DataRobotで実行されなかった時系列モデルをリポジトリから実行できます。

  • DataRobotでは、従来の時系列モデル(ARIMAモデルなど)と高度な時系列モデル(XGBoostなど)の両方が生成されます。

  • 「with Forecast Distance Modeling」という接尾辞のあるモデルでは、未来の予測点までの距離(期間)に対して別々のモデルが構築されます。各モデルには、その予測を行うための一意のブループリントが含まれます。

  • 「最も最近の値を使用したベースライン予測」(ナイーブ予測)では、最も最近の値または季節的な差分が予測として使用されます。このモデルは、パフォーマンスの判断の基準として使用できます。

「予測を作成」タブ

時系列モデルを使用して予測を行う方法は次の2通りあります。

  1. リーダーボードから予測を作成タブを使用する(1GB未満の予測データセットの場合)。その方法を以下に示します。

  2. 1GBから5GBの予測データセットの場合は、モデルをデプロイして、バッチ予測機能デプロイ > 予測)を使用することを検討してください。

備考

時系列予測で予測範囲を使用すると、元のデータセットサイズよりもサイズが大幅に増加することがあります。バッチ予測機能を使用することで、メモリー不足エラーを回避できます。

リーダーボードの予測を作成タブの動作は、従来のモデリングとは若干異なります。以下のセクションでは、時系列での 予測を作成 の使用について簡単に説明します。詳細については、予測を作成タブの詳細を参照してください。

備考

バッチ予測を作成するとき、ARIMAモデルのブループリントにはすべての過去データを渡す必要があります。

予測を作成タブは、予測データセットで必要な最近のデータの量(特徴量派生および予測ポイントウィンドウの設定方法に応じて時間単位または行)を特定し、予測行とKA設定をレビューするために役立つサマリーを提供します。KAとして表示される特徴量のセットには、現在のモデルを構築するために使用された特徴量セットの一部である、KA特徴量だけが含まれます。予測設定 タブには、設定の変更や自動生成された予測ファイルテンプレートへのアクセスに役立つ予測データセットの概要が表示されます。

この例では、予測データセットには、少なくとも28日分の履歴データが必要で、最大7行の予測が可能です。(モデルは予測ポイントの21日前に設定されていましたが、モデルでは7日間の差分が使用されるので、必要な履歴に7日間が追加されます。)

以下に、時系列モデリングで予測を行うための概要を示します。

  1. 予測するモデルを選択した後、ホールドアウトのロックを解除し、モデルを再トレーニングするよう求めるメッセージが表示されます(この操作をまだ行っていない場合)。モデルで最近のデータが使用されるよう、この手順を完了することを推奨しますが、必須ではありません。

  2. 予測データセットを準備し、アップロードする。予測に必要な予測行を含む予測可能なデータセットをアップロードするか、DataRobotで予測ファイルテンプレートを作成します。

  3. 必要に応じて、予測ポイント(予測を開始する日付)をDataRobotのデフォルトから変更します。

  4. 予測を計算します

予測可能なデータセットの作成

予測データセットを手動で作成する場合は、提供されているサマリーを使用して、必要な過去の行数を指定します。必要に応じて、予測設定を開いて予測ポイントを変更し、新しい予測ポイントの過去データ分の要件が予測データセットで満たされていることを確認してください。必要に応じてをクリックします。CSVファイルの必要な形式について視覚表現については、データセットの例を参照してください。

以下の例では、7~9行目の(「予測行」)のターゲット値と非KA値を空白のままにします。これらの行には、予測計算時にDataRobotによって予測値が入力されます。

予測データセットが適切な形式であれば、 データのインポート元 をクリックして、データセットをDataRobotにアップロードします。次に、予測を計算します。

備考

予測ウィンドウ内の予測データの事前に既知(KA)特徴量に欠損値があると、予測精度に影響することがあります。その場合、影響を受けるデータセットの下に注意および情報メッセージが表示されます。また、デフォルトより後の予測ポイントを選択するときに過去データが欠損している場合でも、DataRobotを使用して予測を計算できます。

予測ファイルテンプレート

予測ポイントの設定で、追加の予測行を元の予測データセットに追加する必要がある場合、DataRobotは必要な行を追加するテンプレートファイルを自動的に生成します。自動生成された予測テンプレートをそのまま使用するか、ダウンロードして、予測を作成します。テンプレートを作成するには、データのインポート元 をクリックして選択し、目的のデータセットをアップロードします。DataRobotは、デフォルトの予測ポイントの後にターゲット値を含まない(空の予測行がない)行が見つからないために予測行になる可能性がある場合、テンプレートを生成します。

たとえば、予測ウィンドウが+5 ... +6で、デフォルトの予測ポイントがt0であるとします。ポイントt5t6は欠損していますが、t1tは存在しています。この場合、デフォルトの予測ポイントの後にt5またはt6を満たす予測行が見つからなかったため、DataRobotは拡張ファイルを生成します。

DataRobotがテンプレートを生成するには、次の条件を満たす必要があります。

  • サポートする予測行がない(予測ウィンドウ内にある空のターゲット行)。
  • 生成されたテンプレートファイルのサイズが、アップロードファイルの制限に満たない。

テンプレートをそのまま使用

予測行を変更したり、KA特徴量を追加したりする必要がない場合は、テンプレートをそのまま使用してください。DataRobotは予測ポイントを設定し、プロジェクトの予測ウィンドウ設定を満たすために必要な行数を追加します。

最新のデータを予測ポイントとして使用しており、ギャップがなく、すべての行が必要な場合は、デフォルトの自動拡張を使用します。この場合、データセットをアップロードして、予測の計算を行います。

テンプレートの変更

DataRobotは、予測データセットをアップロードするとすぐに予測ファイルテンプレートを生成します。ただし、予測の計算を行う前にテンプレートを変更する必要がある場合があります。

  • 列をKA特徴量として特定し、予測行に関連情報を入力する必要があります。

  • 複数の系列があり、データセット内のすべての系列よりも少ない系列で予測したい場合。(DataRobotは、データセットの各系列に必要な行数を追加します。)

  • 設定に基づいて、DataRobotは追加の行をいくつか生成しますが、より少ない数で予測する必要があります。

テンプレートを変更するには:

  1. 予測設定(予測ポイント予測タブ)をクリックし、高度なオプションリンクを展開して、自動生成された予測ファイルテンプレートをダウンロードします。

  2. テンプレートを開き、必要な情報を新しい予測行に追加するか、予測を遅らせるだけの場合は不要な行を削除します。

  3. 変更したテンプレートを保存し、データのインポートを使用してDataRobotにアップロードします。

  4. オプションで、予測ポイントをデフォルト以外の値に設定します。

  5. 予測を計算します

予測の設定

予測設定モーダルは、2種類の予測を行うための設定オプションを提供します。

  • 予測ポイント予測を使用して、予測を開始したい特定の日付(予測ポイント)を選択します。デフォルトでは、予測ポイントは、特徴量派生ウィンドウ内の時間履歴の使用を最大化する最新の有効なタイムスタンプです。DataRobotはすべての潜在的な予測ポイントを使用してモデルを学習するため、表示されている任意の日付を選択できます。別の予測ポイントを選択する場合は、データセットに十分な過去のデータがあることを確認してください。

  • 予測範囲の予測を使用して、選択した日付範囲内のすべての予測距離を予測します。このオプションを使用すると、外部データセットで一括予測が生成されます(データセット内のすべての行の予測距離の予測が含まれます)。将来の予測を作成するのではなく、モデル検定の結果を使用します。

予測ポイント予測

予測設定 > 予測ポイント予測 モーダルを使用すると、DataRobotによって設定されたデフォルトのポイントとは異なる予測ポイントを設定するのに役立ちます。

モーダルの要素については、次の表で説明します。

要素 説明
予測タイプセレクター(1) 予測ポイント(このページ)または予測範囲(一括予測)を選択します。
高度なオプション(2) 展開して予測ファイルテンプレートをダウンロードします(作成されている場合)。
行サマリー(3) 予測を作成タブと同じサマリー情報。色は次の(6)の視覚化に対応し、元のプロジェクト作成中に設定された過去の行と予測行を表示します。
有効な予測ポイント範囲(4) データセット全体の日付範囲(5)のコンテキストでは、すべての範囲の上の色付きバーは、有効な予測ポイント設定である日付の範囲(有効な予測を生成する日付)を示します。バー全体が有効と思われるオプションを示していますが、黄色の範囲内の日付は、履歴やKA特徴量が欠損しているため、DataRobotの推奨予測ポイントを超えています。また、この範囲内にギャップがある場合でも、予測が失敗する可能性があります(過去の行が不十分であるか、予測行がないため)。日付の詳細についてを参照してください。
データセットの開始と終了(5) データセットで見つかったすべての日付範囲。DataRobotが予測ファイルテンプレートを作成した場合、データセットの終了日とテンプレートファイルの終了日の両方が表示されます。データセットの終了と最大予測距離が同じ場合、ディスプレイにはデータセットの終了が表示されません。上記(3)で要約した過去行と予測行も期間に上書きされます。予測ポイントの設定を変更すると、この上書きが移動します。日付の詳細についてを参照してください。
過去および予測ズーム(6) 予測ポイントの選択を簡素化するための、関連する過去行と予測行のズームビュー(7)。
予測ポイントセレクター(7) 予測ポイント設定用のカレンダーピッカー。カレンダーでは、無効な日付(有効な予測範囲(4)に示されていない日付)は無効になっています。日付の詳細についてを参照してください。
モーダルオプションを閉じる(8) 予測計算を開始します(予測を作成ページの予測計算と同様)。または、設定を保存し、予測を計算せずにモーダルを閉じます。新しい設定は予測を作成ページに反映され、そこから予測計算をクリックすると、いつでもこれらの設定が使用できます。または、Xをクリックして保存せずに閉じます。

予測ポイント

デフォルトの予測ポイント(1)は、有効なターゲット値を含むデータセット内の最新の行か、プロジェクト設定中にギャップを設定した場合、特徴量派生ウィンドウの履歴要件を満たすデータセット内の行です。予測設定(2)を開いて、予測ポイントをカスタマイズします。

備考

小数点以下の秒の予測には、デフォルトの予測ポイントを使用する必要があります。

予測範囲の予測

予測範囲の予測は、モデルの精度を検証するのに役立ちます。DataRobotは、データセットからすべてのポイントの実測値を抽出します。予測の開始日と終了日を設定して、一括予測を行う期間の過去の範囲を定義します。このモデル評価プロセスでは実測値が使用されるため、DataRobotはすべての予測距離の予測をサポートできるタイムスタンプの予測のみを生成します。

予測設定の日付を理解する

予測データセットをアップロードすると、DataRobotは予測ポイントとして使用できる日付の範囲(有効な予測範囲)を検出します。また、デフォルトの予測ポイントも決定します。これは完全な履歴を使用して予測を行うために使用できる最新のタイムスタンプです。

視覚化では、次のタイムスタンプがマークされます。

  • データ開始はデータセットで検出された最初の行のタイムスタンプです。
  • データ終了は元のテンプレートか自動生成されたテンプレートに関係なく、データセットで検出された最後の行のタイムスタンプです。
  • 最大予測距離は、データセット内の可能な最後の予測距離のタイムスタンプです。

予測ポイントを変更する前に、基本的な時系列モデリングフレームワークを確認してください。

いくつかの考慮すべき事項があります。

  • 最新の有効な予測ポイントとは最新の有効な予測ポイントは、エラーなしで予測を実行するために使用できる最大予測ポイントです。デフォルトの予測ポイントでは、時間履歴の使用が考慮されるため、デフォルトの予測ポイントとは異なる場合があります。

  • 予測ウィンドウに基づいて、出力された最後の予測のタイムスタンプとは何でしょうか?予測ウィンドウは、予測ポイントに対して定義されます。最後の予測タイムスタンプは、予測ウィンドウと予測データセット内のタイムスタンプの両方の関数です。

    たとえば、1〜7日間の予測ウィンドウを考えてみましょう。予測ポイントは2001-01-01ですが、データセットの最大日付は2001-01-05です。この場合、2001-01-06~2001-01-08の行がないため、最大予測タイムスタンプは2001-01-05になります。

  • 予測ウィンドウの長さを考えてみましょう。つまり、実測値を持つ最後の行の後に、少なくとも1つの予測行(予測ウィンドウの境界内に)がありますか?ある場合、DataRobotはテンプレートを生成しません。ない場合は、DataRobotはプロジェクト設定に基づいて予測行を生成します。

予測設定モーダルを使用して、予測データセットの概要を取得します。予測ポイントや予測の開始日と終了日のような設定を選択するのに役立ちます。 さらに、DataRobotは最終行の後に実測値を含む予測行を生成し(デフォルトの予測ポイントに基づく予測行がない場合)、予測ワークフローを簡素化します。実測値は、各系列IDの最後の行から取得され、予測行に複製されたデータです。

時系列予測データセット検定

DataRobotは、アップロード時に時系列予測データセットを検定し、プロジェクトに必要な処理済み特徴量の作成に履歴行があるかどうか確認します。

季節性がプロジェクトで検出された場合、派生ウィンドウ(FDW)よりも長い追加履歴行が必要です。たとえば、[-14、0]および7日間の季節性のFDWがあるプロジェクトには、ターゲットが異なる特徴量(target (7 day diff) (mean)など)と差分特徴量(target (14 day max) (diff 7 day mean)など)を収容するために予測データセット内に21履歴日が必要です。複数の季節性が検出された場合、最長の季節性が検定を実行するために使用されます。

DataRobotは、ウィンドウ統計特徴量(target (7 day mean)feature (14 day max)など)を計算する場合、すべての履歴行の存在を必要にしません。FDW設定に基づき、DataRobotは予測に必要な最小履歴行数を事前に決定します。予測データセットに欠損した履歴行が多すぎる場合、予測はエラーとなります。

倍数的トレンドが検出された場合、予測データセット内のすべてのターゲット値を真に正( > 0)である必要があります。ゼロまたは負のターゲット値は、データセットが倍数的であるというモデルの前提に違反しており、予測はエラーを生成します。その場合は、トレーニングデータセットが予測時間中にユースケースを代表しているかを確認するか、高度なオプション指数トレンドとして扱うを無効にしてプロジェクトを再生します。

予測の計算とアクセス

予測ポイントを設定し、データセットを正しい形式で正常にアップロードしたら、予測を計算します。

  1. 2つの予測計算方法があります。次のいずれかをクリックします。

    • 予測設定モーダルにある予測計算ボタン。
    • 予測を作成 ページにある 予測計算 リンク( 予測設定 リンクの横)。
  2. 処理が完了すると、データセットから過去のデータおよび予測をプレビューするか、予測のCSVをダウンロードします。ダウンロードするには、ダウンロードをクリックして予測にアクセスします。

備考

予測の出力結果に関するメモ:
•ユーザーの権限に応じて、「元の形式のタイムスタンプ」列が表示されることがあります。この列の値は「タイムスタンプ」列の値と同じですが、元の予測データセットのタイムスタンプ形式が使用されます。この権限を有効にするには、管理者に依頼してください。
• ダウンロードされた予測を操作するときは、時系列プロジェクトでは、row_idは元のプロジェクトデータ(トレーニング予測用)または特定のタイムスタンプやseries_idのアップロードされた予測データからの行の位置を表すものではありません。これはプロジェクトに固有の派生値です。

スプレッドシートのソフトウェアによっては、予測の出力結果のグラフを作成することができます。たとえば、サンプルデータで翌日から7日間の販売予測が示されている場合、在庫と人員配置に役立てることができます。

予測プレビュー

予測を計算した後、プレビューリンクをクリックすると、履歴データのコンテキスト内での時系列の予測のプロットが表示されます。このプロットは、単一の予測ポイントに相対的な各予測距離の予測を一度に示します。

デフォルトでは、予測間隔(青の網掛け)は予測の80%が含まれる領域を表します。この間隔は、ターゲットの実測値が含まれると予期される値の範囲です。これらの範囲は予測の信頼度間隔に似ていますが、モデルのバックテスト中に測定された残差誤差に基づきます。

以下の条件を満たすチャートには、推定予測間隔が表示されます。

  • すべてのバックテストをトレーニングする必要があります。使用可能なすべての検定行を使用することができるようになり、使用可能な情報に基づいて異なる間隔値を防止できます。

  • 予測距離値ごとに少なくとも10のデータポイントが必要です。

上記の条件が満たされない場合、予測値(オレンジのポイント)だけが表示されます。

予測間隔サイズを指定して、間隔範囲に含まれる実測値の確率を指定することが可能です。値が大きいほど精度は低くなりますが、より保守的になります。たとえば、80%のデフォルト値では、下位の境界が10%になり、上位の境界が90%になります。予測間隔を変更するには、オプションリンクをクリックして表示を再計算します。

備考

予測を作成するときに予測間隔を設定することもできます。

予測間隔はアウトオブサンプルの残差の分位に基づいて計算されるので、対称ではないことがあります。DataRobotでは系列ごと(該当する場合)および予測距離ごとに個別に計算が行われるので、間隔が距離とともに広がり、各系列に固有の範囲が設定されることがあります。新しい系列で予測を行う場合、または検定とのオーバーラップのない系列で予測を行う場合、すべての系列にまたがる平均が使用されます。

プレビューグラフ上のポイント(予測ポイントの左)にカーソルを置くと、過去のデータの値が表示されます。

予測ポイントの右にカーソルを置くと、予測が表示されます。

複数系列のモデリングで使用した場合、プレビューする系列を選択するオプションが表示されます。この概要は、個々の系列のターゲット、特徴量、または精度が時系列でどのように変化するかを示し、その系列の予測を提供します。ドロップダウンから系列を選択します。または、左向きの矢印ボタンまたは右向きの矢印ボタンを使用して系列のオプションを表示します。各系列の予測間隔を比較することによって、最も精度の高い予測を提供する系列を識別できます。

プレビュープロット内から予測をダウンロードすることもできます。

さらに詳しい情報...

以下のセクションでは、時間認識モデリングに関連する追加の背景情報を提供します。

リファレンス:

ウィンドウ値の設定

特徴量の派生ウィンドウ(FDW)および予測ウィンドウ(FW)を使用して、モデリングデータセットの特徴量を派生させる方法を設定します。

左側のFDW(1)には時間履歴が含まれます。ここでは、予測を作成するために必要なデータの量を決定する値の数(xよりも後、yよりも前)を決定します。上記の例では、最も最近の28日分のデータが使用されます。

右側のFW(2)はモデルが出力する特徴量範囲を設定します。この例では、予測ポイントの1~7日までの予測を作成するように設定しています。表示される時間単位(この場合は日)は、時間/時刻の特徴量を選択したときに検出された単位に基づきます。

検出された時間単位または行数でウィンドウ(同じになるよう同期されます)を指定できます。DataRobotでは、その選択(Price (7 days average)またはPrice (7 rows average))を使用して移動統計量が計算されます。行ベースのウィンドウで設定した場合、共通のイベントパターンや季節性は検出されません。しかし、DataRobotでは、不規則な日付/時刻特徴量を含むデータセットは、特殊な方法で処理できます。データセットが不規則な場合、ウィンドウ設定はデフォルトで行ベースになります。

これらの値は変更できます(変更を行うと表示も更新されます)。たとえば、データにリアルタイムでアクセスできない場合や、新しすぎるデータにモデルを依存させるべきでない場合があります。その場合、FDWを変更します。行動を起こすための時間が足りないという理由で明日の予測が必要ない場合は、予測を開始する時点にFWを変更します。その後、DataRobotでのモデルの最適化方法が変更され、設定された範囲に対する精度を比較する目的でモデルがリーダーボードで格付け(ランキング)されます。

現在予測の時系列モデルを作成

将来の値ではなく、現在の値を予測する時系列モデルを作成することもできます。たとえば、異常検知プロジェクトでは、自分が今見ている観測値が異常かどうかを知りたい場合があります。また、時系列値を使用して、現在のパラメーター(特徴量)とその最近の値に基づいてターゲットの現在の値を理解したい場合もあります。このタイプのプロジェクトでは、DataRobotのナウキャスティング機能を使用します。

期間と行数

データの間隔が均等である場合、期間行数は同じです。しかし、時間軸で認識されない不均等なギャップがあるデータを含む日付/時刻データセットの場合、データの間隔は均等ではありません。この場合、DataRobotでの期間行数の処理に影響することがあります。データにギャップがある場合:

  • 行数は、バックテストごとの行数は偶数です(いくつかの行の時間間隔は長くなる可能性があります)。特定の状況において、行数が同じ場合でも、行数モデルは期間モデルよりも多くのRAMを使用します。
  • 期間は、バックテストごとに同じ長さの時間です(行数は異なる可能性があります)。

さらに、これらの値の意味は、トレーニングに適用するのか検定に適用するのかに応じて異なります。

不規則なデータセットの場合、トレーニングウィンドウ形式のデフォルト設定は行数です。この設定は期間に変更できますが、予期されないトレーニングウィンドウまたはモデルエラーが生成されることがあるので、そのままにしておくことが推奨されます。

トレーニング分割の処理

トレーニングデータの期間行数は、時系列モデリング設定のトレーニングウィンドウの形式セクションで設定します。

期間を選択した場合、トレーニングデータのデュレーションに基づいて、モデルのトレーニングのデフォルトの分割サイズ(特定の期間)が選択されます。例えば、DataRobotに「3 ヶ月間のデータを常に使用」するように設定できます。行数を選択した場合は、モデルでは特定の行数(常に1000行など)がモデルのトレーニングに使用されます。トレーニングデータの行数は、ここで指定した行数になります。

例えば、詐欺と通常のトランザクションを含み、トランザクションの頻度が時間の経過と共に増加する(期間あたりのトランザクション数が増加する)データセットを考えてみます。トレーニングデータのバックテストを介してトレーニングサンプルの数を一致させる場合は行数を設定します。最初のバックテストは短い期間でのみトレーニングされます。行数に関係なくすべてのバックテストの期間を一定にするには、期間を選択します。いずれの場合でも、モデルはホールドアウトデータの開始日よりも新しいデータでトレーニングされません。

検定分割の処理

検定は、常に期間の単位で行われます(トレーニングが行単位で指定されている場合でも)。行数を選択した場合、DataRobotでは、行数に基づいて検定の長さが設定されます。

時系列間隔単位

このドキュメントの多くの例では「日」の時間単位が示されていますが、DataRobotでは、時系列および複数系列モデリングでいくつかの間隔がサポートされています。現在、DataRobotは、以下の単位の整数の倍数の時間ステップをサポートしています。

  • ミリ秒
  • 時間
  • 四半期

例えば、行の間の時間ステップは15分毎(分の倍数)に設定できますが、13.23などの小数に設定することはできません。DataRobotでは時間単位と時間ステップが自動的に検出されます。検出されない場合は、データセットは不規則として拒否されます。パーティション分割が正しく機能するには、時間単位としてミリ秒を使用するデータセットでは、秒レベルとしてトレーニングおよびパーティション分割の境界を指定する必要があり、データセットが複数秒間にわたる必要があります。さらに、1秒未満の予測ポイントを使用するために、デフォルトの予測ポイントを使用する必要があります。

時系列データの一般的なパターン

時系列モデルは、時系列データの共通パターンを考慮して構築されます。

  1. 直線性:トレンドの特定のタイプ。「機械学習」という用語を検索すると、時間経過に伴う増加が確認できます。検索用語によって作成された線形性トレンドを示します(非線形トレンドとして見ることもできます)。このトレンドは、興味が変動しつつも、時間の経過に伴って興味が増大していることを示します。

  2. 季節性:「感謝祭」という用語を検索すると、周期性が確認できます。言い換えると、興味の変動はカレンダーのイベントに密接に関係しています(たとえば、毎年7月に上昇しはじめ、11月後半に下降します)。

  3. サイクル:サイクルは季節性に似ていますが、間隔は必ずしも一定ではなく、サイクルを確認するには少なくとも4年分のデータが必要です。通常、サイクルはグローバルなマクロ経済イベントや政治情勢の変化に関連し、一連の拡大と収縮としてとらえることができます。

  4. 組み合わせ:データには複数のパターンが組み合わさることもあります。たとえば、「ジム」という用語を検索したとします。この検索件数は毎年1月に増加し、ホリデーシーズンに減少します。しかし、興味は時間の経過に伴って増えています。この例のトレンドでは、季節性と線形性の両方を確認できます。


更新しました February 22, 2022
Back to top