Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時系列モデリング

本機能の提供について

自動時系列モデリング(AutoTS)を有効にする情報については、DataRobotの担当者にお問い合わせください。

Time series modeling forecasts multiple future values of the target. With out-of-time validation (OTV), by contrast, you are not forecasting but instead modeling time-relevant data and predicting the target value on each individual row. 時系列モデリングは、以下のフレームワークに基づきます。フレームワークの要素の説明についてはリファレンスセクションを参照してください。 そのフレームワークを理解するにはナウキャスティングのセクションを参照してください。

Requirements and availability

Be sure to review the time step, data requirements, interval units, and acceptable project types for time series modeling, which are described in detail below.

OTVおよび時系列モデリングに関するこれらの追加の日付/時刻分割に関する考慮事項を参照してください。

Basic workflow

The following describes the steps to build time series models. Each step links to detailed explanations and descriptions of the options, where applicable. See the time series overview and description for detailed descriptions of how DataRobot implements time series modeling.

  1. Load your dataset and select the target feature. データセットに日付特徴量が含まれる場合、時間認識モデルを設定リンクがアクティブになります。 開始するには、リンクをクリックしてください。

  2. ドロップダウンからプライマリー日付/時刻特徴量を選択します。 ドロップダウンには、EDA1で検出されたすべての日付/時刻特徴量がリストされます。

  3. 特徴量を選択すると、ターゲット特徴量に対してプロットされた時間特徴量のヒストグラム(時系列の特徴量)が計算されて読み込まれます。 データセットが複数系列のモデリング条件を満たす場合、このヒストグラムは、ターゲット特徴量に対してプロットされたすべての系列にわたる時間特徴量値の平均を表します。

  4. 適用する時間認識アプローチを選択します。

    • ターゲットの複数の将来値を予測する場合に自動時系列予測を使用します(翌週の各日の売り上げの予測など)。 このアプローチは、連続する一連の値の将来値を推定する場合に使用します。
    • モデリングを使用して現在の値を決定する場合、自動時系列ナウキャスティングを使用します。

    または、データが時間に関連するものであっても、予測は行わずに、個々の各行のターゲット値を予測する場合、Automated Machine Learning(OTV)を使用します。 このアプローチは、単一のイベントデータ(患者の入院や不良債務など)がある場合に使用します。

  5. 時系列を選択したときに系列データがDataRobotで検出された場合、複数系列モデリングの系列IDを設定します。

    • DataRobotで系列が検出されなくてもデータセットが条件を満たす場合は、高度なオプションを使用して系列識別子を設定します。
    • セグメントモデリングを有効にするには、系列識別子を選択した後、セグメンテーション方法の値をなしからセグメントIDに変更します。

  6. If you were prompted that your time step was irregular, consider employing the data prep tool.

  7. Customize the window settings (Feature Derivation Window (FDW) and Forecast Window (FW)) to configure how DataRobot derives features for the modeling dataset. Before modifying these values, see the detailed guidance for the meaning and implication of each window.

    備考

    ナウキャスティングを使用する場合、これらのウィンドウ設定は異なります。

  8. トレーニングウィンドウの形式(期間または行数)を設定して、モデルを構築するときにオートパイロットでトレーニング期間を指定する方法を指定します。 値の設定をする前に、行数とそれに対する期間、及びそれらがデータ群にどのように適用されるのかの詳細を参照してください。 不規則なデータセットの場合、行数がデフォルト設定です。 Use the data prep tool before changing this setting.

  9. 「事前に既知」(KA: Known in Advance)の特徴量を設定するか、高度なオプションでイベントカレンダーをアップロードするかどうかを検討してください。

  10. Features treated as KA variables are used unlagged when making predictions.

  11. Calendars list events for DataRobot to use when automatically deriving time series features (setting features as unlagged when making predictions).

  12. 次に、特徴量が時間の経過と共にどのようになるかを参照してトレンドを確認し、データにギャップがあるかどうかを判断します(これが知っておく必要のあるデータの不備です)。 To access these histograms, expand a numeric feature and click the expand a numeric feature, click the Over Time tab, and click Compute Feature Over Time:

    この例では、週単位の強いパターンと季節的なパターンが見られます。 また、期間を変更して、別の間隔でデータがどのように集約されるかを確認することもできます。 Click Show time bins to see the number of rows per bin (blue bars at the bottom of the plot). データ密度を視覚化すると、潜在的な欠損値に関する情報を得ることができます。

    Read further options for interacting with the Over Time chart.

  13. モデリングに使用する設定(日付/時刻形式、トレーニングウィンドウ、検定の長さなど)を変更するには、下にスクロールして高度なオプションを表示を展開します。 詳細については、完全なドキュメントを参照してください。

  14. 設定したら、モデリングモードを選択し開始を押します。

  15. When the modeling process begins, DataRobot analyzes the target and creates time-based features to use for modeling. データページを表示して、作成された新しい特徴量を表示します。 デフォルトでは、派生したモデリングデータパネルが表示されます。元のデータを表示するには、元の時系列データをクリックします。

    • 派生ログへのアクセスなど、より具体的な特徴量生成の詳細については、詳細情報を表示をクリックしてください。

    • 特徴量の系統チャートを表示して、特徴量を作成したプロセスを確認します。

  16. データセットを確認した後、特徴量削減プロセスによって削除された特徴量を復元するかどうかを検討します。

  17. モデリングに使用する時系列特徴量セットを操作します。

次のステップ

The following sections describe how to continue with time series modeling:

セクション 内容...
Time series Leaderboard models Working with Leaderboard models, including changing training and sampling criteria.
予測を作成します Making predictions and preparing for deployment.
Customize project settings Modifying default partitioning and window settings for use-case specific implementations.

And further reading:

セクション 内容...
時系列フレームワーク The framework DataRobot uses to build time series models, including common patterns in time series data.
派生したモデリングデータセット DataRobot's feature derivation process, which freates a new modeling dataset for time series projects.
特徴量セット Specialized for time series modeling.
Automated Feature Engineering for Time Series Data A more technical discussion of the general framework for developing time series models, including generating features and preprocessing the data as well as automating the process to apply advanced machine learning algorithms to almost any time series problem.

一歩進んだ操作:要件

The following sections describe project requirements in more detail.

時間ステップ

The first step in time series modeling is to be certain that your data is the correct type to employ forecasting or nowcasting. DataRobotでは、時間ステップ(行間の時間差)に基づいてデータが次の3つのいずれかに分類されます。

時間ステップ 説明
定期的 均等な間隔で発生するイベント 月曜日から日曜日
半定期的 ほぼ均等な間隔で発生するイベント 週末を除く各営業日。
不定期的 一貫しない時間ステップ ランダムな誕生日

定期的または半定期的な時間ステップを前提として、DataRobotの時系列機能は、時間に左右されるコンポーネントを特徴量としてエンコードし、従来の機械学習技法で使用できるモデリングデータセットに元の入力データセットを変換します。 (時間ステップは、以下に示す時間間隔とは異なることに注意してください。) データの元の各行に対して、モデリングデータセットは以下の両方を含めます。

  • 将来における距離差の予測の例を表す新しい行
  • (各入力特徴量に対して)新しい距離を予測するためのラグ特徴量とローリング統計量の新しい列。

備考

When a time step is irregular, you can use row-based partitioning or the data prep tool tool (to avoid the inaccurate rolling statistics these gaps can cause).

データの要件

To activate time-series modeling:

  • The time series dataset must meet the file size and row requirements. データに日付/時刻特徴量が含まれていても、データに不規則な時間単位や一意でないタイムスタンプが含まれる場合、時系列予測モードは無効化されることがあります。 If this happens, the time series data prep tool for potential solutions.
  • The dataset must contain a column with a variable type “Date” for partitioning.

備考

There are times that you may want to partition without holdout, which changes the minimum ingest rows and also the output of various visualizations.

If the requirements above are met, the date/time partitioning feature becomes available through the Set up time-aware modeling link on the Start screen.

Interval units

このドキュメントの多くの例では「日」の時間単位が示されていますが、DataRobotでは、時系列および複数系列モデリングでいくつかの間隔がサポートされています。 現在、DataRobotは、以下の単位の整数の倍数の時間ステップをサポートしています。

  • ミリ秒
  • 時間
  • 四半期

たとえば、行の間の時間ステップは15分毎(分の倍数)に設定できますが、13.23などの小数に設定することはできません。 DataRobotでは時間単位と時間ステップが自動的に検出されます。検出されない場合は、データセットは不規則として拒否されます。 パーティション分割が正しく機能するには、時間単位としてミリ秒を使用するデータセットでは、秒レベルとしてトレーニングおよびパーティション分割の境界を指定する必要があり、データセットが複数秒間にわたる必要があります。 さらに、1秒未満の予測ポイントを使用するために、デフォルトの予測ポイントを使用する必要があります。

プロジェクトタイプ

DataRobotの時系列モデリングでは、連続値プロジェクトと二値分類の両方がサポートされます。 それぞれのタイプでは、プロジェクトタイプに固有のモデルを多数取り揃えており、オートパイロットまたはリポジトリで選択することができます。 一般的に、両方のタイプのワークフローとオプションは同じですが、二値分類プロジェクトには次のような違いがあります。

  • In the advanced option settings, the following are disabled:
  • シンプルな差異および季節的な差異は適用されません。
  • 分類指標だけがサポートされます。
  • 差分は実行されないので、差分ターゲットを使用する特徴量セットは作成されません。 デフォルトでは、オートパイロットはBaseline only (average baseline)およびTime Series Informative Features上で実行します。 「平均値ベースライン」とは、特徴量派生ウィンドウ内のターゲットの平均値を意味します。
  • 分類ブループリントでは、モデリングのオフセットとしてナイーブ予測が使用されません。

更新しました December 22, 2022
Back to top