Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時間認識モデリングの概要

本機能の提供について

時系列モデリングを有効にする情報については、DataRobotの担当者にお問い合わせください。

DataRobotは、時間認識モデリングに2つのメカニズムを提供します。どちらも日付/時刻のパーティションを使用して実装されています。

  • 以下を行う時、次のタイプの時系列モデリングを使用します。

    • 時系列。ターゲットの複数の将来値を予測—「来週の月曜日から金曜日までの販売はどのようになるか?」
    • 複数系列。入力特徴量の共通セットに基づいて、複数の時系列を含むデータセットのモデリングを行えます。
    • セグメント化。系列をセグメントにグループ化して、需要予測を向上—「1月に北東部におけるアボカドの売上はどのようになるか?」
    • 時系列の未知の現在の値を「ナウキャスト」—「最近の履歴に基づく今月の過剰レートは?」

  • 時間外検定(OTV)。データが時間に関連するもので、予測を行わない場合(個々の各行のターゲット値を予測する場合)に使用します。 「この家屋価格データをどのように解釈するか」 このタイプの時間認識モデリングについては、 OTV専用ワークフローセクションで説明しています。

備考

時間認識モデリングを使用する理由教師あり学習のコンテキストでの活用方法の詳細については、以下を参照してください。 推奨リーディングパスに従うと、理解と要件に適したドキュメントを見つけるのに役立ちます。

使用する理由

過去のデータで予測モデルをトレーニングしながら、時間認識モデルを使用して将来のイベントを予測することがあります。 時間認識モデリングと従来のモデリングの主な違いは、パフォーマンスの判断に使用する検定データの選択方法にあります。 従来のモデリングでは、期間に関係なくデータセットから検定用の行を選択するのが一般的です。 時間認識モデリングでは、過度に楽観的で誤解を招きやすい(そして損害が生じるような結果とアクションにつながる可能性のある)検定スコアを防止するために、この手法が変更されています。 時系列モデリングでは、時間が経過しても予測変数とターゲットの間の関係性が一定であると仮定されません。

シンプルな例を以下に示します。家屋の販売価格を予測する場合を考えてみましょう。 データセットには各家屋に関する様々なデータが含まれていて、そのデータを使用して販売価格を予想することが計画されています。 一部のデータを使用してモデルを構築し、データのその他の部分を使用して予測を行います。 問題は、データセットからランダムに販売価格を選択すると、時間をまたいでランダムに選択することになる点です。 言い換えれば、結果のモデルは過去のデータから将来を予測するものではありません。 時間認識モデリングでは、時間ベースの分割を使用してモデルをトレーニングおよびテストできるので、家屋の将来の販売価格がモデルで常に検定されます(これが予測の目的です)。 予測を作成するために最新のデータを使用する必要はありませんが、モデルのトレーニングに使用したデータよりも新しいデータを使用すれば、将来に関する正確なモデル予測を行うことができます。

時間認識モデリングでは、時間の観点からデータをとらえることができます。 正確なモデルを構築するために必要なデータ量の単位は、日数、月数、または特定の数の最新の行などになります。 必要なデータ履歴の量を検討し、時間データの量とモデルの精度の関連性を考慮します。DataRobotでは、データの時間コンポーネントを使用してモデルが評価され、以下が提供されます。

  • モデル選択の改善によるパフォーマンスの向上
  • より正確な検定スコア
  • 予測変数としての日付特徴量のサポートの向上

時系列の概要

時系列データを操作する場合、「過去のデータをどのように解釈するか」および「どこまでの将来を予測するべきか」を検討します。この2つの点を決定した後、時間に左右されるデータでDataRobotの高度なモデリング技法をどのように使用してデータから予測を作成するかを設定できます。 ( 時系列モデリングを使用する理由に関するセクションも参照してください。)

DataRobotでは、モデリングデータ内で時系列特徴量の作成と選択が自動的に行われます。 特徴量は、開始画面で時系列フレームワークを設定することによって制約できます(最小および最大のラグなど)。 設定と生データセットの分析に基づいて、DataRobotは新しい特徴量を派生させ、モデリングデータセットを作成します。 時間シフト、ラグ、および特徴量が既に適用されているので、DataRobotでは一般的な機械学習アルゴリズムを使用して、新しいモデリングデータセットでモデルを構築できます。

教師あり学習モデル

従来の教師あり学習では、(ラベルまたは特徴量を含む)元のトレーニングデータで作業します。 DataRobotはモデルをトレーニングして、これらの特徴量に基づいて特定のターゲットを予測します。 DataRobotは作成したモデルをチューニングして、不明な(アウトオブサンプル)データに対してテストします。 このテストの結果は検定スコアになります。検定スコアは、モデルのデプロイの準備がどれだけできているかに関する信頼度の指標と見なすことができます。 デプロイした後、このモデルで新しいデータをスコアリングできます。 新しいデータをDataRobotにフィードすると、データから特徴量が抽出され、モデルにフィードされます。 次に、これらの特徴量で予測が作成されて、ターゲットに関する情報が提供されます。

DataRobotでモデルをトレーニングするとき、トレーニングデータに基づいていくつかの意思決定が行われます。 たとえば、関数またはデータに関する仮定を行うことにより、これらの仮定に基づいてパラメーター値を推定することができます。 モデリングアプローチが異なれば、仮定も異なります。 DataRobotの巨大なリポジトリには多くの使用可能なモデルが含まれていて、多くのさまざまな機能(アスペクト)が実行されるので、データに最適なモデルタイプを選択できます。

時間認識モードでの教師あり学習

教師あり学習では、トレーニングサンプルは独立したものであり、同一に分布(IID)されていると仮定されます。 この種のモデリングでは、データセットの各行に基づいて予測が作成されます。近隣の行は考慮されません。 トレーニングサンプルは相互に独立していると仮定されます。 教師あり学習において問題になるもう1つの仮定は、トレーニングに使用するデータと将来のデータの分布が同じになることです。

時間に依存するデータでは、従来の機械学習の仮定は通用しません。 2017年の7月から11月の間における「DataRobot」という用語のトレンドを求める場合を考えてみます。検索の目的は比較的シンプルです。

DataRobotの製品寿命にわたって同じ検索トレンドをチェックした場合、時系列の動作はより最近の日付になるにつれて大きく異なることがわかります。 比較的以前のデータ(2013年から2016年など)でモデルをトレーニングした場合、データの分布は同じではないのでモデルは有効ではなくなります。


更新しました December 5, 2023