時間ベースのモデリングの概要¶
DataRobotは、時間認識モデリングに2つのメカニズムを提供します。どちらも日付/時刻パーティションを使用して実装されています。
- 時間外検定(OTV): データが時間に関連するもので、予測を行わない場合(個々の各行のターゲット値を予測する場合)に使用します。「この家屋価格データをどのように解釈するか」
- 時系列(単一系列または複数系列)を目的とする場合に使用します:
- ターゲットの複数の将来値を予測します—「来週の月曜日から金曜日までの販売はどのようになるか」
- 系列をセグメントにグループ化して、需要予測を改善します—「1月に北東部におけるアボカドの売上はどうなるでしょうか?」
- 「ナウキャスト」時系列の未明の現在の値。「最近の履歴に基づき、今月の過剰なレートはなんですか。」
本機能の提供について
時系列モデリングを有効にする情報については、DataRobotの担当者にお問い合わせください。
時間認識モデリングを使用する理由と教師あり学習のコンテキストでの活用方法の詳細については、以下を参照してください。推奨リーディングパスに従うと、理解と要件に適したドキュメントを見つけるのに役立ちます。
備考
ファイルサイズと系列の制限に関する注意事項については、ファイルサイズの説明を参照してください。
使用する理由¶
多くの人は、過去のデータでそれらのモデルをトレーニングしながら、将来のイベントを予測するために時間認識モデルを頻繁に使用します。時間認識モデリングと従来のモデリングの主な違いは、性能の判断に使用される検証データの選択方法にあります。従来のモデリングでは、期間に関係なくデータセットから検定用の行を選択するのが一般的です。時間認識モデリングでは、過度に楽観的で誤解を招きやすい(そして損害が生じるような結果とアクションにつながる可能性のある)検定スコアを防止するために、この手法が変更されています。時系列モデリングでは、時間が経過しても予測変数とターゲットの間の関係性が一定であると仮定されません。
簡単な例:住宅価格を予測します。データセットには各家屋に関する様々なデータが含まれていて、そのデータを使用して販売価格を予想することが計画されています。一部のデータを使用してモデルを構築し、データの他の部分を使用して予測を行います。問題は、データセットから販売価格をランダムに選択することで、時間の経過とともにランダムに選択していることを示唆していることです。言い換えれば、結果のモデルは過去のデータから将来を予測するものではありません。時間認識モデリングを使用することにより、時刻ベースの分割を使用してモデルをトレーニングおよびテストできるので、家屋の将来の販売価格がモデルで常に検定されます(これが予測の目的です)。予測を作成するために最新のデータを使用する必要はありませんが、モデルのトレーニングに使用したデータよりも新しいデータを使用すれば、将来に関する正確なモデル予測を行うことができます。
時間認識モデリングでは、時間の観点からデータをとらえることができます。正確なモデルを構築するために必要なデータの量の単位は、日数、月数、または特定の数の最新の行などになります。必要なデータ履歴の量を検討し、時間データの量とモデルの精度の関連性を考慮します。DataRobotでは、データの時刻要素を使用してモデルが評価され、以下が提供されます。
- 向上したモデル選択によるパフォーマンスの向上
- より正確な検定スコア
- 予測変数としての日付特徴量のサポートの向上
教師あり学習モデル¶
従来の教師あり学習では、(ラベルまたは特徴量を含む)元のトレーニングデータで作業します。DataRobotはモデルをトレーニングして、これらの特徴量に基づいて特定のターゲットを予測します。DataRobotはモデルを作成し、調整し、非表示(アウトオブサンプル)データでテストします。テスト結果は、モデルのデプロイの準備ができているか確実性を測定できる検定スコアで出されます。デプロイした後、このモデルで新しいデータをスコアリングできます。新しいデータをDataRobotにフィードすると、データから特徴量が抽出され、モデルにフィードされます。次に、これらの特徴量で予測が作成されて、ターゲットに関する情報が提供されます。
DataRobotはモデルをトレーニングし、トレーニングデータに基づいていくつかの決定を行います。関数やデータに関する仮定を作成することで、DataRobotはこれらの仮定に基づいてパラメーター値を推定できます。別のモデリングアプローチを使用した場合、別の仮定が行われます。DataRobotの巨大なリポジトリには多くの使用可能なモデルが含まれていて、多くのさまざまな機能(アスペクト)が実行されるので、データに最適なモデルタイプを選択できます。
時間認識モードでの教師あり学習¶
教師あり学習では、トレーニングサンプルは独立したものであり、同一に分布(IID)されていると仮定されます。この種のモデリングでは、データセットの各行に基づいて予測が作成されます。近隣の行は考慮されません。トレーニングサンプルは相互に独立していると仮定されます。教師あり学習において問題になるもう1つの仮定は、トレーニングに使用するデータと将来のデータの分布が同じになることです。
時間に依存するデータでは、従来の機械学習の仮定は通用しません。2017年の7月から11月の間における「DataRobot」という用語のトレンドを求める場合を考えてみます。検索の目的は比較的シンプルです。
DataRobotの製品寿命にわたって同じ検索トレンドをチェックした場合、時系列の動作はより最近の日付になるにつれて大きく異なることがわかります。比較的以前のデータ(2013年から2016年など)でモデルをトレーニングした場合、データの分布は同じではないのでモデルは有効ではなくなります。
推奨される読み進め方¶
ユーザーの理解と要件に応じた適切なドキュメントを見つけることができるよう、以下の表に時間認識モデリングのワークフローのページを示します。
トピック | 説明 | 目的... |
---|---|---|
時間認識モデリングを使用する理由(このページ) | 時間認識モデリングの用途とメリットの概要。 | OTVと時系列 |
ワークフローの概要 | 時間認識モデリングワークフローの全般的なステップ。 | OTVと時系列 |
日付/時刻パーティション | OTVと時系列の両方を実装するために使用する分割手法の詳細な説明。ワークフローについて詳細に説明し、この手法の要素の背景情報を紹介します。 | OTVと時系列 |
時間外検定(OTV) | 日付/時刻パーティションによって完全に実装されています。 | OTV |
マルチステップOTV | 日付/時刻パーティションによって完全に実装されています。 | OTV |
時系列モデリング | 時系列ワークフローについて詳細に説明し、背景情報と従来の教師あり学習との重要な違いについて解説します。 | 時系列 |
複数系列モデリング | 一般的な時系列モデリングの説明(上記参照)と異なる複数系列モデリングワークフローに固有のセクション。複数系列は、複数の異なるオブジェクト(複数の店舗など)の時間シーケンスを表す行の個別のグループがデータに含まれる場合にが適用されます。 | 時系列 |
セグメントモデリング | セグメントモデリングのワークフローに固有のセクション、および統合されたモデルチャンピオンモデルの理解。 | 時系列 |
ナウキャスティング | 現在および非常に近い将来の予測(非常に短い範囲の予測)に固有のセクション。 | 時系列 |
特徴量エンジニアリングのリファレンス | 特徴量派生プロセスの詳細なリファレンスと例。 | 時系列 |
用語集 | 上記の時間認識モデリングのページで使用される用語の簡単な定義。 | OTVと時系列 |