Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデリングデータセットの作成

時系列モデリングフレームワークは、時間に左右されるデータから関連する特徴量を抽出します。その特徴量はユーザーが設定可能な予測ニーズに基づいて変更されて、元のデータセットから派生したまったく新しいデータセットが作成されます。 その後、モデル構築で標準および時系列固有の機械学習モデリングが使用されます。 このセクションでは、以下について説明します。

ユーザーはDataRobotで作成される新しい特徴量の種類を変更することはできませんが、アプリケーションによってさまざまな新しい列が追加されます。この列には、過去x日間の平均値、x日間の最大値、x日間の中央値、ローリング最頻ラベル、ローリング均質化、x日間のテキストの平均長などが含まれます。

さらに、時系列の日付/時刻パーティショニングでは、DataRobotは、設定済みのローリングウィンドウをスキャンして(従来のパーティショニングアプローチでは一般的ではない)サマリー統計を計算します。 予測時間では、特徴量の新規作成に加えて、フレームワークが新しいデータ内で考慮に入れられたことが自動的に検証されます。

Time series modeling features are the features derived from the original data you uploaded but with rolling windows applied—lag statistics, window averages, etc. Feature names are based on the original feature name, with parenthetical detail to indicate how it was derived or transformed. 派生した特徴量をクリックすると、元の特徴量と同じ種類の情報が表示されます。 従来のモデリングと同じアルゴリズムを使用して計算された有用性スコアを確認して、新しい特徴量が予測でどれだけ有益かを確認できます(通常は非常に有益です)。 特徴量派生プロセスで使用される演算子および作成された特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。

データと新機能の確認

開始をクリックすると、時系列の設定に基づいて新しい時系列特徴量が派生され、時系列モデリングデータが作成されます。 デフォルトでは、DataRobotは派生モデリングデータパネル、時系列特徴量の派生に使用される設定を表示する機能サマリー、データセット拡張統計、および派生ログを表示するためのリンクを表示します。 (元のデータを表示するには、元の時系列データをクリックします。)

サンプリングが必要な場合は、その情報も含まれます。 詳細情報を表示をクリックして、特徴量の作成中に行われた意思決定を一覧表示し、ダウンロード可能な派生ログを表示します。

ログ内で、候補となる派生した各特徴量には優先度レベルが割り当てられます(Generating feature "Sales (35 day mean)" from "Sales" (priority: 11)など)。 時系列特徴量の派生が完了した後にどの候補を維持するかを決定するとき、DataRobotでは、優先度しきい値が選択され、そのしきい値外の特徴量が除外されます。 候補特徴量が削除されると、特徴量の派生ログに理由が表示されます。

Removing feature "y (1st lag)" because it is a duplicate of the simple naïve of target

または

Removing feature "y (42 row median)" because the priority (7) is lower than the allowed threshold (7)

時系列プロジェクトでのダウンサンプリング

モデリングデータセットでは非常に多くの追加特徴量が作成されるので、データセットのサイズは指数関数的に増大する可能性があります。 ダウンサンプリングはDataRobotが適用する手法で、派生したモデリングデータセットが管理可能であること、および速度、メモリー使用量、モデルの精度が最適化されていることを保証します。 (このサンプリング方法は、マジョリティークラス(分類用)またはゼロ値(連続値)をダウンサンプリングするスマートダウンサンプリングと同じではありません。)

時系列データセットの増加は、列の数と予測ウィンドウの長さ(ウィンドウ内の予測距離の数)に基づいています。 次に、派生した特徴量がバックテストとホールドアウト全体でサンプリングされ、サンプリングされたデータが関連するインサイトの基盤を提供します(リーダーボードのスコア、予測精度、予測安定性、特徴量ごとの作用、時間の経過に伴う特徴量)。 DataRobotは、派生モデリングデータ パネルからアクセス可能な追加情報モーダルの情報を報告します。

複数系列モデリングでは、各系列の長さだけでなく、系列の数も派生データセットの新しい特徴量の数に影響します。 複数系列プロジェクトは、サンプリングへのアプローチが少し異なります。系列インサイトタブは、結果が精度の高い表現を行うには値が少なすぎる可能性があるのでサンプリングされた値を使用しません。

欠損値を処理

欠損値の補完は時系列プロジェクトとは異なる方法で処理されます。 プロセスを以下に説明します。

1つの行が欠損している時系列データセットを例に説明します。

Date,y
2001-01-01,1
2001-01-02,2
2001-01-04,4
2001-01-05,5
2001-01-06,6

この例では、2001-01-03の値が「欠損値」です。

ARIMAモデルの場合、DataRobotは時系列をより規則的にし、フォワードフィルを使用しようとします。 この処理は、特徴量の派生ウィンドウおよび予測ウィンドウで時間単位を使用するときに適用されます。 これらのウィンドウが行ベースのプロジェクトとして作成されると、DataRobotは履歴の正則化プロセスをスキップし(フォワードフィルなし)、元のデータを保持します。

非ARIMAモデルの場合、DataRobotはデータをそのまま使用し、不規則すぎるとモデリングを開始できません。

—データセットにターゲットまたは日付/時刻値がない場合、次の点を考慮してください。*

Date,y
2001-01-01,1
2001-01-02,2
,3
2001-01-04,
2001-01-05,5

この例では、3番目の行が欠損値Dateで、4番目の行が欠損値yです。 ターゲットおよび日付/時刻値がないので、これらの行は削除されます。

この例の欠損特徴量値(2001-01-02,,2)を考えてみます。

Date,feat1,y
2001-01-01,1,1
2001-01-02,,2
2001-01-03,3,3
2001-01-04,4,4
  • 特徴量レベルでは、派生した特徴量(移動統計量)では欠損値が無視されます。

  • ブループリントレベルでは、ブループリントに依存します。 一部のブループリントでは、問題なく欠損特徴量値を処理できます。 その他(たとえば、一部のENET関連のブループリント)の場合、DataRobotは欠損特徴量値に中央値補完を使用する場合があります。

もう1つ特別な状況があります。それは、差分に使用されるナイーブ予測特徴量です。 この場合、DataRobotでは、季節的なフォワードフィルが使用されます(使用できない場合は中央値にフォールバックします)。


更新しました December 21, 2022
Back to top