Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデリングデータセットの作成

時系列モデリングフレームワークは、時間に左右されるデータから関連する特徴量を抽出します。その特徴量はユーザーが設定可能な予測ニーズに基づいて変更されて、元のデータセットから派生したまったく新しいデータセットが作成されます。その後、モデル構築で標準および時系列固有の機械学習モデリングが使用されます。このセクションでは、以下について説明します。

ユーザーはDataRobotで作成される新しい特徴量の種類を変更することはできませんが、アプリケーションによってさまざまな新しい列が追加されます。この列には、平均販売量、過去x日間の最大値、x日間の中央値、ローリング最頻ラベル、ローリング均質化、x日間のテキストの平均長などが含まれます。

さらに、時系列の日付/時刻パーティショニングでは、DataRobotは、設定済みのローリングウィンドウをスキャンして(従来のパーティショニングアプローチでは一般的ではない)サマリー統計を計算します。予測時間では、特徴量の新規作成に加えて、フレームワークが新しいデータ内で考慮に入れられたことが自動的に検証されます。

時系列モデリング特徴量は、アップロードした元のデータから派生した特徴量ですが、ローリングウィンドウが適用され、ラグ統計、ウィンドウ平均などが適用されます。特徴量名は元の名前に基づいており、カッコ内の詳細はそれがどのように派生または変換されたかを示しています。派生した特徴量をクリックすると、元の特徴量と同じ種類の情報が表示されます。従来のモデリングと同じアルゴリズムを使用して計算された有用性スコアを確認して、新しい特徴量が予測でどれだけ有益か(一般的、非常に)を確認できます。特徴量派生プロセスで使用される演算子および作成される特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。

データと新しい特徴量の確認

開始をクリックすると、時系列の設定に基づいて新しい時系列特徴量が派生され、時系列モデリングデータが作成されます。デフォルトでは、DataRobotは、派生したモデリングデータパネル、時系列特徴量の派生に使用される設定を表示する機能サマリー、データセット拡張統計、および派生ログを表示するためのリンクを表示します。(元のデータを表示するには、元の時系列データをクリックします。)

サンプリングが必要な場合は、その情報も含まれます。詳細情報を表示をクリックすると、特徴量の作成中に行われた意思決定が一覧表示されたダウンロード可能な派生ログが表示されます。

ログ内で、候補となる派生した各特徴量には優先度レベルが割り当てられます(Generating feature "Sales (35 day mean)" from "Sales" (priority: 11)など)。時系列特徴量の派生が完了した後にどの候補を維持するかを決定するとき、DataRobotでは優先度しきい値が選択され、そのしきい値外の特徴量が除外されます。候補特徴量が削除されると、特徴量の派生ログに理由が表示されます。

Removing feature "y (1st lag)" because it is a duplicate of the simple näive of target

または

Removing feature "y (42 row median)" because the priority (7) is lower than the allowed threshold (7)

[特徴量の系統]タブ

ログに表示される結果を十分に把握するには、特徴量の系統タブを使用して、派生した特徴量を生成するために実行された各アクション(系統)を示す視覚的な「説明」を表示します。元のアップロードされたデータセットに存在しなかった特徴量がどのように作成されたかを理解するのは難しい場合があります。特徴量の系統を使用すると、派生した機能だけでなく、最終結果に至るまでのステップを簡単に特定できます。

データページから、特徴量の系統をクリックし、派生した特徴量を生成するために実行された各アクションを確認できます。これは特徴量間の関係性を示す接続グラフ(有向非巡回グラフ)として表されます。

より複雑な派生(差異のある派生など)の場合、グラフは差異がどのように計算されたかを示します。

視覚化の要素は系統を表します。グラフ内のセルをクリックして、選択したセルの生成に関連する前のセルを表示します。親アクションは、クリックした要素の左側にあります。特徴量を1回クリックすると、その親特徴量が表示されます。再度クリックすると完全な表示に戻ります。

グラフは次の要素を使用します。

要素 説明
変換前 元のデータセットの特徴量。
時系列 特徴量派生プロセスにおけるアクション(前処理のステップ)。各アクションは、最終的な特徴量名で表されます。
結果 最終的に生成された特徴量。
情報( 要素に関する動的に生成された情報(カーソルを置いたとき)。
時計( 特徴量が時間認識であること(min value over 6 to 0 months2nd lagなどの時間インデックスを使用して派生)を示すインジケーター。

時系列プロジェクトでのダウンサンプリング

モデリングデータセットでは非常に多くの追加特徴量が作成されるので、データセットのサイズは指数関数的に増大する可能性があります。ダウンサンプリングはDataRobotが適用する手法で、派生したモデリングデータセットが管理可能であること、および速度、メモリー使用量、モデルの精度が最適化されていることを保証します。(このサンプリング方法は、マジョリティークラス(分類用)またはゼロ値(連続値)をダウンサンプリングするスマートダウンサンプリングと同じではありません。)

時系列データセットの増加は、列の数と予測ウィンドウの長さ(ウィンドウ内の予測距離の数)に基づいています。次に、派生した特徴量がバックテストとホールドアウト全体でサンプリングされ、サンプリングされたデータが関連するインサイトの基盤を提供します(リーダーボードのスコア、予測精度、予測安定性、特徴量ごとの予実、特徴量ごとの作用、時間の経過に伴う特徴量)。DataRobotは、その情報を派生モデリングデータパネルからアクセス可能な追加情報モーダルで報告します。

複数系列モデリングでは、各系列の長さだけでなく、系列の数も派生データセットの新しい特徴量の数に影響します。複数系列プロジェクトは、サンプリングへのアプローチが少し異なります。系列インサイトタブは、結果が精度の高い表現を行うには値が少なすぎる可能性があるのでサンプリングされた値を使用しません。

欠損値を処理

欠損値の補完は時系列プロジェクトとは異なる方法で処理されます。プロセスを以下に説明します。

1つの行が欠損している時系列データセットを例に説明します。

Date,y
2001-01-01,1
2001-01-02,2
2001-01-04,4
2001-01-05,5
2001-01-06,6

この例では、2001-01-03の値が「欠損値」です。

ARIMAモデルの場合、DataRobotは時系列をより規則的にし、フォワードフィルを使用しようとします。この処理は、特徴量の派生ウィンドウおよび予測ウィンドウで時間単位を使用するときに適用されます。これらのウィンドウが行ベースのプロジェクトとして作成されると、DataRobotは履歴の正則化プロセスをスキップし(フォワードフィルなし)、元のデータを保持します。

非ARIMAモデルの場合、DataRobotはデータをそのまま使用し、不規則すぎるとモデリングを開始できません。

データセットにターゲットまたは日付/時刻値がない場合、次の点を考慮してください。

Date,y
2001-01-01,1
2001-01-02,2
,3
2001-01-04,
2001-01-05,5

この例では、3番目の行がDateを欠損し、4番目の行がyを欠損しています。ターゲットおよび日付/時刻値がないので、これらの行は削除されます。

この例の欠損特徴量値(2001-01-02,,2)を考えてみます。

Date,feat1,y
2001-01-01,1,1
2001-01-02,,2
2001-01-03,3,3
2001-01-04,4,4
  • 特徴量レベルでは、派生した特徴量(ローリング統計)により欠損値が無視されます。

  • ブループリントレベルでは、ブループリントに依存します。一部のブループリントでは、問題なく欠損の特徴量値を処理できます。その他(たとえば、一部のENET関連のブループリント)の場合、DataRobotは欠損特徴量値に中央値補完を使用する場合があります。

もう1つ特別な状況があります。それは、差分に使用されるナイーブ予測特徴量です。この場合、DataRobotでは、季節的なフォワードフィルが使用されます(使用できない場合は中央値にフォールバックします)。


更新しました February 22, 2022
Back to top