Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時系列特徴量の派生

次の表は、時系列モデリングデータセットを作成するプロセス(使用される特徴量派生プロセス演算子と作成される特徴量名)を示しています。追加情報については、以下の説明を参照してください。

プロセスの概要

新しい特徴量を派生するとき、DataRobotは各特徴量を0個以上のプリプロセッサに渡し(一部の特徴量は前処理されません)、結果を1つ以上の抽出子に渡し、最後にポストプロセッサに渡します。

プリプロセッサは実行されるだけですが、ターゲット、日付、およびテキスト列(特徴量列なし)ではこの手順をスキップできます。

      dataset --> preprocessor --> extractor --> postprocessor --> final

Feature columns move from input to extractor or postprocessor:

      dataset --> extractor --> postprocessor --> final

      dataset --> extractor --> final

詳細、DataRobot:

  1. EDA1では、日付特徴量に自動特徴量変換を適用します。これらの特徴量は、以下で説明するEDA2特徴量派生プロセスから除外されます。元の特微量のみがプロセスを経由します(変換された特徴量はそれ以上変換されません)。
  2. プリプロセッサ(CrossSeriesBinaryPreprocessor、NextEventType、Transformなど)を適用します。
  3. ターゲット、日付、またはテキスト特徴量の「中間特徴量」(前処理が適用されたが、後処理が適用されるまで完了することのない特徴量)を作成します。たとえば、Sales (log)は最終のSales (log) (diff) (14 day min)に至る中間ステップであり、それ自体は有効な特徴量ではありません。
  4. 抽出子のステップを使用して、元のデータセットまたは中間特徴量からの入力を消費します。ポストプロセッサ(次のステップ)は、この出力を入力として使用します。
  5. 抽出子の結果に後処理を適用し、モデリングに使用する「最終特徴量」を作成します。

クイックリファレンスの特徴量生成の視覚的表現を参照してください。

特徴量リファレンス

以下に、派生プロセスの全般的な概要を示します。

サンプル入力データセット

日付 ターゲット
1/1/20 1
2/1/20 2
3/1/20 3

結果の時系列モデリングデータセット

日付(実測値) ターゲット(実測値) 予測距離
1/1/20 1 1
2/1/20 2 1
3/1/20 3 1
1/1/20 1 2
2/1/20 2 2
3/1/20 3 2

ターゲットから派生した特徴量の例

数値特徴量の例

カテゴリー特徴量の例

テキスト特徴量の例

日付特徴量の例

特徴量の型

特徴量の派生は、その型に基づいて特徴量に作用します。以下の例と説明では、これらの特徴量(<target>など)を使用して相互作用を説明します。

要素 説明
(中間)
(最終)
プロジェクト開始時に予測する特徴量として選択された特徴量。
(最終) 日付またはテキスト型ではないデータセットの特徴量またはターゲット列。特徴量が数値型の場合、処理はターゲットに対して行われる処理と同じです。特徴量がカテゴリ型の場合は、違いがあります(以下の表を参照)。DataRobotでは、ターゲット以外の特徴量に前処理は適用されません。
(intermediate)
(final)
プロジェクト開始時に時間認識モデリングを有効にするために選択されたプライマリー日付/時刻型特徴量。
(中間)
(最終)
EDA1中に自動的に変換された特徴量以外のプライマリー日付/時刻型特徴量ではない日付型特徴量。
(中間) テキスト列。

表には、以下に関する情報が含まれています。

  • 特徴量名のパターン。特徴量の型の後にパターンタグが付きます(特徴量が元のアップロードされたデータセットに基づく場合は「実測値」)。これは、すべての変換が完了した後の結果の特徴量名です(<target> (diff)など)。
  • タグ。特徴量の特性。
  • 後処理された特徴量の例。

中間特徴量

以下のセクションでは、ターゲット、プライマリー日付、日付、およびテキスト型特徴量に作成される中間特徴量について詳しく説明します。

以下のセクションでは、ターゲット特徴量の各表記パターンを示します。


<target> (log)

説明:対数変換されたターゲット。

プロジェクトタイプ:回帰、乗法のトレンド

タグ:

  • ターゲット派生
  • 数値
  • 乗法

例:

    sales (log) (naive latest value)
    sales (log) (diff) (1st lag)
    sales (log) (7 day diff) (35 day max)
    sales (log) (1 month diff) (2nd lag)

<target> (diff)

説明:現在の値と前の単一の時間ステップ値との差を計算することによって作成され、差分変換されたターゲット。時間ステップは、アップロードされたデータセットの間隔に基づいています。例:四半期ごとのデータセットには、3か月の時間ステップがあります。

プロジェクトタイプ:連続値、非定常

タグ:

  • ターゲット派生
  • 数値
  • 定常性

例:

sales (diff) (1st lag)
sales (diff) (7 day mean)

<target> (<period> diff)

説明:現在の値と前の<期間>値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:回帰、季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (7 day diff) (1st lag)
sales (7 day diff) (14 day mean)

<target> (1 month diff)

説明:現在の値と前の月(同じ日)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:回帰、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month diff) (35 day mean)
sales (1 month diff) (1st lag)

<target> (1 month match end diff)

説明:現在の値と前月(月末に合わせた)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:回帰、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match end diff) (2nd lag)
sales (1 month match end diff) (35 day max)

<target> (1 month match weekly diff)

説明:現在の値と前の月(月の週と平日を合わせた)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:回帰、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match weekly diff) (3th lag)
sales (1 month match weekly diff) (35 day mean)

<target> (1 month match weekly diff from end)

説明:現在の値と前の月の値(平日と「月末からの週」に合わせた)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:回帰、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match weekly diff from end) (2nd lag)
sales (1 month match weekly diff from end) (35 day min)

<target> (total)

説明:すべての系列にまたがる指定された時間の合計ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (total) (2nd lag)
sales (total) (35 day mean)
sales (total) (3rd lag) (diff 35 day mean)
sales (total) (7 day diff) (35 day mean)

<target> (weighted total)

説明:すべての系列にまたがる指定された時間の加重合計ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted total) (2nd lag)
sales (weighted total) (35 day mean)
sales (weighted total) (3rd lag) (diff 35 day mean)
sales (weighted total) (7 day diff) (35 day mean)

<target> (<groupby> total)

説明:同じユーザーやグループ内のすべての系列にまたがる指定された時間の中でのターゲットの合計。

プロジェクトタイプ:交差系列の回帰、合計集計、ユーザー指定のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region total) (2nd lag)
sales (region total) (35 day mean)
sales (region total) (3rd lag) (diff 35 day mean)
sales (region total) (7 day diff) (35 day mean)

<target> (<groupby> weighted total)

説明:同じユーザー指定グループ内のすべての系列にまたがる指定された時間の加重合計ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、ユーザー指定のグループ別特徴量、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted total) (2nd lag)
sales (region weighted total) (35 day mean)
sales (region weighted total) (3rd lag) (diff 35 day mean)
sales (region weighted total) (7 day diff) (35 day mean)

<target> (average)

説明:すべての系列にまたがる指定された時間のターゲットの平均値。

プロジェクトタイプ:交差系列の回帰、平均集計

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (average) (2nd lag)
sales (average) (35 day mean)
sales (average) (3rd lag) (diff 35 day mean)
sales (average) (7 day diff) (35 day mean)

<target> (weighted average)

説明:すべての系列にまたがる指定された時間でのターゲットの加重平均。

プロジェクトタイプ:交差系列の回帰、平均集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted average) (2nd lag)
sales (weighted average) (35 day mean)
sales (weighted average) (3rd lag) (diff 35 day mean)
sales (weighted average) (7 day diff) (35 day mean)

<target> (<groupby> average)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの平均値。

プロジェクトタイプ:交差系列の回帰、平均集計、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region average) (2nd lag)
sales (region average) (35 day mean)
sales (region average) (3rd lag) (diff 35 day mean)
sales (region average) (7 day diff) (35 day mean)

<target> (<groupby> weighted average)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの加重平均。

プロジェクトタイプ:交差系列の回帰、合計集計、ユーザー指定のグループ別特徴量および加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted average) (2nd lag)
sales (region weighted average) (35 day mean)
sales (region weighted average) (3rd lag) (diff 35 day mean)
sales (region weighted average) (7 day diff) (35 day mean)

<target> (proportion)

説明:すべての系列にまたがるターゲットの比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (proportion) (1st lag)
sales (proportion) (14 day mean)
sales (proportion) (30 day max) (diff 7 day mean)
sales (proportion) (7 day diff) (1st lag)
sales (proportion) (7 day diff) (30 day min)

<target> (weighted proportion)

説明:すべての系列にまたがるターゲットの加重比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted proportion) (1st lag)
sales (weighted proportion) (14 day mean)
sales (weighted proportion) (30 day max) (diff 7 day mean)
sales (weighted proportion) (7 day diff) (1st lag)
sales (weighted proportion) (7 day diff) (30 day min)

<target> (<groupby> proportion)

説明:同じグループ内のすべての系列にまたがるターゲットの比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region proportion) (naive latest value)
sales (region proportion) (2nd lag)
sales (region proportion) (7 day mean)
sales (region proportion) (1st lag) (diff 7 day mean)
sales (region proportion) (7 day diff) (1st lag)
sales (region proportion) (7 day diff) (30 day min)

<target> (<groupby> weighted proportion)

説明:同じグループ内のすべての系列にまたがるターゲットの加重比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の回帰、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の交差系列のグループ別特徴量と加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted proportion) (naive latest value)
sales (region weighted proportion) (2nd lag)
sales (region weighted proportion) (7 day mean)
sales (region weighted proportion) (1st lag) (diff 7 day mean)
sales (region weighted proportion) (7 day diff) (1st lag)
sales (region weighted proportion) (7 day diff) (30 day min)

<target> (total equal <label>)

説明:すべての系列にまたがる、指定された時間の

プロジェクトタイプ:交差系列分類、合計集計

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

`is_zero_sales (total equal 1) (1st lag)`

<target> (weighted total equal <label>)

説明:すべての系列にまたがる指定された時間のターゲットの加重合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (weighted total equal 1) (1st lag)
is_zero_sales (weighted total equal 1) (1st lag) (diff 35 day mean)

<target> (<groupby> total equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間でのターゲットの合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定のグループ別特徴量

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (region total equal 1) (1st lag)
is_zero_sales (region total equal 1) (1st lag) (diff 35 day mean)

<target> (<groupby> weighted total equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの加重合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定の交差系列グループ別の特徴量と加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (region weighted total equal 1) (1st lag)
is_zero_sales (region weighted total equal 1) (1st lag) (diff 35 day mean)

<target> (fraction equal <label>)

説明:すべての系列にまたがる指定された時間のターゲット平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (fraction equal 1) (1st lag)
is_zero_sales (fraction equal 1) (1st lag) (diff 35 day mean)

<target> (weighted fraction equal <label>)

説明:すべての系列にまたがる指定された時間のターゲット平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

is_zero_sales (weighted fraction equal 1) (3rd lag)
is_zero_sales (weighted fraction equal 1) (3rd lag) (diff 35 day mean)

<target> (<groupby> fraction equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (region fraction equal 1) (3rd lag)
is_zero_sales (region fraction equal 1) (3rd lag) (diff 35 day mean)

<target> (<groupby> weighted fraction equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの加重平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列の二値、平均集計、ユーザー指定の交差系列のグループ別特徴量と加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (region weighted fraction equal 1) (3rd lag)
is_zero_sales (region weighted fraction equal 1) (3rd lag) (diff 35 day mean)

<target> (is zero)

説明:ターゲットがゼロに等しいかどうかを示すブール型フラグ(ゼロ過剰ツリーベースモデルで使用)。

プロジェクトタイプ:回帰、最小ターゲットはゼロに等しい

タグ:

  • ターゲット派生
  • 数値
  • ゼロ過剰

例:

sales (is zero) (1st lag)
sales (is zero) (7 day fraction equal 1)
sales (is zero) (naive binary) (35 day fraction equal 1)
sales (is zero) (1st lag) (diff 35 day mean)

<target> (nonzero)

説明:ゼロターゲット値を欠損値で置き換えます(ゼロ過剰ツリーベースモデルで使用)。

プロジェクトタイプ:回帰、最小ターゲットはゼロに等しい

タグ:

  • ターゲット派生
  • 数値
  • ゼロ過剰

例:

sales (nonzero) (log) (1st lag) (diff 35 day mean)
sales (nonzero) (7 day max) (log) (diff 35 day mean)
sales (nonzero) (35 day average baseline) (log)

<target> (<time_unit> aggregation)

説明:ターゲットデータをより大きな時間単位で集計します(時間階層モデルで使用)。

プロジェクトタイプ:連続値

タグ:

  • ターゲット派生
  • 数値

例:

sales (week aggregation) (actual)


<target> (weighted <time_unit> aggregation)

説明:より大きな時間単位で集計された加重ターゲットデータ(時間階層モデルで使用)。

プロジェクトタイプ:回帰、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値

例:

sales (weighted week aggregation) (actual)

以下のセクションでは、プライマリー日付/時刻特徴量の各表記パターンを示します。


<primary_date> (previous calendar event type)

説明:前回のカレンダーイベントの値。たとえば、カレンダーファイルに2つのイベント(クリスマスと新年)がある場合、12月25日から1月1日までのすべての観測値の前回のカレンダーイベントタイプは 「クリスマス」 になります。たとえば、カレンダーファイルに2つのイベント(クリスマスと新年)がある場合、12月25日から1月1日までのすべての観測値の前回のカレンダーイベントタイプは 「クリスマス」 になります。1月1日から12月25日までのすべての観測値の特徴量は「新年」に等しくなります。以前の値がない場合、特徴量はnullになります。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (previous calendar event type) (actual)


<primary_date> (next calendar event type)

説明:次回のカレンダーイベントの値。たとえば、カレンダーファイルに2つのイベント(クリスマスと新年)がある場合、12月25日から1月1日までのすべての観測値の次回のカレンダーイベントタイプは「新年」になります。1月1日から12月25日までのすべての観測値の特徴量は「クリスマス」に等しくなります。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (previous calendar event type) (actual)


<primary_date> (calendar event type <N> day(s) before)

説明:観測日の_N_日前のカレンダーイベントを指定する特徴量。たとえば、観測日が12月27日の場合、特徴量は「クリスマス」に等しくなdate (calendar event type 2 days before) (actual)ります。特徴量date (calendar event type 1 days before) (actual)はnullになります。

イベントの種類がカレンダーファイルで提供されていない場合、この特徴量は(1)または(0)の値を取り、_N_日前にカレンダーイベントがあるかどうかを指定します。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day before) (actual)
date (calendar event type 2 days before) (actual)

<primary_date> (calendar event type <N> day(s) after)

説明:観測日の_N_日以後のカレンダーイベントを指定する特徴量。たとえば、観測日が12月23日の場合、特徴量は「クリスマス」に等しくなdate (calendar event type 2 days after) (actual)ります。特徴量date (calendar event type 3 days after) (actual)はnullになります。

イベントの種類がカレンダーファイルで提供されていない場合、この特徴量は(1)または(0)の値を取り、_N_日後にカレンダーイベントがあるかどうかを指定します。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (days from previous calendar event) (actual)


<primary_date> (<time_unit>(s) from previous calendar event)

説明:既知のカレンダーイベント以降の時間単位数を指定する数値特徴量。時間単位は、データセットの時間ステップによって異なります(たとえば、日次データセットの場合、時間単位は日です)。たとえば、観測日が12月28日の場合、この特徴量は3(日)になります。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day after) (actual)
date (calendar event type 2 days after) (actual)

<primary_date> (<time_unit>(s) to next calendar event)

説明:次回の既知のカレンダーイベントまでの時間単位数を指定する数値特徴量。時間単位は、データセットの時間ステップによって異なります(たとえば、日次データセットの場合、時間単位は日です)。たとえば、観測日が12月30日の場合、この特徴量は5(日)になります。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day after) (actual)
date (calendar event type 2 days after) (actual)

<primary_date> (calendar event type)

説明:観測日と同じ日に行われるカレンダーイベントを指定します。たとえば、観測日が12月25日の場合、特徴量は「クリスマス」になります。また、12月26日の場合、特徴量はnullになります。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type) (actual)


<primary_date> (calendar event)

説明:その日にカレンダーイベントがあるかどうかを指定します。観測日と同じ日にカレンダーイベントがある場合、値は(1)です。ない場合は(0)です。

プロジェクトの種類:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event) (actual)


<primary_date> (hour of week)

説明:プライマリー日付の(day of week * 24 + hour)と同じです。結果は、同じ週の初めから終わりまでの時間数になります。

プロジェクトの種類:検出された週単位の季節性、24時間単位の季節性

タグ:

  • 日付

例:

date (hour of Week) (actual)


<primary_date> (common event)

説明:プライマリー日付が存在するかどうかを指定します。たとえば、月曜日から金曜日のデータセットの場合、月曜日から金曜日までの間のプライマリー日付を持つすべてのサンプル値がTrueになります。週末のプライマリー日付を持つサンプル値はFalseになります。

プロジェクトの種類:特定の曜日や時間帯のサンプルが定期的に欠損(例:月曜日から金曜日のデータセット)

タグ:

  • 日付

例:

date (common event) (actual)

以下のセクションでは、日付(非プライマリー日付/時刻)特徴量の各表記パターンを示します。


<date> (<time_unit>s from <primary_date>)

説明:入力された日付特徴量からプライマリー日付/時刻までの時間単位数を指定する数値特徴量。このプリプロセッサーの出力は数値特徴量です。入力は日付特徴量です。

プロジェクトタイプ:任意。情報の乏しくない、かつプライマリー日付/時刻ではない特徴量を1つ以上(両方の条件を満たす特徴量を1つ以上)持つ。

タグ:

  • 日付

例:

due_date (days from date) (1st lag)
due_date (days from date) (7 day mean)

以下のセクションでは、テキスト特徴量の各表記パターンを示します。


<text> Length

説明:テキスト列の文字数を指定する数値特徴量。このプリプロセッサーの出力は数値特徴量です。入力はテキスト特徴量です。

プロジェクトタイプ:数値型。少なくとも1つの情報の乏しくないテキスト入力

タグ:

  • テキスト

例:

(description Length) (1st lag)
(description Length) (7 day mean)

最終特徴量

以下のセクションでは、特徴量エンジニアリングプロセス中に、ターゲットのみ、特徴量/ターゲット/中間、プライマリー日付/時刻特徴量を使用して作成した最終特徴量について詳しく説明します。

以下のセクションでは、ターゲット特徴量、ターゲット以外の特徴量、中間特徴量のいずれかである特徴量の各表記パターンを示します。


<feature_or_target_or_intermediate> (actual)

説明:特定の日付について、元のデータセットと同じ値を持つ単純なパススルー特徴量。これらの特徴量は事前に既知と見なされ、そのままデータセットから派生データセットにコピーできます。ターゲット以外の特徴量では、予測時に特徴量が使用可能である場合に使用されます。例としては、日付、日付派生、カレンダー、またはユーザー指定の事前に既知(事前)特徴量があります。ターゲットまたは派生ターゲット列の場合、モデルに適合するターゲットとして使用されます。

タグ:

  • 事前に既知
  • カレンダー
  • 日付派生
  • ターゲット
  • ターゲット派生

例:

sales (actual)
date (actual)
date (Month of Year) (actual)
date (calendar event) (actual)
sales (actual)
sales (week aggregation) (actual)

<feature_or_target_or_intermediate> (<N> lag)

説明:特徴量は特徴量派生ウィンドウで_N_ 番目に最新の値を抽出します。プロジェクトのラグの最小数は1です。予測距離がゼロのプロジェクトの場合(FDW=[-n, 0]およびFW=[0])、特徴量派生ウィンドウの最後の値は予測ポイントでの値なので、最初のラグは予測ポイントで既知の実測値と同等になります。

タグ:

  • ラグ

例:

```
sales (2nd lag)
sales (region average) (1st lag)
sales (region total) (4th lag)
sales (diff 7 day) (2nd lag)
```

<feature_or_target_or_intermediate> (<window> <time_unit> <categorical_method>)

説明:特徴量は、特徴量派生ウィンドウの最新<window> <time_unit>のカテゴリ統計を抽出します。カテゴリー統計には「most_frequent」(最も頻度の高いアイテムを返す)、「n_unique」(一意の値の数を返す)および「entropy」(不確実性の尺度)が含まれます。

タグ:

  • カテゴリー

例:

product_type (7 day most_frequent)
product_type (7 day n_unique)
product_type (7 day entropy)

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <categorical_method>)

説明:特徴量は、特徴量派生ウィンドウ<window> <time_unit>の最新の内の同じ期間のカテゴリー統計を抽出します。カテゴリー統計には「most_frequent」(最も頻度の高いアイテムを返す)、「n_unique」(一意の値の数を返す)および「entropy」(不確実性の尺度)が含まれます。たとえば、特徴量product_type (same weekday) (35 day entropy)は過去5週間の予測ポイントに等しい平日のproduct_typeのエントロピーを計算します。

タグ:

  • カテゴリー

例:

product_type (same weekday) (35 day most_frequent)
product_type (same weekday) (35 day n_unique)
product_type (same weekday) (35 day entropy)

<feature_or_target_or_intermediate> (<window> <time_unit> <fraction>)

表記パターン:

<feature_or_target_or_intermediate> (<window> <time_unit> fraction empty)

<feature_or_target_or_intermediate> (<window> <time_unit> fraction equal <label>)

説明:特徴量はの割合を計算します<feature> equals <label><label>が空の文字列の場合、は特徴量派生ウィンドウ<window> <time_unit>の最新のfraction empty内の<feature> equals <label>になります。たとえば、is_raining (7 day fraction empty)は過去7日間の空の文字列に等しいis_raining特徴量の割合を計算します。

タグ:

  • 二値

例:

is_holiday (35 day fraction equal True)
is_raining (7 day fraction equal empty)

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <fraction>)

表記パターン:

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> fraction empty)

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> fraction equal <label>)

説明:特徴量はの割合を計算します<feature> equals <label><label> <window> <time_unit> が空の文字列 fraction empty の場合、は特徴量派生ウィンドウの最新の内の同じ期間の<feature> equals <label>になります。たとえば、is_raining (same weekday) (35 day fraction equal True)は過去35日間のtrueに等しいis_raining特徴量の割合を計算します。

タグ:

  • 二値

例:

is_raining (same weekday) (35 day fraction equal True)
is_holiday (same weekday) (35 day fraction equal empty)

<feature_or_target_or_intermediate> (<window> <time_unit> <method>)

説明:特徴量は特徴量派生ウィンドウ<window> <time_unit>の最新の<method>内の数値統計を計算します。数値統計には、「最大(max)」、「最小(min)」、「平均(mean)」、「中央値(median)」、「標準偏差(std)」、および「ロバストZスコア(robust zscore)」があります。

タグ:

  • 数値

例:

sales (7 day max)
sales (7 day min)
sales (7 day mean)
sales (7 day median)
sales (7 day std)

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <method>)

説明:特徴<method>量は特徴量派生ウィンドウ<window> <time_unit>の最新の内の同じ期間のを計算します。たとえば、特徴量sales (same weekday) (35 day mean)は過去35日間の同じ平日のsalesの平均値を計算します。

タグ:

  • 数値

例:

sales (same weekday) (35 day max)
sales (same weekday) (35 day min)
sales (same weekday) (35 day mean)
sales (same weekday) (35 day median)

以下のセクションでは、ターゲットのみの特徴量の各表記パターンを示します。


<target> (naive or match) <strategy>

表記パターン:

<target> (naive latest value)

<target> (naive <period> seasonal value)

<target> (naive 1 month seasonal value)

<target> (match end of month) (naive 1 month seasonal value)

<target> (match weekday from start of month) (naive 1 month seasonal value)

<target> (match weekday from end of month) (naive 1 month seasonal value)

説明:特徴量は、さまざまな戦略に基づいて将来を予測するために、履歴から値を選択します。最新のナイーブ予測では、最新の履歴値を使用して予測ウィンドウの行を予測します。季節的なナイーブ予測では、履歴の中から前シーズンのターゲット値を抽出して予測します。たとえば、月曜から金曜までのデータセットの場合、月曜における最新のナイーブ予測では、先週の金曜のターゲット値を月曜の予測値として使用します。7日間のナイーブ予測では、先週の月曜日のターゲット値を使用します。データセットで乗法トレンドが検出された場合、ナイーブ予測は対数スケールになります。

タグ:

  • 数値
  • ナイーブ/ベースライン

例:

sales (naive lastest value)
sales (naive 7 day seasonal value)
sales (naive 1 month seasonal value)
sales (match end of month) (naive 1 month seasonal value)
sales (match weekday from start of month) (naive 1 month seasonal value)
sales (match weekday from end of month) (naive 1 month seasonal value)
sales (log) (naive lastest value)
sales (log) (naive 7 day seasonal value)
sales (log) (naive 1 month seasonale value)
sales (log) (match end of month) (naive 1 month seasonal value)
sales (log) (match weekday from start of month) (naive 1 month seasonal value)
sales (log) (match weekday from end of month) (naive 1 month seasonal value)

<target> (last month <strategy>)

表記パターン:

<target> (last month average baseline)

<target> (last month weekly average)

<target> (match end of month) (last month weekly average)

説明:特徴量は、予測ポイントに対して、前月の平均ターゲット値または前月の週平均ターゲット値を計算します。

たとえば、sales (last month average baseline)で前月の平均ターゲット値、sale (last month weekly average)で前月の同じ週の週平均ターゲット値、sales (match end of month) (last month weekly average)で前月の同じ週(月末に合わせて)の週平均ターゲット値を計算するとします。 データセットで乗法が検出された場合は、平均値が計算された後に対数変換が適用されます。

タグ:

  • 数値
  • ナイーブ/ベースライン

例:

sales (last month average baseline)
sales (last month weekly average)
sales (match end of month) (last month weekly average)
sales (last month average baseline) (log)
sales (last month weekly average) (log)
sales (match end of month) (last month weekly average) (log)

<target> (last month <fraction_strategy>)

表記パターン:

<target> (last month fraction empty)

<target> (match end of month) (last month weekly fraction empty)

<target> (last month fraction equal <label>)

<target> (match end of month) (last month weekly fraction equal <label>)

説明:

特徴量は、ターゲットがと等しいかどうかを比較するブールフラグの割合を計算しますラベルが空の場合はが使用されます。前月に含まれるすべての行が、割合の計算に使用されます。

タグ:

  • 二値

例:

sales (last month fraction empty)
sales (match end of month) (last month weekly fraction empty)
sales (last month fraction equal True)
sales (match end of month) (last month weekly fraction equal True)

<target> (last month weekly <fraction>)

表記パターン:

<target> (last month weekly fraction empty)

<target> (last month weekly fraction equal <label>)

説明:特徴量は、ターゲットがと等しいかどうかを比較するブール型フラグの割合を計算します

タグ:

  • 二値

例:

sales (last month weekly fraction empty)
sales (last month weekly fraction equal True)

<target> (naive binary) (match_and_fraction )

表記パターン:

<target> (naive binary) (last month fraction empty)

<target> (naive binary) (last month weekly fraction empty)

<target> (naive binary) (match end of month) (last month weekly fraction empty)

<target> (naive binary) (last month fraction equal <label>)

<target> (naive binary) (last month weekly fraction equal <label>)

<target> (naive binary) (match end of month) (last month weekly fraction equal <label>)

説明:特徴量の値は、「ナイーブ二値」なしの特徴量と同じになります(たとえば、<target> (naive binary) (last month fraction empty)とは同じ値です<target> (last month fraction empty))。違いは、ナイーブな二値予測に使用できることです。

タグ:

  • 二値
  • ナイーブ/ベースライン

例:

is_raining (naive binary) (last month fraction empty)
is_raining (naive binary) (last month weekly fraction empty)
is_raining (naive binary) (match end of month) (last month weekly fraction empty)
is_raining (naive binary) (last month fraction equal True)
is_raining (naive binary) (last month weekly fraction equal True)<
is_raining (naive binary) (match end of month) (last month weekly fraction equal True)

<target> (naive binary) (<window> <time_unit> <fraction>

表記パターン:

<target> (naive binary) (<window> <time_unit> fraction empty)

<target> (naive binary) (<window> <time_unit> fraction equal <label>)

説明:特徴量の値は、「ナイーブ二値」なしの特徴量と同じになります(たとえば、<target> (naive binary) (<window> <time_unit> fraction empty)とと同じ値です<target> (<window> <time_unit> fraction empty))。違いは、ナイーブな二値予測に使用できることです。

タグ:

  • 二値
  • ナイーブ/ベースライン

例:

is_raining (naive binary) (35 day fraction equal True)
is_raining (naive binary) (35 day fraction equal empty)

<target> (<window> <time_unit> mean baseline)

説明:特徴量はと同じになります<target> (<window> <time_unit> mean)。違いは、ナイーブ予測に使用できることです。

タグ:

  • 数値

例:

sales (7 day mean baseline)


<target> (last month weekly average baseline)

説明:特徴量は、<target> (last month weekly average)``</span> and <code>(月の終わりに一致)(先月の週平均)の間の平均を計算します。たとえば、sales (last month weekly average)sales (last month weekly average)(先月/同週の平均売上高)とsales (match end of the month) (last month weekly average)(先月/同週の平均売上高で、週数は月末から開始)の平均です。

タグ:

  • 数値

例:

sales (last month weekly average baseline)

<primary_date> (<naive_boolean>)

表記パターン:

<primary_date> (No History Available)

<primary_date> (naive <period> prediction is missing)

<primary_date> (naive 1 month prediction is missing)

<primary_date> (match end of month) (naive 1 month prediction is missing)

<primary_date> (match weekday from start of month) (naive 1 month prediction is missing)

<primary_date> (match weekday from end of month) (naive 1 month prediction is missing)

説明:対応するナイーブ予測が欠損しているかどうかを指定するブールフラグ型特徴量。たとえば、_先週_の金曜日に店が閉まっていた場合、_今_週の金曜日の7日間のナイーブ予測は欠損します。この場合、ブール型特徴量値は今週の金曜日でtrueになります。これらのブール特徴量のそれぞれは、さまざまなナイーブ予測に関連しています。<primary_date> (No History Available)は最新のナイーブ予測に関連していますが、残りのブール特徴量はさまざまなタイプの季節的なナイーブ予測に関連しています。

タグ:

  • 数値
  • 複数系列

例:

date (No History Available) date (naive 7 day prediction is missing) date (naive 1 month prediction is missing) date (match end of month) (naive 1 month prediction is missing) date (match weekday from start of month) (naive 1 month prediction is missing) date (match weekday from end of month) (naive 1 month prediction is missing)

<target_derived> (diff <strategy>)

表記パターン:

<target_derived> (diff <window> <time_unit> mean)

<target_derived> (diff last month weekly mean)

<target_derived> (diff last month mean)

説明:特徴量は、ターゲット派生特徴量とベースライン特徴量の差を計算します。例: • sales (1st lag) (diff 7 day mean)sales (1st lag)sales (7 day mean baseline)の差分です。 • sales (35 day max) (diff last month weekly mean)sales (35 day meax)sales (last month weekly average baseline)の差分です。 • sales (7 day mean) (diff last month mean)sales (7 day mean)との差分ですsales (last month average baseline)

タグ:

  • 数値

例:

sales (1st lag) (diff 7 day mean)
sales (35 day max) (diff last month weekly mean)
sales (7 day mean) (diff last month mean)

<date> (<time_unit>s between 1st forecast distance and last observable row)

説明:特徴量は、最初の予測距離の日付/時刻と、特徴量派生ウィンドウの最終行の日付/時刻との時間差(時間単位の整数値)を計算します。

タグ:

  • 数値
  • 行ベース

例:

date (days between 1st forecast distance and last observable row)


更新しました February 22, 2022
Back to top