Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時系列特徴量の派生

以下の表は、時系列モデリングデータセットを作成するための特徴量派生のプロセス(使用した演算子や作成される特徴量名)を示しています。 追加情報については、以下の説明を参照してください。

プロセスの概要

新しい特徴量を派生するとき、DataRobotは各特徴量を0個以上のプリプロセッサに渡し(一部の特徴量は前処理されません)、結果を1つ以上の抽出子に渡し、最後にポストプロセッサに渡します。

プリプロセッサは実行されるだけですが、ターゲット、日付、およびテキスト列(特徴量列なし)ではこの手順をスキップできます。

      データセット --> プリプロセッサ --> 抽出子 --> ポストプロセッサ --> 最終

特徴量列は入力から抽出子またはポストプロセッサに移動します。

      データセット --> 抽出子 --> ポストプロセッサ --> 最終

      データセット --> 抽出子 --> 最終

より詳細には、DataRobotは:

  1. EDA1の時、日付特徴量に特徴量の自動変換を適用します。これらの特徴量は、以下で説明するEDA2の特徴量派生プロセスから除外されます。元の特微量のみがプロセスを経由します(変換された特徴量はそれ以上変換されません)。
  2. プリプロセッサ(CrossSeriesBinaryPreprocessor、NextEventType、Transformなど)を適用します。
  3. ターゲット、日付、またはテキスト特徴量の「中間特徴量」(前処理が適用されたが、後処理が適用されるまで完了することのない特徴量)を作成します。 たとえば、Sales (log)は最終のSales (log) (diff) (14 day min)に至る中間ステップであり、それ自体は有効な特徴量ではありません。
  4. 抽出子のステップを使用して、元のデータセットまたは中間特徴量からの入力を消費します。 ポストプロセッサ(次のステップ)は、この出力を入力として使用します。
  5. 抽出子の結果に後処理を適用し、モデリングに使用する「最終特徴量」を作成します。

クイックリファレンスの特徴量生成の視覚的表現を参照してください。

特徴量リファレンス

以下に、派生プロセスの全般的な概要を示します。

サンプル入力データセット

日付 ターゲット
1/1/20 1
2/1/20 2
3/1/20 3

結果の時系列モデリングデータセット

日付(実測値) ターゲット(実測値) 予測距離
1/1/20 1 1
2/1/20 2 1
3/1/20 3 1
1/1/20 1 2
2/1/20 2 2
3/1/20 3 2

ターゲットから派生した特徴量の例

数値特徴量の例

カテゴリー特徴量の例

テキスト特徴量の例

日付特徴量の例

特徴量の型

特徴量の派生は、その型に基づいて特徴量に作用します。 以下の例と説明では、これらの特徴量(<target>など)を使用して相互作用を説明します。

コンポーネント 説明
(中間)
(最終)
プロジェクト開始時に予測する特徴量として選択された特徴量。
(最後) 日付またはテキスト型ではないデータセットの特徴量またはターゲット列。 特徴量が数値型の場合、処理はターゲットに対して行われる処理と同じです。特徴量がカテゴリー型の場合は、違いがあります(以下の表を参照)。 DataRobotでは、ターゲット以外の特徴量に前処理は適用されません。
(中間)
(最終)
プロジェクト開始時に時間認識モデリングを有効にするために選択されたプライマリー日付/時刻型特徴量。
(中間)
(最終)
EDA1中に自動的に変換された特徴量以外のプライマリー日付/時刻型特徴量ではない日付型特徴量。
(中間) テキスト列。

表には、以下に関する情報が含まれています。

  • 特徴量名のパターン — 特徴量の型とその後のパターンタグ(特徴量が元のアップロードされたデータセットに基づく場合は「実測値」)。 これは、すべての変換が完了した後の結果の特徴量名です(<target> (diff)など)。
  • タグ — 特徴量の特性。
  • 後処理された特徴量の例。

中間特徴量

以下のセクションでは、ターゲット、プライマリー日付、日付、およびテキスト型特徴量に作成される中間特徴量について詳しく説明します。

以下のセクションでは、ターゲット特徴量の各名前パターンを示します。


<target> (log)

説明:対数変換されたターゲット。

プロジェクトタイプ:連続値、乗法トレンド

タグ:

  • ターゲット派生
  • 数値
  • 乗法

例:

    sales (log) (naive latest value)
    sales (log) (diff) (1st lag)
    sales (log) (7 day diff) (35 day max)
    sales (log) (1 month diff) (2nd lag) 

<target> (diff)

説明:現在の値と前の単一の時間ステップ値との差を計算することによって作成され、差分変換されたターゲット。 時間ステップは、アップロードされたデータセットの間隔に基づいています。 例:四半期ごとのデータセットには、3か月の時間ステップがあります。

プロジェクトタイプ:連続値、非定常

タグ:

  • ターゲット派生
  • 数値
  • 定常性

例:

sales (diff) (1st lag)
sales (diff) (7 day mean) 

<target> (<period> diff)

説明:現在の値と前の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:連続値、季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (7 day diff) (1st lag)
sales (7 day diff) (14 day mean) 

<target> (1 month diff)

説明:現在の値と前の月(同じ日)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:連続値、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month diff) (35 day mean)
sales (1 month diff) (1st lag) 

<target> (1 month match end diff)

説明:現在の値と前月(月末に合わせて)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:連続値、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match end diff) (2nd lag)
sales (1 month match end diff) (35 day max) 

<target> (1 month match weekly diff)

説明:現在の値と前の月(月の週と平日に合わせて)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:連続値、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match weekly diff) (3th lag)
sales (1 month match weekly diff) (35 day mean) 

<target> (1 month match weekly diff from end)

説明:現在の値と前の月の値(平日と「月末からの月の週」に合わせて)の値との差を計算することによって作成され、差分変換されたターゲット。

プロジェクトタイプ:連続値、月内季節性

タグ:

  • ターゲット派生
  • 数値
  • 季節的

例:

sales (1 month match weekly diff from end) (2nd lag)
sales (1 month match weekly diff from end) (35 day min) 

<target> (total)

説明:すべての系列にまたがる指定された時間の合計ターゲット。

プロジェクトタイプ:交差系列の連続値、総集計

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (total) (2nd lag)
sales (total) (35 day mean)
sales (total) (3rd lag) (diff 35 day mean)
sales (total) (7 day diff) (35 day mean) 

<target> (weighted total)

説明:すべての系列にまたがる指定された時間の加重合計ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted total) (2nd lag)
sales (weighted total) (35 day mean)
sales (weighted total) (3rd lag) (diff 35 day mean)
sales (weighted total) (7 day diff) (35 day mean) 

<target> (<groupby> total)

説明:同じユーザー指定グループ内のすべての系列にまたがる指定された時間の合計ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、ユーザー指定のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region total) (2nd lag)
sales (region total) (35 day mean)
sales (region total) (3rd lag) (diff 35 day mean)
sales (region total) (7 day diff) (35 day mean) 

<target> (<groupby> weighted total)

説明:同じユーザー指定グループ内のすべての系列にまたがる指定された時間の加重合計ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、ユーザー指定のグループ別特徴量、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted total) (2nd lag)
sales (region weighted total) (35 day mean)
sales (region weighted total) (3rd lag) (diff 35 day mean)
sales (region weighted total) (7 day diff) (35 day mean) 

<target> (average)

説明:すべての系列にまたがる指定された時間のターゲット平均。

プロジェクトタイプ:交差系列の連続値、平均集計

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (average) (2nd lag)
sales (average) (35 day mean)
sales (average) (3rd lag) (diff 35 day mean)
sales (average) (7 day diff) (35 day mean) 

<target> (weighted average)

説明:すべての系列にまたがる指定された時間の加重ターゲット平均。

プロジェクトタイプ:交差系列の連続値、平均集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted average) (2nd lag)
sales (weighted average) (35 day mean)
sales (weighted average) (3rd lag) (diff 35 day mean)
sales (weighted average) (7 day diff) (35 day mean) 

<target> (<groupby> average)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲット平均。

プロジェクトタイプ:交差系列の連続値、平均集計、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region average) (2nd lag)
sales (region average) (35 day mean)
sales (region average) (3rd lag) (diff 35 day mean)
sales (region average) (7 day diff) (35 day mean) 

<target> (<groupby> weighted average)

説明:同じグループ内のすべての系列にまたがる指定された時間の加重ターゲット平均。

プロジェクトタイプ:交差系列の連続値、合計集計、ユーザー指定のグループ別特徴量および加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted average) (2nd lag)
sales (region weighted average) (35 day mean)
sales (region weighted average) (3rd lag) (diff 35 day mean)
sales (region weighted average) (7 day diff) (35 day mean) 

<target> (proportion)

説明:すべての系列にまたがるターゲットの比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (proportion) (1st lag)
sales (proportion) (14 day mean)
sales (proportion) (30 day max) (diff 7 day mean)
sales (proportion) (7 day diff) (1st lag)
sales (proportion) (7 day diff) (30 day min) 

<target> (weighted proportion)

説明:すべての系列にまたがるターゲットの加重比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (weighted proportion) (1st lag)
sales (weighted proportion) (14 day mean)
sales (weighted proportion) (30 day max) (diff 7 day mean)
sales (weighted proportion) (7 day diff) (1st lag)
sales (weighted proportion) (7 day diff) (30 day min) 

<target> (<groupby> proportion)

説明:同じグループ内のすべての系列にまたがるターゲットの比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 数値
  • 交差系列

例:

sales (region proportion) (naive latest value)
sales (region proportion) (2nd lag)
sales (region proportion) (7 day mean)
sales (region proportion) (1st lag) (diff 7 day mean)
sales (region proportion) (7 day diff) (1st lag)
sales (region proportion) (7 day diff) (30 day min) 

<target> (<groupby> weighted proportion)

説明:同じグループ内のすべての系列にまたがるターゲットの加重比率を指定した数値ターゲット。

プロジェクトタイプ:交差系列の連続値、合計集計、負でないターゲット、タイムスタンプ全体で十分に一貫した系列の存在、ユーザー指定の交差系列のグループ別特徴量と加重

タグ:

  • ターゲット派生
  • 数値
  • 交差系列
  • 加重

例:

sales (region weighted proportion) (naive latest value)
sales (region weighted proportion) (2nd lag)
sales (region weighted proportion) (7 day mean)
sales (region weighted proportion) (1st lag) (diff 7 day mean)
sales (region weighted proportion) (7 day diff) (1st lag)
sales (region weighted proportion) (7 day diff) (30 day min) 

<target> (total equal <label>)

説明:すべての系列にまたがる、指定された時間の

プロジェクトタイプ:交差系列分類、合計集計

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

`is_zero_sales (total equal 1) (1st lag)`

<target> (weighted total equal <label>)

説明:すべての系列にまたがる指定された時間のターゲットの加重合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (weighted total equal 1) (1st lag)
is_zero_sales (weighted total equal 1) (1st lag) (diff 35 day mean) 

<target> (<groupby> total equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間でのターゲットの合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定のグループ別特徴量

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (region total equal 1) (1st lag)
is_zero_sales (region total equal 1) (1st lag) (diff 35 day mean) 

<target> (<groupby> weighted total equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの加重合計と<label>の一致で、ブール型フラグ。

プロジェクトタイプ:交差系列分類、合計集計、ユーザー指定の交差系列グループ別の特徴量と加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (region weighted total equal 1) (1st lag)
is_zero_sales (region weighted total equal 1) (1st lag) (diff 35 day mean) 

<target> (fraction equal <label>)

説明:すべての系列にまたがる指定された時間のターゲット平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (fraction equal 1) (1st lag)
is_zero_sales (fraction equal 1) (1st lag) (diff 35 day mean) 

<target> (weighted fraction equal <label>)

説明:すべての系列にまたがる指定された時間のターゲットの加重平均と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

is_zero_sales (weighted fraction equal 1) (3rd lag)
is_zero_sales (weighted fraction equal 1) (3rd lag) (diff 35 day mean) 

<target> (<groupby> fraction equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列分類、平均集計、ユーザー指定の交差系列のグループ別特徴量

タグ:

  • ターゲット派生
  • 二値
  • 交差系列

例:

is_zero_sales (region fraction equal 1) (3rd lag)
is_zero_sales (region fraction equal 1) (3rd lag) (diff 35 day mean) 

<target> (<groupby> weighted fraction equal <label>)

説明:同じグループ内のすべての系列にまたがる指定された時間のターゲットの加重平均値と<label>の一致(割合とも呼ばれる)ブール型フラグ。

プロジェクトタイプ:交差系列の二値、平均集計、ユーザー指定の交差系列のグループ別特徴量と加重

タグ:

  • ターゲット派生
  • 二値
  • 交差系列
  • 加重

例:

is_zero_sales (region weighted fraction equal 1) (3rd lag)
is_zero_sales (region weighted fraction equal 1) (3rd lag) (diff 35 day mean) 

<target> (is zero)

説明:ターゲットがゼロに等しいかどうかを示すブール型フラグ(ゼロ過剰ツリーベースモデルで使用)。

プロジェクトタイプ:連続値、最小ターゲットはゼロに等しい

タグ:

  • ターゲット派生
  • 数値
  • ゼロ過剰

例:

sales (is zero) (1st lag)
sales (is zero) (7 day fraction equal 1)
sales (is zero) (naive binary) (35 day fraction equal 1)
sales (is zero) (1st lag) (diff 35 day mean) 

<target> (nonzero)

説明:ゼロターゲット値を欠損値で置き換えます(ゼロ過剰ツリーベースモデルで使用)。

プロジェクトタイプ:連続値、最小ターゲットはゼロに等しい

タグ:

  • ターゲット派生
  • 数値
  • ゼロ過剰

例:

sales (nonzero) (log) (1st lag) (diff 35 day mean)
sales (nonzero) (7 day max) (log) (diff 35 day mean)
sales (nonzero) (35 day average baseline) (log) 

<target> (<time_unit> aggregation)

説明:ターゲットデータをより大きな時間単位で集計します(時間階層モデルで使用)。

プロジェクトタイプ:連続値

タグ:

  • ターゲット派生
  • 数値

例:

sales (week aggregation) (actual)


<target> (weighted <time_unit> aggregation)

説明:より大きな時間単位で集計された加重ターゲットデータ(時間階層モデルで使用)。

プロジェクトタイプ:連続値、ユーザー指定の加重

タグ:

  • ターゲット派生
  • 数値

例:

sales (weighted week aggregation) (actual)

以下のセクションでは、プライマリー日付/時刻型特徴量の各名前パターンを示します。


<primary_date> (previous calendar event type)

説明:前のカレンダーイベントの値。 たとえば、カレンダーファイルに2つのイベント(クリスマスと新年)がある場合、12月25日から1月1日までのすべての観測値で、前のカレンダーイベントタイプは「クリスマス」に等しくなります。1月1日から12月25日までのすべての観測値の特徴量は「新年」に等しくなります。以前の値がない場合、特徴量はnullになります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (previous calendar event type) (actual)


<primary_date> (next calendar event type)

説明:次のカレンダーイベントの値。 たとえば、カレンダーファイルに2つのイベント(クリスマスと新年)がある場合、12月25日から1月1日までのすべての観測値では、次のカレンダーイベントタイプは「新年」に等しくなります。1月1日から12月25日までのすべての観測値の特徴量は「クリスマス」に等しくなります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (previous calendar event type) (actual)


<primary_date> (calendar event type <N> day(s) before)

説明:観測日のN日前のカレンダーイベントを指定した特徴量。 たとえば、観測日が12月27日の場合、特徴量date (calendar event type 2 days before) (actual)は「クリスマス」に等しくなります。特徴量date (calendar event type 1 days before) (actual)はnullになります。

カレンダーファイルでイベントタイプが指定されていない場合、この特徴量は(1)または(0)の値を取り、N日前にカレンダーイベントがあるかどうかを指定します。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day before) (actual)
date (calendar event type 2 days before) (actual) 

<primary_date> (calendar event type <N> day(s) after)

説明:観測日のN日後のカレンダーイベントを指定した特徴量。 たとえば、観測日が12月23日の場合、特徴量date (calendar event type 2 days after) (actual)は「クリスマス」に等しくなります。特徴量date (calendar event type 3 days after) (actual)はnullになります。

カレンダーファイルでイベントタイプが指定されていない場合、この特徴量は(1)または(0)の値を取り、N日後にカレンダーイベントがあるかどうかを指定します。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (days from previous calendar event) (actual)


<primary_date> (<time_unit>(s) from previous calendar event)

説明:既知のカレンダーイベント以降の時間単位数を指定した数値型特徴量。 時間単位は、データセットの時間ステップによって異なります(たとえば、毎日のデータセットの場合、時間単位は日数です)。 たとえば、観測日が12月28日の場合、この特徴量は3(日数)に等しくなります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day after) (actual)
date (calendar event type 2 days after) (actual) 

<primary_date> (<time_unit>(s) to next calendar event)

説明:次の既知のカレンダーイベントまでの時間単位数を指定した数値型特徴量。 時間単位は、データセットの時間ステップによって異なります(たとえば、毎日のデータセットの場合、時間単位は日数です)。 たとえば、観測日が12月30日の場合、この特徴量は5(日数)に等しくなります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type 1 day after) (actual)
date (calendar event type 2 days after) (actual)  

<primary_date> (calendar event type)

説明:観測日と同じ日に発生するカレンダーイベントを指定します。 たとえば、観測日が12月25日の場合、特徴量は「クリスマス」に等しくなります。12月26日の場合、この特徴量はnullになります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event type) (actual)


<primary_date> (calendar event)

説明:日付にカレンダーイベントがあるかどうかを指定します。 値は、観測日と同じ日にカレンダーイベントがある場合は(1)、それ以外の場合は(0)になります。

プロジェクトタイプ:アップロードされたイベントカレンダー

タグ:

  • 日付
  • カレンダー

例:

date (calendar event) (actual)


<primary_date> (hour of week)

説明:プライマリー日付の(曜日*24 + 時間)に等しい。 結果は、同じ週の初めから終わりまでの時間数になります。

プロジェクトタイプ:検出された週の季節性、24時間の季節性

タグ:

  • 日付

例:

date (hour of Week) (actual)


<primary_date> (common event)

説明:プライマリー日付が存在するかどうかを指定します。 たとえば、月曜日から金曜日のデータセットの場合、月曜日から金曜日までの間のプライマリー日付を持つすべてのサンプル値がTrueになります。 週末のプライマリー日付を持つサンプル値はFalseになります。

プロジェクトタイプ:特定の曜日または時間帯(月曜日から金曜日のデータセットなど)でのサンプル値の規則的な欠損

タグ:

  • 日付

例:

date (common event) (actual)

以下のセクションは、日付(プライマリー以外の日付/時刻型特徴量)の各名前パターンをまとめています。


<date> (<time_unit>s from <primary_date>)

説明:入力日付特徴量からプライマリー日付/時刻特徴量までの時間単位数を指定した数値型特徴量。 このプリプロセッサの出力は数値型特徴量になります。 入力は日付型特徴量です。

プロジェクトタイプ:情報が乏しくなく、かつプライマリー以外の日付/時刻の特徴量が少なくとも1つ(両方の条件を満たす少なくとも1つの特徴量)。

タグ:

  • 日付

例:

due_date (days from date) (1st lag)
due_date (days from date) (7 day mean) 

以下のセクションでは、テキスト型特徴量の各名前パターンをまとめています。


<text> Length

説明:テキスト列の文字数を指定した数値型特徴量。 このプリプロセッサの出力は数値型特徴量になります。 入力はテキスト特徴量です。

プロジェクトタイプ:数値型。少なくとも1つの情報の乏しくないテキスト入力

タグ:

  • テキスト

例:

(description Length) (1st lag)
(description Length) (7 day mean) 

最終特徴量

以下のセクションでは、特徴量エンジニアリングプロセス中に、ターゲットのみ、特徴量/ターゲット/中間、プライマリー日付/時刻特徴量を使用して作成した最終特徴量について詳しく説明します。

以下のセクションでは、ターゲット、ターゲット以外の特徴量、または中間特徴量のいずれかの特徴量の各名前パターンを示します。


<feature_or_target_or_intermediate> (actual)

説明:特定の日付について、元のデータセットと同じ値を持つ単純なパススルー特徴量。 これらの特徴量は事前に既知と見なされ、そのままデータセットから派生データセットにコピーできます。 ターゲット以外の特徴量では、予測時に特徴量が使用可能である場合に使用されます。 例としては、日付、日付派生、カレンダー、またはユーザー指定の事前に既知(事前)特徴量があります。 ターゲットまたは派生ターゲット列の場合、モデルに適合するターゲットとして使用されます。

タグ:

  • 事前に既知
  • カレンダー
  • 日付派生
  • ターゲット
  • ターゲット派生

例:

sales (actual)
date (actual)
date (Month of Year) (actual)
date (calendar event) (actual)
sales (actual)
sales (week aggregation) (actual) 

<feature_or_target_or_intermediate> (<N> lag)

説明:特徴量は特徴量派生ウィンドウでN番目に最新の値を抽出します。 プロジェクトのラグの最小数は1です。予測距離がゼロのプロジェクトの場合(FDW=[-n, 0]およびFW=[0])、特徴量派生ウィンドウの最後の値は予測ポイントでの値なので、最初のラグは予測ポイントで既知の実測値と同等になります。

タグ:

  • Lag

例:

``` 
sales (2nd lag)
sales (region average) (1st lag)
sales (region total) (4th lag)
sales (diff 7 day) (2nd lag) 
```

<feature_or_target_or_intermediate> (<window> <time_unit> <categorical_method>)

説明:特徴量は、<window> <time_unit>特徴量派生ウィンドウの最新のカテゴリー統計を抽出します。 カテゴリー統計には「most_frequent」(最も頻度の高いアイテムを返す)、「n_unique」(一意の値の数を返す)および「entropy」(不確実性の尺度)が含まれます。

タグ:

  • カテゴリー

例:

product_type (7 day most_frequent)
product_type (7 day n_unique)
product_type (7 day entropy) 

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <categorical_method>)

説明:特徴量は、特徴量派生ウィンドウの最新の<window> <time_unit>内の同じ期間のカテゴリー統計を抽出します。 カテゴリー統計には「most_frequent」(最も頻度の高いアイテムを返す)、「n_unique」(一意の値の数を返す)および「entropy」(不確実性の尺度)が含まれます。 たとえば、特徴量product_type (same weekday) (35 day entropy)は過去5週間の予測ポイントに等しい平日のproduct_typeのエントロピーを計算します。

タグ:

  • カテゴリー

例:

product_type (same weekday) (35 day most_frequent)
product_type (same weekday) (35 day n_unique)
product_type (same weekday) (35 day entropy) 

<feature_or_target_or_intermediate> (<window> <time_unit> <fraction>)

名前パターン:

<feature_or_target_or_intermediate> (<window> <time_unit> fraction empty)

<feature_or_target_or_intermediate> (<window> <time_unit> fraction equal <label>)

説明:特徴量は<feature> equals <label>の割合を計算します。 <label>が空の文字列の場合、<feature> equals <label>は特徴量派生ウィンドウの最新の<window> <time_unit>内のfraction emptyになります。 たとえば、is_raining (7 day fraction empty)は過去7日間の空の文字列に等しいis_raining特徴量の割合を計算します。

タグ:

  • 二値

例:

is_holiday (35 day fraction equal True)
is_raining (7 day fraction equal empty) 

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <fraction>)

名前パターン:

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> fraction empty)

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> fraction equal <label>)

説明:特徴量は<feature> equals <label>の割合を計算します。 <label>が空の文字列の場合、<feature> equals <label>は特徴量派生ウィンドウの最新の<window> <time_unit>内の同じ期間のfraction emptyになります。 たとえば、is_raining (same weekday) (35 day fraction equal True)は過去35日間のtrueに等しいis_raining特徴量の割合を計算します。

タグ:

  • 二値

例:

is_raining (same weekday) (35 day fraction equal True)
is_holiday (same weekday) (35 day fraction equal empty) 

<feature_or_target_or_intermediate> (<window> <time_unit> <method>)

説明:特徴量は特徴量派生ウィンドウの最新の<window> <time_unit>内の数値統計<method>を計算します。 数値統計には、「最大」、「最小」、「平均」、「中央値」、「標準」、および「ロバストZスコア」があります。

タグ:

  • 数値

例:

sales (7 day max)
sales (7 day min)
sales (7 day mean)
sales (7 day median)
sales (7 day std) 

<feature_or_target_or_intermediate> (same <matching_period>) (<window> <time_unit> <method>)

説明:特徴量は特徴量派生ウィンドウの最新の<window> <time_unit>内の同じ期間の<method>を計算します。 たとえば、特徴量sales (same weekday) (35 day mean)は過去35日間の同じ平日のsalesの平均値を計算します。

タグ:

  • 数値

例:

sales (same weekday) (35 day max)
sales (same weekday) (35 day min)
sales (same weekday) (35 day mean)
sales (same weekday) (35 day median) 

以下のセクションでは、ターゲットのみの特徴量の各名前パターンをまとめています。


<target> (naive or match) <strategy>

名前パターン:

<target> (naive latest value)

<target> (naive <period> seasonal value)

<target> (naive 1 month seasonal value)

<target> (match end of month) (naive 1 month seasonal value)

<target> (match weekday from start of month) (naive 1 month seasonal value)

<target> (match weekday from end of month) (naive 1 month seasonal value)

説明:特徴量は、さまざまな戦略に基づいて将来を予測するために、履歴から値を選択します。 最新のナイーブ予測では、最新の履歴値を使用して予測ウィンドウの行を予測します。 季節的なナイーブ予測では、履歴の中から前シーズンのターゲット値を抽出して予測します。 たとえば、月曜から金曜までのデータセットの場合、月曜における最新のナイーブ予測では、先週の金曜のターゲット値を月曜の予測値として使用します。 7日間のナイーブ予測では、先週の月曜日のターゲット値を使用します。 データセットで乗法トレンドが検出された場合、ナイーブ予測は対数スケールになります。

タグ:

  • 数値
  • ナイーブ/ベースライン

例:

sales (naive latest value)
sales (naive 7 day seasonal value)
sales (naive 1 month seasonal value)
sales (match end of month) (naive 1 month seasonal value)
sales (match weekday from start of month) (naive 1 month seasonal value)
sales (match weekday from end of month) (naive 1 month seasonal value)
sales (log) (naive latest value)
sales (log) (naive 7 day seasonal value)
sales (log) (naive 1 month seasonale value)
sales (log) (match end of month) (naive 1 month seasonal value)
sales (log) (match weekday from start of month) (naive 1 month seasonal value)
sales (log) (match weekday from end of month) (naive 1 month seasonal value) 

<target> (last month <strategy>)

名前パターン:

<target> (last month average baseline)

<target> (last month weekly average)

<target> (match end of month) (last month weekly average)

説明:特徴量は、予測ポイントに関して、前月の平均ターゲット値、または前月の週平均ターゲット値を計算します。

たとえば、sales (last month average baseline)で前月の平均ターゲット値、sale (last month weekly average)で前月の同じ週の週平均ターゲット値、sales (match end of month) (last month weekly average)で前月の同じ週(月末に合わせて)の週平均ターゲット値を計算するとします。 データセットで乗法が検出された場合は、平均値が計算された後に対数変換が適用されます。

タグ:

  • 数値
  • ナイーブ/ベースライン

例:

sales (last month average baseline)
sales (last month weekly average)
sales (match end of month) (last month weekly average)
sales (last month average baseline) (log)
sales (last month weekly average) (log)
sales (match end of month) (last month weekly average) (log) 

<target> (last month <fraction_strategy>)

名前パターン:

<target> (last month fraction empty)

<target> (match end of month) (last month weekly fraction empty)

<target> (last month fraction equal <label>)

<target> (match end of month) (last month weekly fraction equal <label>)

説明:

特徴量は、ターゲットが

タグ:

  • 二値

例:

sales (last month fraction empty)
sales (match end of month) (last month weekly fraction empty)
sales (last month fraction equal True)
sales (match end of month) (last month weekly fraction equal True) 

<target> (last month weekly <fraction>)

名前パターン:

<target> (last month weekly fraction empty)

<target> (last month weekly fraction equal <label>)

説明:特徴量は、ターゲットが

タグ:

  • 二値

例:

sales (last month weekly fraction empty)
sales (last month weekly fraction equal True) 

<target> (naive binary) (match_and_fraction )

名前パターン:

<target> (naive binary) (last month fraction empty)

<target> (naive binary) (last month weekly fraction empty)

<target> (naive binary) (match end of month) (last month weekly fraction empty)

<target> (naive binary) (last month fraction equal <label>)

<target> (naive binary) (last month weekly fraction equal <label>)

<target> (naive binary) (match end of month) (last month weekly fraction equal <label>)

説明:特徴量の値は、「ナイーブ二値」なしの特徴量と同じになります(たとえば、<target> (naive binary) (last month fraction empty)<target> (last month fraction empty)は同じ値です)。 違いは、ナイーな二値予測に使用できることです。

タグ:

  • 二値
  • ナイーブ/ベースライン

例:

is_raining (naive binary) (last month fraction empty)
is_raining (naive binary) (last month weekly fraction empty)
is_raining (naive binary) (match end of month) (last month weekly fraction empty)
is_raining (naive binary) (last month fraction equal True)
is_raining (naive binary) (last month weekly fraction equal True)<
is_raining (naive binary) (match end of month) (last month weekly fraction equal True) 

<target> (naive binary) (<window> <time_unit> <fraction>

名前パターン:

<target> (naive binary) (<window> <time_unit> fraction empty)

<target> (naive binary) (<window> <time_unit> fraction equal <label>)

説明:特徴量の値は、「ナイーブ二値」なしの特徴量と同じになります(たとえば、<target> (naive binary) (<window> <time_unit> fraction empty)<target> (<window> <time_unit> fraction empty)と同じ値です)。 違いは、ナイーな二値予測に使用できることです。

タグ:

  • 二値
  • ナイーブ/ベースライン

例:

is_raining (naive binary) (35 day fraction equal True)
is_raining (naive binary) (35 day fraction equal empty) 

<target> (<window> <time_unit> mean baseline)

説明:特徴量は<target> (<window> <time_unit> mean)と同じになります。 違いは、ナイーブ予測に使用できることです。

タグ:

  • 数値

例:

sales (7 day mean baseline)


<target> (last month weekly average baseline)

説明:特徴量は、<target> (last month weekly average)``</span>と<code> (match end of the month) (last month weekly average)`</span>間の平均を計算します。</br> たとえば、sales (last month weekly average)sales (last month weekly average)(先月/同週の平均売上高)とsales (match end of the month) (last month weekly average)`(先月/同週の平均売上高で、週数は月末から開始)の平均です。

タグ:

  • 数値

例:

sales (last month weekly average baseline)

<primary_date> (<naive_boolean>)

名前パターン:

<primary_date> (No History Available)

<primary_date> (naive <period> prediction is missing)

<primary_date> (naive 1 month prediction is missing)

<primary_date> (match end of month) (naive 1 month prediction is missing)

<primary_date> (match weekday from start of month) (naive 1 month prediction is missing)

<primary_date> (match weekday from end of month) (naive 1 month prediction is missing)

説明:対応するナイーブ予測が欠損しているかどうかを指定するブールフラグ型特徴量。 たとえば、先週の金曜日に店が閉まっていた場合、今週の金曜日の7日間のナイーブ予測は欠損します。 この場合、ブール型特徴量値は今週の金曜日でtrueになります。 これらのブール特徴量のそれぞれは、さまざまなナイーブ予測に関連しています。 <primary_date> (No History Available)は最新のナイーブ予測に関連していますが、残りのブール特徴量はさまざまなタイプの季節的なナイーブ予測に関連しています。

タグ:

  • 数値
  • 複数系列

例:

date (No History Available)
date (naive 7 day prediction is missing)
date (naive 1 month prediction is missing)
date (match end of month) (naive 1 month prediction is missing)
date (match weekday from start of month) (naive 1 month prediction is missing)
date (match weekday from end of month) (naive 1 month prediction is missing) 

<target_derived> (diff <strategy>)

名前パターン:

<target_derived> (diff <window> <time_unit> mean)

<target_derived> (diff last month weekly mean)

<target_derived> (diff last month mean)

説明:特徴量は、ターゲット派生特徴量とベースライン特徴量の差を計算します。 たとえば: • sales (1st lag) (diff 7 day mean)sales (1st lag)sales (7 day mean baseline)の差 • sales (35 day max) (diff last month weekly mean)sales (35 day meax)sales (last month weekly average baseline)の差 • sales (7 day mean) (diff last month mean)sales (7 day mean)sales (last month average baseline)間の差。

タグ:

  • 数値

例:

sales (1st lag) (diff 7 day mean)
sales (35 day max) (diff last month weekly mean)
sales (7 day mean) (diff last month mean) 

<date> (<time_unit>s between 1st forecast distance and last observable row)

説明:特徴量は、特徴量派生ウィンドウの最初の予測距離の日付/時刻と最後の行の日付/時刻との間の時間差(整数の時間単位数)を計算します。

タグ:

  • 数値
  • 行ベース

例:

date (days between 1st forecast distance and last observable row)


更新しました December 5, 2023