自動変換¶
以下のセクションでは、DataRobotの自動変換について説明します。 変換された特徴量によって元の特徴量が置換されることはありません。変換された特徴量は、モデル構築用の新しい追加特徴量として提供されます。 モデリングプロセスでDataRobotが実行する特徴量の自動変換の詳細については、 モデリングプロセスのドキュメントを参照してください。
備考
変換された特徴量(ユーザー定義関数として作成された数値特徴量を含む)は、ウェイト、オフセット、エクスポージャー、およびイベント数などの特殊な特徴量には使用できません。
特徴量列が日付特徴量の型として識別された場合、EDA1が完了した後、対象特徴量の変換が自動的に作成されます(以下の表を参照)。 処理が完了すると、データセットでは各日付列に最大4つの新しい特徴量を設定できます。
特徴量変数 | 説明 | 特徴量の型 |
---|---|---|
時間 | 24時間表示の数値(0~23)。データには1つ以上の日付列があり、日付フィールドには少なくとも3つの異なる時間が含まれている必要があります。 | 数値 |
曜日 | 曜日を表す数値およびテキスト値。0が月曜日に相当します(0:月曜日、2:水曜日、5土曜日など)。 データには、少なくとも3つの異なる週を含める必要があります。 | カテゴリー |
月の日 | 月の日(1~31)。データには、少なくとも3つの異なる年を含める必要があります。 | 数値 |
月 | 月を表す数値(1-12)。データには、少なくとも3つの異なる年を含める必要があります。 | カテゴリー |
年 | データには、少なくとも3つの異なる年を含める必要があります。 | 数値 |
以下の場合、日付特徴量の自動抽出は行われません。
- データセット内に10個以上の日付および時刻列が存在する。
- 変換された特徴量が有用でない(たとえば、1年分のデータしかない場合、年を抽出する必要はありません)。
- 変換された特徴量が過剰適合するリスクがある(たとえば、1年分のデータがある場合、月でモデリングすると完全な季節的影響を識別できません)。
新しく派生した特徴量は有用な特徴量セットに含まれ、オートパイロットに使用されます。 DataRobotでは、元の日付列も維持されます。 しかし、上記の4つの全ての特徴量(3年以上のデータを含むデータセット)が抽出された場合、元の日付データは「有用な特徴量」セットから除外されることに注意してください。 10年分に相当するデータを含むデータセットの例を以下に示します。 結果として、DataRobotでは、4つの日付列のすべてに対して新しい特徴量が作成されます。
自動変換された日付特徴量のいずれかがデータセット内の既存の特徴量と重複する場合、その日付特徴量は「有用な特徴量」セットには含まれません。 例として、取込み前に製造年「MfgYear」を含む日付型の列をデータセットに追加するとします。 DataRobotでは、変換された特徴量「MfgYear(Year)」に重複のマークが付けられ、「有用な特徴量」セットから除外されます。 ただし、自動変換された特徴量の型が元の列の型と違う場合、その特徴量は「有用な特徴量」セットに含まれます。