特徴量を変換する¶
このセクションでは、ユーザー作成の手動による特徴量変換について説明します。 変換された特徴量によって元の特徴量が置換されることはありません。変換された特徴量は、モデル構築用の新しい追加特徴量として提供されます。
備考
変換された特徴量(ユーザー定義関数として作成された数値特徴量を含む)は、ウェイト、オフセット、エクスポージャー、イベント数などの特殊変数には使用できません。
特徴量の型変換¶
DataRobotは、EDA中に確認された値に基づいて特徴量の型を割り当てます。これらの値はNextGenのさまざまな領域に表示されます。 しかし、特徴量の型を変更する必要がある場合もあるでしょう。 たとえば、市外局番は数値として解釈されますが、カテゴリーとしてマップすることが好ましい場合があります。 または、カテゴリー特徴量が数値としてエンコードされることがあります(1=yes, 2=no などのように特徴量値にマップする場合)。この場合、変換なしでは数値として解釈されます。
特徴量の型変換は、その特徴量の型に適している場合にのみ可能であるため、変換を実行できない場合があります。 これらのケースには、整数値と浮動小数点値の両方に関してDataRobotで特殊列として識別された列が含まれます。 (日付列は特殊なケースであり、変換をサポートしています。)さらに、数値のみ(数値ではない一意の単一値は除く)で構成される列は、特殊なものとして扱われます。 この場合、DataRobotでは、一意の値がNaNに変換され、その値が失われることを防止するために変換が無効化されます。
備考
数値特徴量の型からカテゴリー特徴量に変換する場合、小数点以下の値は切り捨てられることに注意してください。 値は整数に丸められます。 また、欠損値を含む浮動小数点値をカテゴリー特徴量に変換する場合、新しい特徴量に変換されますが、丸め処理は行われません。 たとえば、9.9は10ではなく、9になります。
ヒント
DataRobotで予測を行う場合、予測データに含まれる列は元のデータと同じであることが予期されます。 モデルで元の変数と変換された変数を使用する場合、予測データでは、元の特徴量の名前を使用する必要があります。 DataRobotの内部で派生した特徴量が生成されます。
NextGenで可能な特徴量変換¶
データセット特徴量の変換は、NextGenの次の領域から実行できます。
- ユースケース内のデータ探索ページの特徴量タイル。
- ユースケース内のエクスペリメントの特徴量タイル。
- データレジストリの特徴量セットタブ。
特徴量の変換¶
以下の特徴量変換のワークフローは、NextGen全体で同じです。 特徴量を変換するには:
-
エクスペリメントまたはデータ探索ページの特徴量タイルから、以下のいずれかを実行します。
-
表示されたウィンドウにあるオプションは、特徴量の元の型に基づいています。
要素 説明 1 変換タイプ 変換後の特徴量の新しい型を表示します。 2 新しい特徴量の名前 新しい特徴量の名前を入力するフィールドが提供されます。 デフォルトでは、新しい特徴量の型が追加された既存の特徴量名が使用されます。 3 変換を実行 新しい特徴量を作成します。 新しい特徴量は、元の特徴量の下に表示されます。 要素 説明 1 変換タイプ 変換後の特徴量の新しい型を表示します。 2 新しい特徴量の名前 新しい特徴量の名前を入力するフィールドが提供されます。 デフォルトでは、新しい特徴量の型が追加された既存の特徴量名が使用されます。 3 変換を実行 新しい特徴量を作成します。 新しい特徴量は、元の特徴量の下に表示されます。 要素 説明 1 変換オプション ドロップダウンを使用して、現在の特徴量に使用可能な特徴量型から新しい型を指定します。 DataRobotで数値およびカテゴリー特徴量の型の特定の変換が実行されます。 2 新しい特徴量の名前 新しい特徴量の名前を入力するフィールドが提供されます。 デフォルトでは、新しい特徴量の型が追加された既存の特徴量名が使用されます。 3 変換を実行 新しい特徴量を作成します。 新しい特徴量は、元の特徴量の下に表示されます。 -
特徴量を作成をクリックします。 変換後の特徴量が元の特徴量の下に表示されます。 変換された特徴量は、新しい特徴量セットに含めることやモデリングに使用することができます。 予測用に変換された特徴量を含むモデルを使用する場合、DataRobotはアップロードされたデータセットに新しい特徴量を自動的に含めます。
同じ特徴量から任意の数の変換を作成できます。 デフォルトでは、各変換に一意の名前が適用されます。 間違って作成された重複した特徴量は、重複としてマークされ、処理において無視されます。





