交互作用ベースの変換¶
プロジェクトにセカンダリーデータセットがない場合、特徴量探索プロセスは適用されません。 こうしたケースでは、プライマリーデータセットで組み合わせ特徴量を探索する機能を使用すれば、プライマリーデータセットの組み合わせ特徴量に基づく新たな特徴量が自動的に作成されます。
新たに作成されるこれらの特徴量は、モデリングに有益となる可能性のある追加のインサイトを提供します。 たとえば、住宅が販売された年と住宅が建てられた年を提供すると、DataRobotでは、その差分から新しい特徴量を抽出できます。 こうして作成された特徴量(住宅販売日時点の築年数)は、建設日または販売日のいずれかだけの場合よりも高い関連性が期待できます。
EDA2プロセスの一部として実行される組み合わせ特徴量の探索機能では、新しい特徴量だけでなく、デフォルトとカスタムの両方の新しい特徴量セットが作成されます。 新しい特徴量は以下のタブに表示されます。
- 特徴量のインパクト:上位50の最もインパクトの大きい特徴量の場合。
- 特徴量ごとの作用:モデルに対する影響が0を上回っている場合(特徴量の有用性スコアに基づく)。
- 予測の説明:表示された理由に該当する場合
探索で新しい特徴量が作成されない場合(またはこのオプションが高度なオプションで有効化されていない場合)、特徴量のデータページのリストは変更されず、新しい特徴量セットは生成されません。
本機能の提供については注意事項を参照してください。
備考
DataRobotでは、日付型の特徴量で自動特徴量変換を利用できます。 EDA1中に実行され、特徴量の変換セクションの一部であるこの変換では、手動設定は必要ありません。
組み合わせ特徴量の探索¶
プライマリーデータセットで組み合わせ特徴量の探索を有効にするには、ターゲットの選択後に高度なオプションリンクを展開して、その他タブを選択します。 自動化設定セクションで組み合わせ特徴量の探索を選択します。

ページの上部に戻り、開始をクリックします。 EDA2が実行されると、新しく作成された特徴量がデータページに追加されます。 新しい特徴量には、それを作成した操作を示す名前が付けられます。

新しい特徴量の有用性スコアはターゲットに対する関係性の強さを示します。
実行時の効率を改善するために、オートパイロットでは、選択されたブループリントの差異/比率は探索されません。 その理由は、組み合わせ特徴量の探索は、EDA2の段階(オートパイロットが実行される前)で実行され、すでに同様の探索を実行しており、該当する場合は新しい特徴量が追加されているからです。
特徴量セットと作成された特徴量¶
DataRobotに新しい特徴量セット(「有用な特徴量」および該当する場合はカスタム特徴量セット)が新しい特徴量と共に作成され、その特徴量セットにプラス(+)記号が表示されます。 有用な特徴量:

カスタムリスト:

EDA2が完了したときに新しい特徴量が検出および作成された場合、選択されたモデリングモードで新しいセットが使用されてモデルが作成されます。
特徴量セットに関する注意事項:
-
ターゲット特徴量は、すべての特徴量セットに自動的に追加されます。
-
「有用な特徴量」セットでオートパイロットを実行するよう設定されている場合、DataRobotは有用な特徴量 +を作成します。 カスタムセットで実行するよう設定されている場合、DataRobotは<Custom_Features> +と有用な特徴量 +の両方を作成します。
-
カスタムセットの場合、セットの元の内容に対する関連性のある特徴量だけが追加されます。 また、新しいカスタムセットは、新しく派生した特徴量の少なくとも1つの親が元のカスタムセットに含まれる場合にのみ作成されます。
-
有用な特徴量 +に含まれる特徴量の数は、元の特徴量と同じである場合も、異なる場合もあります。 この理由は、古い特徴量から新しい特徴量を派生する場合、両方の特徴量を保持すると冗長になることがあるからです。 その場合、親特徴量の1つが削除されます。
-
有用な特徴量 +は、リーケージが除去された有用な特徴量セットに基づいて作成されます。
-
<Custom_Features> +はカスタムセット、および親がカスタムセットに含まれる処理済みの特徴量に基づいて作成されます。
新しい特徴量の探索¶
新しい特徴量が作成されると、関係性を説明するインサイトが変換タブに表示されます。 表示方法:
- データページで新しい特徴量の名前をクリックします。
-
変換タブを選択します。 変換済み特徴量と親特徴量が表示上で比較され、組み合わせ特徴量(MINUS、EQUAL、またはDIVIDE BY)が示されます。
新しく処理された特徴量、および新しく派生した特徴量がモデル予測にどのように影響するかをさらに調査するには、以下のインサイトを確認してください。
一般に、DataRobotでは、解釈性と精度の両方の基準を満たしている組み合わせ特徴量のみ「有用」とみなされます。 これは、高い相関と有意性のチェックによって実現されます。 DataRobotは、一般化線形モデルを派生した特徴量に適合させ、その特徴量の有用性を決定します(p値または他の統計的基準を使用するなど)。
機能に関する注意事項¶
通常、組み合わせ特徴量の探索ではインサイトが追加されますが、インサイトの精度がわずかに低くなる場合があります。 この精度の変化により、DataRobotで別の推奨モデルが選択され、80%モデルの実行時間も変化する可能性があります。
プライマリーデータセットでの組み合わせ特徴量の探索は、以下に対して使用できます。
- 純粋な数値
- 特殊な数値(日付、パーセンテージ、通貨、長さ)
以下に対しては使用できません。