ロバストな特徴量の選択¶
機械学習モデルは、データが少ない場合にバイアスが生じやすく、またヘルスケアや製造業といった一部の業界では、ラベル付けされたデータが不足しています。 このような状況から、モデルを構築するためには本質的に重要な特徴量(ロバストな特徴量)を選択することが有効なアプローチとなります。 このアクセラレーターでは、ロバストな特徴量を選択するための1つのアプローチを紹介します。すなわち、交差検定で複数のシード値を用い、ダミー特徴量を加えて置換重要度(permutation importance)の中央値を計算し、それに基づいて最もロバストな特徴量を選択するというものです。
このノートブックでは、以下のことを行う方法がまとめられています。
- DataRobotに接続する。
- 複数のシードで複数のプロジェクトを作成し、ダミー特徴量を追加する。
- パフォーマンスが上位のモデルからアンサンブルを作成。
- パフォーマンスが最も高いアンサンブルモデルから、モデリングのPermutationの有用性を取得する。
- Permutationの有用性がダミー特徴量よりも低い特徴量を削除する。