スマートダウンサンプリング¶
スマートダウンサンプリングは、マジョリティークラスのサイズを減らすことで、合計データセットサイズを減少させる技法です。これにより、精度を犠牲にせずにモデルを短時間で構築できます。スマートダウンサンプリング機能を有効にすると、すべての分析およびモデル構築は、スマートダウンサンプリングデータ後の新しいデータセットサイズに基づいて行われます。
ダウンサンプリングの割合を設定するには、ダウンサンプルデータ後のマジョリティークラスのサイズを指定します。例えば、70%のダウンサンプルデータ率では、100行のマジョリティークラスが70行にダウンサンプルされます。
ダウンサンプリングを行うべき場合¶
スマートダウンサンプリングからメリットが得られる問題には2種類あります。
不均衡な分類:これは、2つのターゲットクラスのうち、片方のクラスがデータセットの中で他のクラスよりもはるかに頻繁に出現する問題です。例えば、ダイレクトメール応答データセットは、レコードの99.5%に対する負の応答と0.5%の正の応答で構成されている場合があります。
ゼロ過剰の連続値:これは、データセットの50%以上に値ゼロが表示される問題です。この一般的な例は保険金の請求データで、90%の契約では損失がゼロで、残りの10%の契約では様々な金額の保険金が請求されます。
両方のケースで、 DataRobotは、まずマジョリティークラスをダウンサンプリングしてクラスのバランスをとり、次に得られたデータセットの効果が元のクラスのバランスと同じになるように重みを追加します。該当する最適化指標は、クラスが重み付けされていることを示します。
スマートダウンサンプリングの条件¶
スマートダウンサンプリングを使用する際は、以下の点に注意してください。
-
データセットは500MBを超えるものである必要があります。
-
ターゲット特徴量は2つの値(二値分類)だけを取るか、50%以上の値が正確にゼロである数値(ゼロブースト回帰)である必要があります。時系列プロジェクトの場合、多くのゼロを含むモデリングでは、別の計算が使用されます。
-
ランダムパーティショニングは選択できません(スマートダウンサンプリングを有効にすると自動的に無効化されます)。
-
スマートダウンサンプリングが有効な場合、 DataRobotは 異常検知モデルを作成しません。
-
有効にすると、マジョリティークラスがマイノリティークラスよりも小さくなるようなダウンサンプリングの割合は選択できません。
これらの条件が満たされていない場合、この特徴量を有効にすることはできません。その場合、現在のターゲットが二値分類またはゼロブースト回帰問題ではないことを示すメッセージが表示されます。
分類(二値)を使用すると、マジョリティークラスがダウンサンプルされます。連続値を使用すると、ゼロ値がダウンサンプルされます。以下の両方の条件が満たされたとき、デフォルトでスマートダウンサンプリングが選択されます。
- マジョリティークラスがマイノリティークラスの2倍以上である。
- データセットが500 MBを超える。
スマートダウンサンプリングの有効化¶
スマートダウンサンプリングを有効にして、データページの高度なオプションリンクからサンプリングパーセンテージを指定します。
-
データセットをインポートするか、モデルがまだ構築されていないプロジェクトを開いて、二値分類またはゼロブースト回帰問題になるターゲット特徴量を入力します。
-
高度なオプションを表示リンクをクリックして、スマートダウンサンプリングオプションを選択します。
-
データのダウンサンプリングをONにします。
-
ボックスに入力するか、スライダーを使用して、マジョリティークラスのダウンサンプリングの割合を指定します。以下の点に注意してください。
-
最小の割合の値は許容される最小の割合の値です。表示されている最小値よりも小さい値を設定すると、マジョリティークラスがマイノリティークラスよりも小さい結果になります。
-
変更したパーセント値に従って、マジョリティークラス行のリストが「ダウンサンプルの結果...」の下にリストされ、マジョリティクラスの新しいサイズ値が更新されます。
-
-
ページの一番上までスクロールし、モデリング手順を選択し、開始をクリックしてモデリングを開始します。
-
モデルのビルドが完了した後、ツールバーからモデルを選択します。モデルの結果がダウンサンプリングに基づくことを示すアイコンがリーダーボードに表示されます。
-
そのアイコンをクリックして、ダウンサンプリング結果のレポートを表示します。
そのレポートで、マイノリティークラス(readmitted=true)はダウンサンプリングで変更されなかったことが確認できます。マジョリティークラス(readmitted=false)は25%削減されています。したがって、維持されたマジョリティークラスの割合は75%です。