特徴量のインパクト¶
プレビュー
Support for the new Feature Impact in Workbench is a preview feature, on by default.
機能フラグ: NextGenでユニバーサルSHAP
すべてのモデルタイプで利用可能な特徴量のインパクトは、モデルの決定を最も強力に推進している特徴量を識別する高レベルの視覚化を提供します。 以下の情報が表示されます。
-
最も有用性の高い特徴量(人口統計データ、取引データ、またはモデルの結果を左右する他のデータ)。業界の専門家のナレッジとのすり合わせ。結果をモデル化するために重要な機能を理解することで、モデルがビジネスルールに準拠しているかどうかをより簡単に検証できます。
-
モデルを改善する機会の有無。たとえば、負の精度を持つ特徴量がある場合があります。 新しい特徴量セットを作成することで、そのような特徴量を削除すると、モデルの精度と速度が向上することがあります。 一部の特徴量は、有用性が予想外に低い可能性があるので調査する価値があります。データに問題があるかどうか。 データ型が正しく定義されているかどうか。
備考
特徴量のインパクトは、データページに表示される 特徴量の有用性指標とは異なります。 データページの有用性列内に表示される緑色のバーは、1つの特徴量が単独でターゲット特徴量との間にどのような相関性を有しているかを測定します。 これに対し、特徴量のインパクトは、ある特徴量がモデルのコンテキスト内でどの程度有用であるかを測定します。
インサイトのコントロールを使用して表示を変更します。
オプション | 説明 |
---|---|
データスライス | Select or create (by selecting Create slice) a data slice that allows you to view a subpopulation of a model's data based on feature value. |
計算方法 | インサイトの基盤となる計算方法(SHAPまたはPermutation)を選択します。 これは、デフォルトでPermutationのインパクトを計算する推奨モデルを除く、すべてのモデルのオンデマンド特徴量です。 |
ソート条件 | ソート方法(インパクト(有用性)またはアルファベット順の名前)およびソート順を設定します。 デフォルトは、インパクトの降順なので、最もインパクトの大きい特徴量が最初に表示されます。 |
クイックコンピューティングの使用 | チャートで使用するサンプルサイズを制御します。 |
検索 | チャートを更新して、検索文字列に一致する特徴量のみを含めます。 |
アクションドロップダウン | 次のいずれかです。
|
さらに特徴量をロード | チャートを展開してエクスペリメントで使用されたすべての特徴量を表示し、クリックするたびに25の特徴量がロードされます。 デフォルトでは、チャートは最もインパクトの大きい25個の特徴量を表します。 インサイトを離れると、表示は上位25件に戻ります。 |
データスライスの選択¶
スライスされたインサイトは、特徴量値(元の値または派生値)に基づいてモデルのデータの部分母集団を表示するオプションを提供します。
スライスされたインサイトから取得したセグメントベースの精度情報を使用するか、セグメントを「グローバル」スライス(すべてのデータ)と比較してトレーニングデータを改善します。 最初、各特徴量には、ターゲットに対する有用性を示す青いバーが表示されます。この有用性は、モデルのトレーニングに使用されるすべてのデータについて計算されたものです。 新しいスライスを選択または作成する場合、最初に、識別された部分母集団の値のみを反映するようにインサイトを再計算する必要があります。 その後、チャートが更新され、同じ上位25個の特徴量(ロードされている場合はそれ以上)が表示されます。 現在、青いバーは、ターゲットに対する部分母集団の有用性を表します。 黄色のマーカーを使用すると、すべてのデータのコンテキストで値を比較できます。 特徴量にカーソルを合わせると、詳細が表示されます。
スライスは、事実上、カテゴリー、数値、または両方のタイプの特徴量のフィルターです。 データスライスの作成、比較、および使用に関する完全なドキュメントを参照してください。
計算方法の選択¶
計算方法として、SHAPまたはPermutationのインパクトを選択できます。 デフォルトでは、DataRobotは 推奨モデルのPermutationのインパクトを計算します。 他のモデルのSHAP(または両方の方法)を確認するには、それぞれについて再計算する必要があります。
-
SHAPベースでは、平均で各機能がトレーニングデータの予測値にどの程度影響するかを示します。 教師ありプロジェクトの場合、SHAPはAutoMLプロジェクトのみに使用できます。 SHAPリファレンスおよびSHAPに関する注意事項も参照してください。
-
Permutationベースでは、列の値がシャッフルされた場合に、トレーニングデータのサンプルに基づいて、モデルの誤差がどの程度増加するかが示されます。
方法論のいくつかの顕著な特性:
-
SHAPベースおよびPermutationペースのインパクトは、すべてのモデリング手法で機能する、モデルにとらわれないアプローチを提供します。
-
SHAPベースの特徴量のインパクトは、サンプルサイズが小さい場合、Permutationベースの特徴量のインパクトよりも高速かつ堅牢です。
クイックコンピューティング¶
特徴量のインパクトを操作する場合、クイック計算を使用オプションは、視覚化で使用するサンプルサイズを制御します。 可視化の構築に使用される行数は、トグル設定および、スライスが適用されているかどうかに基づきます。
スライスされていない特徴量のインパクトでは:
-
オンの場合、DataRobotは、2500行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。
-
オフの場合、DataRobotは、100,000行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。
データスライスが適用されているとき:
-
オンの場合、DataRobotは、2500行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。
-
オフの場合、DataRobotは、100,000行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。
このオプションは、精度と安定性が高い結果を取得するために、例えば、デフォルトの2500行よりも大きいサンプルサイズ(またはダウンサンプリングした場合はより小さいサンプルサイズ)で、特徴量のインパクトをトレーニングする際に使用します。
備考
特徴量のインパクトの前に特徴量ごとの作用を実行すると、DataRobotは最初に特徴量のインパクトの計算を開始します。 その場合、クイックコンピューティングオプションが特徴量ごとの作用画面で使用できるようになり、特徴量のインパクトの計算基準が設定されます。
特徴量セットを作成¶
特徴量のインパクトのデータをエクスポートしたり、特徴量の相対的なインパクトに基づいて特徴量セットを作成したりできます。 特徴量セットを作成するには、アクションドロップダウンから+ インパクトベースの特徴量セットを作成を選択します。
新しいセットの特徴量を選択モーダルで、新しいセットに含める特徴量の数を選択し、次へをクリックします。 From the resulting screen you can select features individually or use bulk actions, as described in the custom feature list reference.
特徴量のインパクトに関するディープダイブ¶
特徴量のインパクトはオンデマンド特徴量なので、結果を使用するには各モデルに対して計算を行う必要があります。 ただし、モデル推奨プロセスの一環として、Permutationベースの結果が「デプロイ推奨」モデルに対して計算されます。 これはトレーニングデータを使用して計算され、デフォルトでは有用性の最も高いモデルから低いモデルにソートされ、有用性の最も高いモデルの精度が常に 1 に正規化されます。
方法の計算¶
このセクションには、2つの利用可能な方法のそれぞれの計算に関する技術的な詳細が含まれています。
- Permutationベースの特徴量のインパクト
- SHAPベースの特徴量のインパクト
Permutationベースの特徴量のインパクト¶
Permutationベースの特徴量のインパクトは、特徴量値がシャッフルされたときのモデル精度の低下を測定します。 値を計算するために、DataRobotでは次の処理が行われます。
- トレーニングレコードのサンプルで予測を作成します。デフォルトでは2500行、最大100,000行です。
- トレーニングデータを変更します(列の値をシャッフルします)。
- 新しい(シャッフルされた)トレーニングデータの予測を作成し、シャッフルによる精度の低下を計算する。
- 平均低下を計算する。
- 特徴量ごとに手順2~4を繰り返します。
- 結果を正規化します(一番上の特徴量のインパクトは100%)。
サンプリングプロセスは、以下の条件のいずれかに対応します。
- 均衡したデータの場合、ランダムサンプリングが使用されます。
- 不均衡な二値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、50/50により近い不均衡な二値ターゲットの分布を作成し、スコアリングに使用するサンプルの加重を調整します。
- ゼロ過剰連続値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、非ゼロ要素をマイノリティークラスにグループ化します。
- 不均衡の多クラスデータの場合、ランダムサンプリングが使用されます。
SHAPベースの特徴量のインパクト¶
SHAPベースの特徴量のインパクトは、平均で各特徴量がトレーニングデータの予測値にどの程度影響するかを測定します。 値を計算するために、DataRobotでは次の処理が行われます。
- トレーニングデータからレコードのサンプルを取得します(デフォルトで5000行、最大100,000行)。
- サンプルの各レコードのSHAP値を計算し、各レコードの各特徴量の局所的な有用性を生成します。
- サンプル内の各特徴量の
abs(SHAP values)
の平均を取ることにより、グローバルな有用性を計算します。 - 結果を正規化します(一番上の特徴量のインパクトは100%)。
特徴量のインパクトに関する注意事項¶
特徴量のインパクトを評価する際は、以下の点に注意してください。
-
特徴量のインパクトは、モデルのトレーニングデータのサンプルを使用して計算されます。 サンプルサイズが結果に影響する場合があるため、より大きいサンプルサイズで数値を再計算する必要があります。
-
時折、データに含まれるランダムノイズが原因で、負の特徴量のインパクトスコアを含む特徴量がある場合があります。 極度にアンバランスなデータでは、大部分が負の値となる場合があります。 これらの特徴量を削除することを検討してください。
-
プロジェクト指標の選択は、特徴量のインパクトの結果に基づくPermutationに大きな影響を与える可能性があります。 AUCなど、一部の指標はモデル出力において小さい変更に対する真陽性率が低いので、特徴量の変化がモデルの精度にどれだけ影響するかを評価するには最適ではありません。
-
いくつかの条件の下では、モデリングに使用するアルゴリズムの関数が原因で特徴量のインパクトの結果が変わることがあります。 これは、多重共線性の場合などに発生する可能性があります。 そのような場合、L1ペナルティを使用するアルゴリズム(いくつかの線形モデルなど)の場合、インパクトは1つの信号に集中しますし、ツリーの場合は相関する複数の信号にわたって均一に分散されます。