Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量のインパクト

本機能の提供について

Support for the new Feature Impact in Workbench is on by default.

機能フラグ: NextGenでユニバーサルSHAP

Feature Impact, available for all model types, provides a high-level visualization that identifies which features are most strongly driving model decisions. It informs:

  • Which features are the most important—is it demographic data, transaction data, or something else driving model results? Does it align with the knowledge of industry experts? By understanding which features are important to model outcomes, you can more easily validate if the model complies with business rules.

  • モデルを改善する機会はありますか? たとえば、精度がマイナスの特徴量があるかもしれません。 Dropping them by creating a new feature list might increase model accuracy and speed. 一部の特徴量は、有用性が予想外に低い可能性があるので調査する価値があります。データに問題があるかどうか。 データ型が正しく定義されているかどうか。

備考

特徴量のインパクトは、データページに表示されている特徴量の有用性指標とは異なります。 データページの有用性列内に表示される緑色のバーは、1つの特徴量が単独でターゲット特徴量との間にどのような相関性を有しているかを測定します。 これに対し、特徴量のインパクトは、ある特徴量がモデルのコンテキスト内でどの程度有用であるかを測定します。

Use the controls in the insight to change the display:

オプション 説明
検索 Update the chart to include only those features matching the search string.
データスライス Select, or create (by selecting Manage slices), a data slice that allows you to view a subpopulation of a model's data based on feature value.
計算方法 Choose the compute method that is the basis of the insight, either SHAP or permutation. This is an on-demand feature for all but the recommended model, which computes permutation impact by default.
ソート条件 Set the sort method—either by impact (importance) or alphabetically by name—and the sort order. The default is sorting by decreasing impact, that is, most impactful features first.
Use quick-compute Control the sample size used in the chart.
エクスポート Export a CSV containing each feature and its relative importance, a PNG of the chart, or a ZIP file containing both.
さらに特徴量をロード Expands the chart to display all features used in the experiment, loading 25 features with each click. デフォルトでは、チャートは最もインパクトの高い上位25個の特徴量を表します。 Leaving the insight returns the display to the top 25.

Select a data slice

スライスされたインサイトは、特徴量値(元の値または派生値)に基づいてモデルのデータの部分母集団を表示するオプションを提供します。

Use the segment-based accuracy information gleaned from sliced insights, or compare the segments to the "global" slice (all data), to improve training data. Initially, each feature shows a blue bar that indicates the importance to the target, calculated on all the data used to train the model. If you select or create a new slice, you must first recompute the insight to reflect just the values from the identified subpopulation. Then, the chart updates to show the same top 25 features (or more, if loaded). Now, the blue bar represents the subpopulation's importance to the target. A yellow marker allows you to compare the value in the context of all the data. Hover on a feature for more detail.

スライスは、事実上、カテゴリー、数値、または両方のタイプの特徴量のフィルターです。 See the full documentation on creating, comparing, and using data slices.

Select a compute method

You can select either SHAP or permutation impact as the computation methodology. デフォルトでは、推奨モデルにはPermutationによるインパクトが計算されます。 To see SHAP—or either method—for any other model, you must recompute for each.

  • SHAPベースでは、平均で各機能がトレーニングデータの予測値にどの程度影響するかを示します。 教師ありプロジェクトの場合、SHAPはAutoMLプロジェクトのみに使用できます。 SHAPリファレンスおよびSHAPに関する注意事項も参照してください。

  • Permutationベースでは、列の値がシャッフルされた場合に、トレーニングデータのサンプルに基づいて、モデルの誤差がどの程度増加するかが示されます。

Some notable characteristics of the methodologies:

  • SHAP- and permutation-based impact offers a model-agnostic approach that works for all modeling techniques.

  • SHAPベースの特徴量のインパクトは、サンプルサイズが小さい場合、Permutationベースの特徴量のインパクトよりも高速かつ堅牢です。

クイックコンピューティング

特徴量のインパクトを操作する場合、クイック計算を使用オプションは、視覚化で使用するサンプルサイズを制御します。 可視化の構築に使用される行数は、トグル設定および、スライスが適用されているかどうかに基づきます。

For unsliced Feature Impact, when toggled:

  • オンの場合、DataRobotは、2500行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

  • オフの場合、DataRobotは、100,000行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

When a data slice is applied, when toggled:

  • オンの場合、DataRobotは、2500行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。

  • オフの場合、DataRobotは、100,000行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。

このオプションは、精度と安定性が高い結果を取得するために、例えば、デフォルトの2500行よりも大きいサンプルサイズ(またはダウンサンプリングした場合はより小さいサンプルサイズ)で、特徴量のインパクトをトレーニングする際に使用します。

備考

特徴量のインパクトの前に特徴量ごとの作用を実行すると、DataRobotは最初に特徴量のインパクトの計算を開始します。 その場合、クイックコンピューティングオプションが特徴量ごとの作用画面で使用できるようになり、特徴量のインパクトの計算基準が設定されます。

Feature Impact deep dive

特徴量のインパクトはオンデマンド機能です。つまり、結果を表示するには、モデルごとに計算を開始する必要があります。 The exception is that, as part of the model recommendation process, permutation-based results are calculated for the "recommended for deployment" model. It is calculated using training data, sorted from most to least important by default, and the accuracy of the most important model is always normalized to 1.

各方法での計算

このセクションには、2つの利用可能な方法のそれぞれの計算に関する技術的な詳細が含まれています。

  • Permutationベースの特徴量のインパクト
  • SHAPベースの特徴量のインパクト

Permutationベースの特徴量のインパクト

Permutationベースの特徴量のインパクトは、特徴量値がシャッフルされたときのモデル精度の低下を測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングレコードのサンプルで予測を作成します。デフォルトでは2500行、最大100,000行です。
  2. トレーニングデータを変更します(列の値をシャッフルします)。
  3. 新しい(シャッフルされた)トレーニングデータの予測を作成し、シャッフルによる精度の低下を計算する。
  4. 平均低下を計算する。
  5. 特徴量ごとに手順2~4を繰り返します。
  6. 結果を正規化します(一番上の特徴量のインパクトは100%)。

サンプリングプロセスは、以下の条件のいずれかに対応します。

  • 均衡したデータの場合、ランダムサンプリングが使用されます。
  • 不均衡な二値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、50/50により近い不均衡な二値ターゲットの分布を作成し、スコアリングに使用するサンプルの加重を調整します。
  • ゼロ過剰連続値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、非ゼロ要素をマイノリティークラスにグループ化します。
  • 不均衡の多クラスデータの場合、ランダムサンプリングが使用されます。

SHAPベースの特徴量のインパクト

SHAPベースの特徴量のインパクトは、平均で各特徴量がトレーニングデータの予測値にどの程度影響するかを測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングデータからレコードのサンプルを取得します(デフォルトで5000行、最大100,000行)。
  2. サンプルの各レコードのSHAP値を計算し、各レコードの各特徴量の局所的な有用性を生成します。
  3. サンプル内の各特徴量のabs(SHAP values)の平均を取ることにより、グローバルな有用性を計算します。
  4. 結果を正規化します(一番上の特徴量のインパクトは100%)。

Feature Impact considerations

Consider the following when evaluating Feature Impact:

  • Feature Impact is calculated using a sample of the model's training data. サンプルサイズが結果に影響する場合があるため、より大きいサンプルサイズで数値を再計算する必要があります。

  • 時折、データに含まれるランダムノイズが原因で、負の特徴量のインパクトスコアを含む特徴量がある場合があります。 極度にアンバランスなデータでは、大部分が負の値となる場合があります。 これらの特徴量を削除することを検討してください。

  • プロジェクト指標の選択は、特徴量のインパクトの結果に基づくPermutationに大きな影響を与える可能性があります。 AUCなど、一部の指標はモデル出力において小さい変更に対する真陽性率が低いので、特徴量の変化がモデルの精度にどれだけ影響するかを評価するには最適ではありません。

  • いくつかの条件の下では、モデリングに使用するアルゴリズムの関数が原因で特徴量のインパクトの結果が変わることがあります。 これは、多重共線性の場合などに発生する可能性があります。 そのような場合、L1ペナルティを使用するアルゴリズム(いくつかの線形モデルなど)の場合、インパクトは1つの信号に集中しますし、ツリーの場合は相関する複数の信号にわたって均一に分散されます。


更新しました June 19, 2024