Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデルのインサイトを表示

本機能の提供について

Support for Feature Impact on a registered model's Insights tab is on by default. Feature Impact calculation is available for DataRobot and custom models with a binary classification or regression target type.

機能フラグ:NextGenでカスタムモデルに対してSHAPを有効にする

Feature Impact, available for DataRobot and custom models (not agent-monitored external models), provides a high-level visualization that identifies which features are most strongly driving model decisions. It informs:

  • Which features are the most important—is it demographic data, transaction data, or something else driving model results? Does it align with the knowledge of industry experts? By understanding which features are important to model outcomes, you can more easily validate if the model complies with business rules.

  • モデルを改善する機会はありますか? たとえば、精度がマイナスの特徴量があるかもしれません。 Dropping them by creating a new feature list might increase model accuracy and speed. 一部の特徴量は、有用性が予想外に低い可能性があるので調査する価値があります。データに問題があるかどうか。 データ型が正しく定義されているかどうか。

To access the Feature Impact insight, in the Registry > Model directory, open a registered model version and click the Insights tab. Then, open the Feature Impact panel and click Compute:

For custom models, the registered model version must include training data, assigned during model assembly. If training data is not assigned to the registered model version of a custom model, a notification appears, directing you to go to the model workshop, create a new custom model version, assign a training dataset, and create a new registered model version.

Control the Feature Impact chart

After you compute Feature Impact for the registered model version, use the provided controls to change the display:

オプション 説明
検索 Update the chart to include only those features matching the search string.
計算方法 Choose the compute method that is the basis of the insight, either SHAP or permutation. This is an on-demand feature, meaning that you must initiate a calculation for each model to see the results.
ソート条件 Set the sort method—either by impact (importance) or alphabetically by name—and sort order. The default is sorting by decreasing impact, that is, most impactful features first.
クイックコンピューティングを使用する Control the sample size used in the chart.
エクスポート Export a CSV containing each feature and its relative importance, a PNG of the chart, or a ZIP file containing both.
さらに特徴量をロード Expands the chart to display all features used in the experiment, loading 25 features with each click. By default, the chart displays the top 25, highest impact features. Closing the insight resets the display to the top 25.

Select a compute method

You can select either SHAP or permutation impact as the computation methodology. To see SHAP—or either method—for any model, you must recompute for each.

  • SHAPベースでは、平均で各機能がトレーニングデータの予測値にどの程度影響するかを示します。 教師ありプロジェクトの場合、SHAPはAutoMLプロジェクトのみに使用できます。 SHAPリファレンスおよびSHAPに関する注意事項も参照してください。

  • Permutationベースでは、列の値がシャッフルされた場合に、トレーニングデータのサンプルに基づいて、モデルの誤差がどの程度増加するかが示されます。

Some notable characteristics of the methodologies:

  • SHAP- and permutation-based impact offers a model-agnostic approach that works for all modeling techniques.

  • SHAPベースの特徴量のインパクトは、サンプルサイズが小さい場合、Permutationベースの特徴量のインパクトよりも高速かつ堅牢です。

クイックコンピューティングを使用する

特徴量のインパクトを操作する場合、クイック計算を使用オプションは、視覚化で使用するサンプルサイズを制御します。 The row count used to build the visualization is based on the toggle setting:

  • オンの場合、DataRobotは、2500行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

  • オフの場合、DataRobotは、100,000行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

このオプションは、精度と安定性が高い結果を取得するために、例えば、デフォルトの2500行よりも大きいサンプルサイズ(またはダウンサンプリングした場合はより小さいサンプルサイズ)で、特徴量のインパクトをトレーニングする際に使用します。

備考

特徴量のインパクトの前に特徴量ごとの作用を実行すると、DataRobotは最初に特徴量のインパクトの計算を開始します。 その場合、クイックコンピューティングオプションが特徴量ごとの作用画面で使用できるようになり、特徴量のインパクトの計算基準が設定されます。

一歩進んだ操作

特徴量のインパクトはオンデマンド機能です。つまり、結果を表示するには、モデルごとに計算を開始する必要があります。 It is calculated using training data, sorted from most to least important by default, and the accuracy of the most important model is always normalized to 1.

各方法での計算

このセクションには、2つの利用可能な方法のそれぞれの計算に関する技術的な詳細が含まれています。

Permutationベースの特徴量のインパクト

Permutationベースの特徴量のインパクトは、特徴量値がシャッフルされたときのモデル精度の低下を測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングレコードのサンプルで予測を作成します。デフォルトでは2500行、最大100,000行です。
  2. トレーニングデータを変更します(列の値をシャッフルします)。
  3. 新しい(シャッフルされた)トレーニングデータの予測を作成し、シャッフルによる精度の低下を計算する。
  4. 平均低下を計算する。
  5. 特徴量ごとに手順2~4を繰り返します。
  6. 結果を正規化します(一番上の特徴量のインパクトは100%)。

サンプリングプロセスは、以下の条件のいずれかに対応します。

  • 均衡したデータの場合、ランダムサンプリングが使用されます。
  • 不均衡な二値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、50/50により近い不均衡な二値ターゲットの分布を作成し、スコアリングに使用するサンプルの加重を調整します。
  • ゼロ過剰連続値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、非ゼロ要素をマイノリティークラスにグループ化します。
  • 不均衡の多クラスデータの場合、ランダムサンプリングが使用されます。

SHAPベースの特徴量のインパクト

SHAPベースの特徴量のインパクトは、平均で各特徴量がトレーニングデータの予測値にどの程度影響するかを測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングデータからレコードのサンプルを取得します(デフォルトで5000行、最大100,000行)。
  2. サンプルの各レコードのSHAP値を計算し、各レコードの各特徴量の局所的な有用性を生成します。
  3. サンプル内の各特徴量のabs(SHAP values)の平均を取ることにより、グローバルな有用性を計算します。
  4. 結果を正規化します(一番上の特徴量のインパクトは100%)。

機能に関する注意事項

Consider the following when evaluating Feature Impact:

  • Feature Impact is calculated using a sample of the model's training data. サンプルサイズが結果に影響する場合があるため、より大きいサンプルサイズで数値を再計算する必要があります。

  • 時折、データに含まれるランダムノイズが原因で、負の特徴量のインパクトスコアを含む特徴量がある場合があります。 極度にアンバランスなデータでは、大部分が負の値となる場合があります。 これらの特徴量を削除することを検討してください。

  • いくつかの条件の下では、モデリングに使用するアルゴリズムの関数が原因で特徴量のインパクトの結果が変わることがあります。 これは、多重共線性の場合などに発生する可能性があります。 そのような場合、L1ペナルティを使用するアルゴリズム(いくつかの線形モデルなど)の場合、インパクトは1つの信号に集中しますし、ツリーの場合は相関する複数の信号にわたって均一に分散されます。


更新しました June 19, 2024