SHAP分布:特徴量ごと¶
タブ | 説明 |
---|---|
説明 | 各予測が平均からどのように異なるかに対して、各特徴量がどれだけ寄与しているかを推定することで、予測の要因を理解するのに役立ちます。 |
このインパクトを別の方法で視覚化するために、2つのインサイトが用意されています。
インサイト | 説明 |
---|---|
SHAP分布:特徴量ごと(このページ) | Shows the distribution and density of scores per feature using a violin plot for the visualization. |
SHAPベースの個々の予測説明 | 各特徴量の予測に対する影響を行ごとに表示します。 |
方法論と解釈可能性の詳細については、 [詳細]{0}を参照してください。 For more details about working with SHAP in DataRobot, see the related considerations and the SHAP reference for predictive and time-aware experiments.
視覚化の概要¶
SHAP分布:特徴量ごとは、バイオリン図とも呼ばれ、さまざまなカテゴリー間でデータセットの確率分布を比較するための統計図です。 データの滑らかで連続的な形状を示します。 縦軸はデータセットの特徴量を表し、横軸はSHAPスコアを表します。 その結果、プロットされた密度形状は、異なる値におけるデータの最大1,000行のサンプリングに基づく分布を表しています。 The width of the "violin" at a given value shows how many data points fall around that value—do they cluster, peak, or spread evenly? See the distribution specifics for examples.
視覚化では、並べ替え順に基づいて上位10の特徴量が表示され、さらに多くの特徴量をロードするオプションがあります。
インサイトフィルター¶
インサイトのコントロールを使用して、予測分布チャートを変更します。 Options are dependent on experiment type.
オプション | 説明 | タイプ |
---|---|---|
データスライス | データスライスを選択または作成(スライスを作成を選択)して、特定のコホートが予測結果にどのように影響するかを確認します。 | 予測 |
すべてのデータと比較 | 予測 | |
系列ID | Choose a series identifier to display explanations only for that series or choose None to see explanations for all series. | 時間認識 |
予測距離 | 時間認識 | |
ソート条件 | すべて | |
Y軸のオートスケール | 最も多くの行が存在する特徴量を基準として、特徴量の分布をスケーリングします。 | すべて |
外れ値を表示 | 外れ値を含めるようにスケールを調整します。 | すべて |
検索 | 検索文字列に一致する特徴量のみを表示するように調整します。 | すべて |
エクスポート | 視覚化のためにデータ、画像、またはその両方をダウンロードします。 | すべて |
データスライス¶
For predictive experiments, data slices are a way to view a subpopulation of a model's data based on feature value. スライスを選択すると、特徴量の順序が新しい母集団に基づいて並べ替えられることに注意してください。 例:
スライスがない場合、プロットは以下の情報を表示します。
70歳以上の男性の表示:
すべてのデータと比較¶
1つ以上のスライスを設定したら、すべてのデータと比較トグルを有効にします。 これにより、選択したスライスを完全なデータセットオプションと比較することができ、スライスしていないデータと比較したときに分布がどのように異なるか(あるいは異ならないか)を視覚化するのに役立ちます。
トグルをオンにすると、白い輪郭付きの透明なバイオリンプロットがスライスされていないデータを表し、その内側にある色付きのバイオリンのプロットが選択されたスライスを表します。
スライスが すべてのデータ に非常に近い場合、スライスされたサブセットに近いため、バイオリンプロットの白い輪郭が透明に見えます。
Y軸のオートスケール¶
トグルを使用して、垂直方向のスケーリングを正規化します。 この設定では、インサイトが各バイオリンプロットのすべての分布詳細を表示するか、または最も分布が少ない(一貫性が高い)特徴量の値のカウントに比例して、スケーリングされた分布を表示するかを制御します。 高い、短い、広い、狭い分布が一目でわかります。 このオプションは、分布がどの程度影響力を持つかの大まかな目安を提供します。 バイオリンプロットが広がれば広がるほど、値は分散します。 例:
自動スケーリングの詳細については、 以下を参照してください。
外れ値を表示¶
自動スケーリングが垂直アクセス(分布の高さ)に適用される場合、外れ値は横軸に適用されます。 外れ値は、主たるバイオリンから相対的に遠い値を示し、ビニング後に計算されます。 例:
外れ値の計算の詳細については、 以下を参照してください。
詳細:SHAP分布の解釈¶
表示される各バイオリンプロットは、最大1,000行のSHAP値に基づいています。 データセット全体またはデータセットのスライスされたサブセットのいずれかに1,000行未満の行しかない場合、バイオリンプロットはそれより少なくなります。 各特徴量について、DataRobotは1,000のデータポイントを均一なビンに分割します。 一般的に、分布を表す形状を比較するのにインサイトを使用します。 バイオリンプロットがクラスター(コホート)なのか、それとも一様なのかを評価することで、特徴量が強く影響する値のグループを持つのか、正の影響を与えるのか、またはほとんど影響しないのかを判断できます。
特徴量ごとのSHAPの視覚化では、色を使用して、予測にインパクトを与える特徴量の密度と分布を表します。
- 数値および二値(連続)特徴量は、紫色(低頻度)~黄色(高頻度)のカラースペクトル上にプロットされ、特徴量値の高い位置と低い値の位置を示します。
- カテゴリー(離散)特徴量はグレーで表示され、各バイオリンには異なるカテゴリーを表すバイオリンが埋め込まれています。
- その他の値はすべて青で表示されます。
水平軸は予測結果に対する特徴量の影響を表し、0
は影響がないことを表します。 バイオリンプロットの大きなコホートがゼロの左側(すなわち、ゼロ未満)に位置している場合、その特徴量が予測結果から差し引かれることを意味し、ゼロより右側のコホートは予測結果に追加されます。 特徴量は、個々の行の値に応じて、両側に分布することがよくあります。 See below for help further interpreting the visualization.
特徴量分布の視覚化¶
以下の例の連続特徴量num_lab_procedures
では、コホートの大半が右側に位置すること、つまり予測結果に追加されることがわかります。
- バイオリンプロット全体で紫色が多いほど、検査手続きの回数が少ないことを示し、黄色が多いほど、検査手続きの回数が多いことを示します。
- ゼロの両側が紫一色や黄色一色というわけではありませんが、色分けは、検査手順の数が多いほど予測値に追加される傾向があることを示しています。 表示されたデータ(全データまたは選択されたスライス)のコンテキストで、個々の分布(最大1,000行)を理解するために特徴量にカーソルを合わせます。
離散特徴量(フルプロットではグレー)にカーソルを合わせると、完全な分布の上位7クラスまでが表示されます。 他のすべての画像はグレーで表示されます。 たとえば、40歳未満の患者のadmission_type_id
を見ると、emergency
の値は結果にほとんど影響を与えていないように見えますが、urgent
は予測結果により強く影響していることがわかります。
自動スケーリング¶
DataRobotは、同じ行数(最大1,000行)をビニングしてバイオリンをプロットし、各バイオリン行は同じ垂直ピクセル高を使用します。 プロット上の最大の高さは、最も多くの行を含むビンを反映しており、いわゆる「最も高いピーク」を示します。
各バイオリン行の分布は異なり、時にはかなり大きな差があります。 1つの行は、その値の大部分が(水平方向に)狭いスパンにある場合があり、その結果、分布の高さとして高いピークが生じます。 また、行が水平方向に広く分布している場合があり、その結果、分布高さのピークが低くなります。
最大の高さは、任意の時点で視覚化に含まれる特徴量に基づいて動的に計算されます。 たとえば、スライスの適用、検索、より多くの特徴量の読み込みなどで表示を変更すると、最大の高さが更新され、それに応じて他のバイオリンプロットも再スケーリングされます。
外れ値を計算中¶
次の条件の両方を満たす場合、そのビンは 外れ値と見なされます。
- そのビンには、最大ビンのメンバーシップの2%未満しか含まれていない。
- そのビンは、最も近いビンから少なくとも1つの空のビンを挟んで離れている。
外れ値ビン内にある外れ値の数に関係なく、外れ値は常に同じサイズの円でマークされます。 つまり、メンバーシップが0.3%のビンとメンバーシップが0.7%のビンは区別されません。