個々の予測の説明¶
備考
ワークベンチでは、予測の説明から個々の予測説明に名称を変更することで、個々の行ごとにSHAP値を計算するローカルな説明方法としての機能がよりわかりやすく伝わるようにしました。 DataRobot ClassicはXEMPとSHAPの両方の説明をサポートしていますが、ワークベンチはSHAPの説明のみをサポートしています。これは、オープンソースという性質上、SHAPの説明の方が透明性が高いためです。
SHAPベースの説明は、特定の予測が平均とは異なることに各特徴量がどの程度関与しているかを推定するため、何が予測の根拠となっているかを行単位で理解するのに役立ちます。 モデルが特定の予測をした理由、たとえば、顧客が購入を決めた要因(年齢、性別、購買習慣など)を回答します。そして、各要因が意思決定に与えた影響を特定するのに役立ちます。 これらは直感的で、制限がなく(すべての機能について計算されます)、高速で、SHAPのオープンソースの性質上、透過的です。 SHAPは、モデルの動作をより深く、迅速に理解できるという利点があるだけでなく、モデルがビジネスルールに準拠しているかどうかを簡単に検証することもできます。
プレビュー
Support for the new Individual Prediction Explanations in Workbench is a preview feature, on by default.
機能フラグ: NextGenでユニバーサルSHAP
ビンにカーソルを合わせると、ビンで表される予測の範囲とビン内の予測の数が表示されます。
インサイトフィルター¶
インサイトのコントロールを使用して、予測分布チャートを変更します。
オプション | 説明 |
---|---|
データ選択 | 説明を計算するデータのパーティションとソースを設定します。 |
データスライス | データスライスを選択するか、または(スライスの管理を選択することによって)作成して、特徴量値に基づいてモデルのデータの部分母集団を表示します。 |
予測範囲 | テーブルから サンプリングする予測で、設定範囲内の予測のみを表示します。 |
エクスポート | エクスポートモーダルの設定に基づいて、CSV形式の個々の予測の説明をダウンロードします。 |
個々の予測の説明の操作の詳細については、関連する 注意事項および SHAPリファレンスを参照してください。
データソースの設定¶
説明の計算に代替データを使用する場合、データ選択ドロップダウンからデータソースを変更します。 データ選択は、データセットおよび(現在のトレーニングセットを使用する場合)選択されたパーティションで構成されます。
次のいずれかを変更できます。
-
現在のトレーニングデータセットのパーティション(トレーニング、検定、またはホールドアウトのいずれか)。 デフォルトでは、チャートはトレーニングデータセットの検定パーティションを表します。
-
追加の、おそらく外部のデータセット。 これは、同じモデルを使用して、エクスペリメントのトレーニングデータに含まれていない行の説明を表示する場合に使用します。 DataRobotには、ユースケースに関連付けられたすべてのデータセット(最大100)がリストされますが、外部データセットをアップロードすることもできます。 次のいずれかを選択します。
- 再度、同じデータセット(行に含まれる別のランダムサンプルを表示する場合)。
- 別のデータセット(モデルが正常に予測できるデータセットを選択してください)。
予測分布チャートは、トレーニングデータセットのトレーニングパーティションでは使用できません。
説明をダウンロードする¶
CSV形式の説明をダウンロードするには、エクスポートをクリックし、各制限を設定してダウンロードをクリックします。 設定を変更し、新しいバージョンをそれぞれダウンロードできます。作業が終了したら、完了をクリックしてモーダルを閉じます。
オプション | チェックした場合 | それ以外の場合 |
---|---|---|
予測ごとに特徴量数を制限する | 指定された数の上位の特徴量だけがCSVに含まれます。 1から計算済みの説明の数の間の値を入力します。最大値は100です。 | すべての行の予測をダウンロードします。 |
フィルターを適用して、ダウンロードされる説明を制限する | 予測分布チャートコントロールで設定されたフィルターを満たす説明のみがCSVに含まれます。 | すべての説明(最大25,000)が含まれます。 |
サンプリングする予測¶
予測分布チャートの下にある、サンプリングされた行は、パーセンタイルに従って選択されます。 サンプリングされた各行の表示には、その行に対して最もインパクトのある単一の特徴量のプレビューが含まれます。 行を展開すると、その行に対して最もインパクトのあるいくつかの特徴量が表示されます。
返すサンプルを変更するには、鉛筆アイコンをクリックします デフォルトでは、DataRobotは フィルターによって定義された予測の範囲全体から均一にサンプリングされた予測の5つのサンプルを返します。
備考
サンプルを取得する予測のテーブルはオンデマンド特徴量です。計算するをクリックすると、DataRobotは個々の説明の詳細を返します。 いずれかの設定(データソース、パーティション、またはデータスライス)を変更した場合、テーブルを再計算する必要があります。
シンプルなテーブルビュー¶
サマリーエントリーは以下の項目を提供します。
- 予測ID(
Prediction #1117
など)。 - 予測分布チャート内の値の色に対応する、色付きのドットで示された予測値。
- その予測結果に最も貢献している特徴量。
展開された行ビュー¶
シンプルなテーブルビューの任意の行をクリックすると、その予測の追加情報が表示されます。 展開されたビューには、予測ごとに、最もインパクトがあった特徴量がSHAPスコア順にリストされます。 デフォルトでは、貢献している上位10の特徴量がDataRobotに表示されますが、さらに説明をロードをクリックするたびに、追加の特徴量を10個ロードできます。
展開されたビューには、以下の内容が表示されます。
フィールド | 説明 |
---|---|
SHAPスコア | この行の予測に関してこの特徴量に割り当てられた SHAP値。これには、視覚的表現と数値スコアの両方が含まれます。 |
特徴量 | データセットから貢献する特徴量の名前。 |
値 | この行の特徴量の値。 |
分布 | 特徴量の値の分布を示す、特徴量のヒストグラム表示。 ヒストグラムのバーにカーソルを合わせると、ビンの詳細が表示されます。 |
予測範囲の設定¶
予測範囲コントロールは、予測分布チャートの表示、および出力をサンプリングする予測の両方を定義します。 鉛筆アイコンをクリックして、予測値に基づいて条件を設定するモーダルを開きます。
表示に対する変更は直ちに更新されます。
SHAPに関する注意事項¶
ワークベンチでSHAPの個々の予測の説明を操作する場合は、次の点に注意してください。
-
多クラス分類エクスペリメントはサポートされていません。 したがって、SHAPの個々の予測の説明は返されません
-
検定とホールドアウトにトレーニングされたモデルのSHAPベースの説明はサンプル内のものであり、スタックされたものではありません。
-
ワークベンチでサポートされていないプロジェクトタイプおよび以下の項目では、SHAPの個々の予測の説明はサポートされていません。
- 時間認識(OTVおよび時系列)エクスペリメント
-
SHAPは画像特徴量タイプを 完全には サポートしていません。 画像は特徴量として使用できるので、DataRobotは画像のSHAP値とSHAPインパクトを返します。 ただし、SHAPの説明チャートには、アクティベーションマップ(「画像の説明」)は表示されません。代わりに、画像サムネイルが表示されます。
-
リンク機能を使用する場合、SHAPは余裕空間で加法性です(
sum(shap) = link(p)-link(p0)
)。 推奨事項を以下に示します。- SHAPの付加的品質が必要な場合は、リンク関数を使用しないブループリント(一部のツリーベースのブループリントなど)を使用します。
- ログをリンク関数として使用する場合は、
exp(shap)
を使用して予測を説明することもできます。
-
データ選択としてトレーニングパーティションを選択した場合、予測分布チャートは使用できません。 しかし、説明が計算されると、予測テーブルに説明が入力されます。