個々の予測の説明¶
| タブ | 説明 |
|---|---|
| 説明 | 各予測が平均からどのように異なるかに対して、各特徴量がどれだけ寄与しているかを推定することで、予測の要因を理解するのに役立ちます。 |
DataRobotでは、個々の予測の説明を2つの方法で計算できます。1つはSHAP(Shapley値に基づく)、もう1つはXEMP(eXemplarに基づくモデル予測の説明)です。 XEMPベースの説明は、SHAPをサポートしていないエクスペリメントでのみ取得できます。
ワークベンチでのテキストの説明は、XEMPを活用したエクスペリメントでのみ取得できます(つまり、SHAPベースのエクスペリメントでは取得できません)。 DataRobot Classicでは、SHAPプロジェクトとXEMPプロジェクトの両方で、テキストの説明(テキストが存在する場合)を取得できます。
SHAPベースの説明¶
SHAPベースの説明は、特定の予測が平均とは異なることに各特徴量がどの程度関与しているかを推定するため、何が予測の根拠となっているかを行単位で理解するのに役立ちます。 モデルが特定の予測をした理由、たとえば、顧客が購入を決めた要因(年齢、性別、購買習慣など)を回答します。そして、各要因が意思決定に与えた影響を特定するのに役立ちます。 これらは直感的で、制限がなく(すべての機能について計算されます)、高速で、SHAPのオープンソースの性質上、透過的です。 SHAPは、モデルの動作をより深く、迅速に理解できるという利点があるだけでなく、モデルがビジネスルールに準拠しているかどうかを簡単に検証することもできます。
SHAPの説明の代わりの視覚化を提供するために、2つのインサイトを利用できます。
| インサイト | 説明 |
|---|---|
| SHAPの個別の予測の説明(このページ) | 各特徴量の予測に対する影響を行ごとに表示します。 |
| SHAP分布:特徴量ごと | バイオリンプロットを使用して、特徴量ごとのスコアの分布と密度を視覚化します。 |
インサイトフィルター¶
予測分布図を変更するには、インサイト内のコントロールを使用します。 オプションはエクスペリメントのタイプによって異なります。
| オプション | 説明 | タイプ |
|---|---|---|
| データ選択 | 説明を計算するデータのパーティションとソースを設定します。 | すべて |
| データスライス | データスライスを選択または作成(スライスを作成を選択)して、特徴量値に基づいてモデルのデータの部分母集団を表示します。 | 予測 |
| 系列ID | 系列識別子を選択して、その系列のみの説明を表示するか、なしを選択して、すべての系列の説明を表示します。 | 時間認識 |
| 予測距離 | なし(すべての予測距離を表示)または特定の予測距離を選択します。 使用可能な値は、予測ウィンドウの設定で予測する値の数を設定したときに作成された時間ステップの範囲から導き出されます。 | 時間認識 |
| 予測範囲 | テーブルから サンプリングする予測で、設定範囲内の予測のみを表示します。 | すべて |
| 説明のエクスポート | エクスポートモーダルの設定に基づいて、CSV形式の個々の予測の説明をダウンロードします。 | すべて |
個々の予測の説明の操作の詳細については、関連する 注意事項を参照してください。 予測エクスペリメントと時間認識エクスペリメントについては、SHAPリファレンスを参照してください。
データソースの設定¶
説明の計算に代替データを使用する場合、データ選択ドロップダウンからデータソースを変更します。 データ選択は、データセットおよび(現在のトレーニングセットを使用する場合)選択されたパーティションで構成されます。
次のいずれかを変更できます。
-
現在のトレーニングデータセットのパーティション(トレーニング、検定、またはホールドアウトのいずれか)。 デフォルトでは、チャートはトレーニングデータセットの検定パーティションを表します。
-
追加の、おそらく外部のデータセット。 これは、同じモデルを使用して、エクスペリメントのトレーニングデータに含まれていない行の説明を表示する場合に使用します。 DataRobotには、ユースケースに関連付けられたすべてのデータセット(最大100)がリストされますが、外部データセットをアップロードすることもできます。 次のいずれかを選択します。
- 再度、同じデータセット(行に含まれる別のランダムサンプルを表示する場合)。
- 別のデータセット(モデルが正常に予測できるデータセットを選択してください)。
予測分布チャートは、トレーニングデータセットのトレーニングパーティションでは使用できません。
説明をダウンロードする¶
説明をCSV形式でダウンロードするには、説明のエクスポートをクリックし、各上限を設定して、ダウンロードをクリックします。 設定を変更し、新しいバージョンをそれぞれダウンロードできます。作業が終了したら、完了をクリックしてモーダルを閉じます。
| オプション | チェックした場合 | それ以外の場合 |
|---|---|---|
| 予測ごとに特徴量数を制限する | 指定された数の上位の特徴量だけがCSVに含まれます。 1から計算済みの説明の数の間の値を入力します。最大値は100です。 | すべての行の予測をダウンロードします。 |
| フィルターを適用して、ダウンロードされる説明を制限する | 予測分布チャートコントロールで設定されたフィルターを満たす説明のみがCSVに含まれます。 | すべての説明(最大25,000)が含まれます。 |
サンプリングする予測¶
予測分布チャートの下にある、サンプリングされた行は、パーセンタイルに従って選択されます。 サンプリングされた各行の表示には、その行に対して最もインパクトのある単一の特徴量のプレビューが含まれます。 行を展開すると、その行に対して最もインパクトのあるいくつかの特徴量が表示されます。
返すサンプルを変更するには、鉛筆アイコンをクリックします デフォルトでは、DataRobotは フィルターによって定義された予測の範囲全体から均一にサンプリングされた予測の5つのサンプルを返します。
備考
サンプルを取得する予測のテーブルはオンデマンド機能です。計算するをクリックすると、DataRobotは個々の説明の詳細を返します。 いずれかの設定(データソース、パーティション、またはデータスライス)を変更した場合、テーブルを再計算する必要があります。
シンプルなテーブルビュー¶
サマリーエントリーは以下の項目を提供します。
- 予測ID(
Prediction #1117など)。 - 予測分布チャート内の値の色に対応する、色付きのドットで示された予測値。
- その予測結果に最も貢献している特徴量。
展開された行ビュー¶
シンプルなテーブルビューの任意の行をクリックすると、その予測の追加情報が表示されます。 展開されたビューには、予測ごとに、最もインパクトがあった特徴量がSHAPスコア順にリストされます。 デフォルトでは、貢献している上位10の特徴量がDataRobotに表示されますが、さらに説明をロードをクリックするたびに、追加の特徴量を10個ロードできます。
展開されたビューには、以下の内容が表示されます。
| フィールド | 説明 |
|---|---|
| SHAPスコア | この行の予測に関してこの特徴量に割り当てられた SHAP値。これには、視覚的表現と数値スコアの両方が含まれます。 |
| 特徴量 | データセットから貢献する特徴量の名前。 |
| 値 | この行の特徴量の値。 |
| 分布 | 特徴量の値の分布を示す、特徴量のヒストグラム表示。 ヒストグラムのバーにカーソルを合わせると、ビンの詳細が表示されます。 |
予測範囲の設定¶
予測範囲コントロールは、予測分布チャートの表示、および出力をサンプリングする予測の両方を定義します。 鉛筆アイコンをクリックして、予測値に基づいて条件を設定するモーダルを開きます。
表示に対する変更は直ちに更新されます。
XEMPベースの説明¶
XEMPベースの説明は、すべてのモデルタイプで使用できるDataRobot独自の方法です。 これらは一変量であり、それぞれ特定の特徴量が予測に与える影響の分布を表示できます。 (対照的に、SHAPは多変量であり、一度に複数の特徴を変化させる効果を測定します。)XEMPの説明は、SHAPがモデルやエクスペリメントタイプでサポートされていない場合にのみ利用できます。個々の予測の説明の適切なタイプはDataRobotによって決定され、モデルを選択すると利用できるようになります。
XEMPインサイトにアクセスするには、リーダーボード内のモデルをクリックし、個々の予測の説明(XEMP)を選択して表示を拡大します。 プロンプトが表示されたら、特徴量のインパクトを計算をクリックします。
計算が成功すると、プレビューが表示されます。 プレビューの操作、表示の解釈、説明の計算とダウンロードの詳細については、 DataRobot Classicのドキュメントを参照してください。
機能に関する注意事項¶
ワークベンチでSHAPベースの個々の予測説明を使用する場合は、次の点に注意してください。 関連する XEMPに関する注意事項も参照してください。
-
以下のエクスペリメントタイプでは、SHAPの説明はサポートされていません。 したがって、SHAPベースの個々の予測説明は返されません。 代わりに、XEMPの説明が返されます。
- 多クラス分類と異常検知のエクスペリメント。
- ワークベンチでサポートされていないプロジェクトタイプ。
-
検定とホールドアウトにトレーニングされたモデルのSHAPベースの説明はサンプル内のものであり、スタックされたものではありません。
-
SHAPは画像特徴量タイプを 完全には サポートしていません。 画像は特徴量として使用できるので、DataRobotは画像のSHAP値とSHAPインパクトを返します。 ただし、SHAPベースの説明のチャートにはアテンションマップ(「画像の説明」)は表示されません。代わりに、画像のサムネイルが表示されます。
-
リンク機能を使用する場合、SHAPは余裕空間で加法性です(
sum(shap) = link(p)-link(p0))。 推奨事項を以下に示します。- SHAPの付加的品質が必要な場合は、リンク関数を使用しないブループリント(一部のツリーベースのブループリントなど)を使用します。
- ログをリンク関数として使用する場合は、
exp(shap)を使用して予測を説明することもできます。
-
データ選択としてトレーニングパーティションを選択した場合、予測分布チャートは使用できません。 しかし、説明が計算されると、予測テーブルに説明が入力されます。








