XEMPベースの予測の説明¶
このセクションでは、XEMPベースの予測の説明について説明します。 SHAPおよびXEMPの概要については、予測の説明の概要も参照してください。
その他の重要情報については、関連する注意事項を参照してください。
予測の説明の概要¶
以下の手順は、アップロードしたデータセットを予測の説明タブを使用する方法の概要を示します。 追加のデータセットをアップロードして説明の計算を行うこともできます。
備考
XEMPベースのプロジェクトでは、方法論間の1つの重要な違いは、多クラス分類プロジェクトの予測説明を生成する機能です。 基本的な機能と解釈は同じですが、多クラス固有のフィルタリングと表示オプションが追加されています。
-
選択したモデルの予測の説明をクリックします。
-
モデルに対して特徴量のインパクトがまだ計算されていない場合は、特徴量のインパクトを有効化ボタンをクリックします。 (予測の説明タブまたは 特徴量のインパクトタブのいずれかから影響を計算でき、計算結果を共有します。)
-
計算が完了するとデフォルト値(下記参照)を使用して予測の説明プレビューが表示されます。
コンポーネント 説明 1 入力の計算 各レコードに対して返す説明の数を設定し、選択に低および/または高範囲を適用するかどうかを切り替えます。 2 しきい値の変更 予測の選択の低および高検定スコアを設定します。 3 予測の説明のプレビュー 入力およびしきい値設定に基づいて、検定データからの説明のプレビューを表示します。 4 計算機 選択した条件を使用して、選択された予測および完全な予測セットの説明の計算を開始します。 -
新しい値を使用して計算処理を行い、結果をダウンロードします。
備考
Visual Artificial Intelligence (AI)プロジェクトの追加要素(以下の説明を参照)を使用して画像特徴量のユニーク数の品質をサポートできます。
同じモデルを使用して、すべてのデータセット(トレーニング、検定、テスト、予測)にデフォルトまたはユーザー指定のベースラインしきい値が適用されます。 ベースラインを変更した場合、プレビューを更新して、更新したデータセットの予想の説明を再計算する必要があります。
XEMP予測の説明の解釈¶
サンプルプレビューは以下のように表示されます。
この結果を説明する簡単な方法は以下の通りです。
0.894の予測値は、行4936にあります。その値については、6つの表示された特徴量が予測に最も高いPositiveインパクトを持っています。
上記の例から、「患者が再入院する確率がモデルで89.4%とされた理由」を知ることができます。説明によると、患者の体重、緊急外来の回数(3)、および25種類の薬の全てにおいて、(positive)予測に強力なpositive効果があることを示しています(理由はその他にもあり)。
各予測に対して番号が付いた説明の一覧が表示されます。説明の番号は、設定に基づきます。 各説明は、データセットの特徴量およびそれに対応する値で、説明の強度に関する定量的なインジケーターが表示されます。 インジケーターは、強(+++)、中(++)、または弱(+)の陽性の影響と強(---、中(--)、または弱(-)の陰性の影響力を示します。 詳細については、XEMPの定量的強度の計算方法の説明を参照してください。
予測値をスクロールして、他の患者の結果を表示します。
説明に関する備考¶
以下の点を考慮してください。
- データポイントが非常に小さい場合、説明では丸められた同じ値が一覧表示されます。
- 予測の作成で「欠損値」が重要な場合(強力なインジケーター)、説明の状態に「欠損」と表示されることがあります。
- 一般的に、予測の上位の説明の方向は結果と同じですが、特徴量の間の相互効果または相関によって、negative予測に対して説明が強いpositive効果を示すことあります。
- ID列の数値は、インポートしたデータセットの行番号IDです。
-
高確率予測で負の影響の説明が表示されることがあります(または、逆に低スコア予測は高いpositive効果を含む特徴量を示します)。 その場合、予測の説明は、特徴量の値が異なっている際に予測の確率が更に高くなる可能性を示しています。
たとえば、血圧は正常で、腰を骨折した107歳の女性の再入院のリスクを予測するとします。 この女性の再入院の確率は間違いなく高くなりますが、血圧は正常なので、(全体的なリスクスコアは非常に高いものの)リスクスコアは低くなります。 血圧の予測の説明は、特徴量が異なる場合、予測の確率が高くなることを示しています。
100%でトレーニングされたモデルの説明はどのように計算されるか
この疑問は、予測の説明の計算には検定データが必要であるにもかかわらず、100%モデルではトレーニングに検定を使用していることから生じます。 しかし、パーティションはプロジェクトレベルで定義されるため、検定パーティションにはどのモデルでも同じ行が使用されます。 これらは、XEMPの説明で特徴量の「模範」値を選ぶために使われる行で、100%モデルを含めて、どのモデルでも同じです。
検定行をそのモデルの予測に使用する場合(たとえば、指標を計算する場合)、結果の予測は 「サンプル内」となります。 その場合、ターゲットリーケージのリスクがあるため、新しいデータに対して一般化できるかどうか、適切な量の不確実性を持って結果に臨みます。
新しいデータで予測を行うデプロイ済みモデルの予測の説明の場合、予測はトレーニングデータに対するものではありません。 その代わりに、新しいデータと、新しいデータに「模範」値を加えた合成行を使用します。 模範値は検定行のものですが、DataRobotではその行の予測を説明に使うことはないため、リーケージのリスクはほとんどありません。
プレビューの変更¶
DataRobotでは、トレーニングデータ(検定セットなど)の最大6つの予測に対して最大10の予測の説明のプレビューが計算されます。
予測の説明タブのデフォルト設定を以下に示します。
コンポーネント | デフォルト値 | 備考 |
---|---|---|
予測の説明の数 | 3 | 説明の数を1~10の間で設定します。 |
予測の数 | 最大6 | 表示されるプレビュー予測の数は、指定範囲に含まれるデータポイントの数に応じて異なります。 たとえば、指定範囲に4つのデータポイントしかない場合、プレビューには4つの行しか表示されません。 |
下限しきい値チェックボックス | 選択済み | NA |
上限しきい値チェックボックス | 選択済み | NA |
予測しきい値の範囲 | 予測分布の上下10% | ドラッグして変更します。 |
予測および説明のプレビューではトレーニングデータが自動的に使用可能になります。 予測データセットをアップロードすると、予測の完全なセットの予測の説明が計算されます。
計算入力およびしきい値を変更すると、プレビューを更新するよう求めるメッセージが表示されます。
更新をクリックして、新しい設定でプレビューを再表示します。以前の設定に戻すには、変更を取り消すをクリックします。 プレビューを更新すると、ハイライトされた範囲内の最大6つの予測のパラメーターで予測の新しいセットが生成されます。
計算入力の変更¶
予測の説明を計算する場合、設定できる3つの入力があります。それは、チェックされた場合は下限予測しきい値または上限予測しきい値、チェックされていない場合はしきい値なし、各予測の説明の数です。
予測の説明の数を変更するには、1から10の間の数値を入力(またはボックスの矢印を使用)して設定します。下限しきい値と上限しきい値のボックスにチェックを入れ、スライダーを使用して予測の説明を表示する範囲を設定します。 入力値を変更するとプレビューを更新するよう求めるメッセージが表示されます。
ヒント
しきい値を変更したとき(および変更内容を保存するとき)は、更新をクリックする必要があります。
しきい値の変更¶
しきい値によって、DataRobotで予測が取得される予測分布の範囲が決定されます。 しきい値を変更するには、低または高しきい値のバーを目的の位置までドラッグしてプレビューを更新します。
低および高しきい値フィルターを適用して計算の速度を上げることができます。 少なくとも1つのフィルターを指定すると、選択した外れ値行の予測の説明だけが計算されます。 予測値(連続値プロジェクトの場合)または陽性分類になる可能性(分類プロジェクトの場合)が低しきい値よりも低い場合、または高しきい値よりも高い場合、行は外れ値とみなされます。 両方のフィルターをオフにすると、すべての行の予測の説明が計算されます。
エクスポージャーが(連続値プロジェクトで)設定されている場合、分布には、調整済み予測(エクスポージャーを除数として割られた予測など)の分布が示されます。 同様に、分散グラフのラベルは、検定予測/エクスポージャーに変更され、プレビューテーブルの予測列の名前は予測/エクスポージャーに変更されます。
予測を計算およびダウンロード¶
DataRobotでは、トレーニングデータの検定セットから最大6つの予測の説明のプレビューが自動的に表示されます。 プレビューは内部ディスプレイに表示されます。 ただし、プロジェクトデータ全体(1)または新しいデータセット(2)の説明を計算してダウンロードすることもできます。
データセットのアップロード¶
しきい値が目的の説明のタイプと範囲を返していることを確認したら、1つ以上の予測データセットをアップロードします。 以下の手順を実行します。
- + 新規データセットをアップロードをクリックします。 予測の作成タブに移動します。ここでは、アップロードするデータセットを参照、インポート、またはドラッグできます。 (オプション)列を追加します。
- データセットをインポートします。 インポートが完了したら、解釈 > 予測の説明タブを再度クリックして戻ります。
列の追加¶
予測結果に列を追加する必要がある場合があります。 追加は、必要になる追加の後処理作業を最小化する場合などに便利なツールです。 デフォルトでは、ターゲット特徴量は説明の出力に含まれないので、ターゲット特徴量を追加するのは一般的な操作です。
追加操作はその他の操作から独立しているので、予測の説明ワークフローの任意のポイント(新しいデータセットのアップロード前または後、あるいは計算の実行中)で追加できます。 ダウンロードを開始すると、出力に追加した列が追加されます。
特徴量を追加するには、予測の作成タブに切り替えるか、新しいデータセットをアップロードをクリックして該当するタブを表示します(追加できるのはモデルを構築したときに存在した列だけです)。 手順5から始まる手順に従います。
完全な説明の計算¶
デフォルトでは、インサイトには検定データが反映されますが、プロジェクトのトレーニングデータ内のすべてのデータポイントの予測および説明を表示できます。 この場合、トレーニングデータというデータセットの横にある計算ボタン()をクリックしてください。 このデータセットは自動的にすべてのモデルで使用可能になります。
予測の説明の生成とダウンロード¶
アップロードしたデータセットから予測の説明を生成できます。 しかし、最初にプレビューの6つの予測だけでなく、全ての予測の説明を計算する必要があります。 データセットをアップロードした後に予測を計算してダウンロードするには:
-
データセットのすべての予測の説明が計算されていない場合は、データセットの右側にある計算機アイコン()をクリックして説明の計算を開始します。
-
説明の計算モーダルのフィールドに入力してパラメーターを設定し、計算をクリックして対応するデータセットの各行の説明を計算します。
DataRobotが説明の計算を開始します。ワーカーキューの進捗を追跡します。
-
計算が完了すると、データセットはダウンロードが可能なものとしてマークされます。
-
ダウンロードアイコン()をクリックして、すべてのデータセットの予測および対応する説明をCSV形式でエクスポートします。 以下の点に注意してください。
- 選択した範囲外の予測はデータに含まれますが、説明は含まれません。
- ダウンロードには、予測値の列と調整後の予測値の列が含まれています。 エクスポージャーがない場合、この2つの列は同じです。
-
設定を更新した場合(しきい値または予測の説明の数を変更した場合)、更新ボタンをクリックしてから、計算機をクリックして予測の説明を再計算する必要があります。
備考
最新バージョンの説明だけがデータセット用に保存されます。 パラメーター設定を比較するには、設定の予測の説明CSVをダウンロードして、新しい設定で再度実行します。
多クラス予測の説明¶
多クラス分類プロジェクトの予測説明は、リーダーボードモデルまたは デプロイの両方から利用できます。
リーダーボードからの説明¶
多クラスプロジェクトでは、DataRobotは各クラスの予測値を返します—多クラス予測の説明では、DataRobotがクラスリクエストの説明の予測値を決定した理由を説明します。 したがって、それぞれ0.4
、0.1
、0.5
の値を持つクラスA
、B
およびC
がある場合、DataRobotがクラスA
に0.4
の予測値を割り当てた理由の説明を要求できます。
説明のプレビューを表示¶
-
XEMPベースリーダーボードモデルからの予測の説明解釈 > 予測の説明タブにアクセスします。
-
クラスドロップダウンを使用して、クラスのトレーニングデータベースの説明を表示します。 各クラスには、独自の分布図(1)と独自のサンプルセット(2)があります。
一歩進んだ操作:多クラスプレビュー
プレビューデータは、最も頻繁なモデルクラスのサブセットで利用できます。 選択は リフトチャート分布から派生し、通常は上位20クラスを表します。 多クラスは無制限の数のクラスをサポートしますが、ディスプレイはリフトチャートで利用可能な20個のみをサポートします。
リフトチャートが計算されていないモデルがあります。 ほとんどの場合、これは検証用にトレーニングされたスリムランプロジェクト(たとえば、GB+データセットサイズまたは>10クラスの多クラスプロジェクト)で発生します(デフォルトパラメーターの場合は> 64%)。 これらのタイプの場合、チャートは利用できませんが、DataRobotは説明を計算できます。 これは多クラスプロジェクトに固有のものではありません。(たとえば、そのクラスがまれで、トレーニングデータに存在しなかった場合に、)一部のクラスの分布図がない場合、多クラスには追加のコーナーケースがあります。
多クラスプレビューを計算するとき、DataRobotは表示するクラスの数を制限(最大1000まで可能)して、より優れたUXとより高速な計算時間をサポートします。 その結果、使用可能な表示は、リフトチャート計算を行うクラスの選択です(DataRobotは多クラスモデルに対して20個のクラスを計算します)。 モデルにリフトチャートデータがない場合、DataRobotは最初の20クラスをアルファベット順に選択します。
説明を計算する¶
完全なトレーニングデータセットまたは新しいデータのいずれかの説明を計算できます。 プロセスは一般に分類および連続値プロジェクトの場合と同じですが、多クラス固有の違いがいくつかあります。 これは、DataRobotがクラスごとに個別に説明を計算するためです。 計算機をクリックすると、次のクラスの説明を生成するためのモーダルが開きます。
クラス設定は、説明の計算に使用するクラスを選択する方法を制御します。 The クラス数 設定は、クラスの数を構成します。各行について、DataRobotはの説明を計算します。 たとえば、6つのクラスを持つデータセットについて考えてみます。 予測データと3つのクラスを選択すると、予測値が最も高い6つのクラスのうち3つのクラスの説明が生成されます。 説明を計算するクラスの最大数を10にして、応答性と可読性を最大化します。(これは、予測プレビューチャートでサポートされている値とは異なります。)
クラスオプションには以下が含まれます。
クラス | 説明 |
---|---|
予測 | 予測値に基づいてクラスを選択します。 予測データセットの各行について、クラスの価値により設定されたクラス数の説明を計算します。 |
実測 | 既知の値であるクラスから説明を計算します。 各行について、「グラウンドトゥルース」であるクラスを説明します。このオプションは、トレーニングデータセットを使用している場合にのみ使用できます。 |
クラスのリスト | クラスのリストから特定のクラスを選択します。 各行について、リストで識別されたクラスのみを説明します。 |
説明が計算されたら、情報アイコン()にカーソルを合わせ、計算された説明のサマリーを表示します。
説明をダウンロードする¶
ダウンロードアイコン()をクリックして、すべてのデータセットの予測および対応する説明をCSV形式でエクスポートします。 多クラスプロジェクトの説明には、説明されたクラスごとに追加のフィールド—クラスラベルと(計算設定に基づく)説明のリストが含まれています)。
次のサンプル出力について考えてみます。
備考:
- 各行には、予測された各クラスが説明されています(1)。
- 最初のクラスの列は、予測される最上位のクラスです。
- クラスのリストオプションを使用したことがある場合、出力にはそれらのクラスのみが表示されます。 これは、予測値にあまり関心がなく、特定のクラスを説明したい場合に役立ちます。
データセットが値に近い予測パーセンテージを示している場合、DataRobotが特定のクラス(予測されたクラスとチャレンジャークラスを理解するのに役立ちます)を予測した理由を理解するために説明が非常に重要になります。
デプロイからの説明¶
デプロイから予測を計算する(デプロイ > 予測 > 予測を行う)場合、DataRobotは多クラスプロジェクト以外で使用可能なオプションにクラスフィールドとクラス数フィールドを追加します。
Visual Artificial Intelligence (AI)の予測の説明¶
Visual Artificial Intelligence (AI)プロジェクトの予測の説明(画像の説明)を使用すると、「画像」タイプの特徴量を含むデータセットの説明を取得できます。 Visual Artificial Intelligence (AI)画像の説明は、上記のすべての特徴量(およびいくつかの追加特徴量)をサポートします。 Visual Artificial Intelligence (AI)予測データセットのサイズ制限の説明については、注意事項を参照してください。
計算が完了すると、画像が説明の重要な部分であることを示すアイコンが追加されます。
アイコン()をクリックすると、画像の説明をドリルダウンできます。
アクティベーションマップをオンにすると、画像内でモデルの「対象」を確認できます。
説明の計算とダウンロード¶
予測の説明と同様に、データセット内の各行の予測の計算と説明のダウンロードを行うことができます。 ダウンロードした画像の説明アーカイブには、以下のものが含まれます。
- 予測CSVファイル(1)
- 画像のフォルダー(2)
CSVでは、説明の一部である画像特徴量の値として、画像ファイル名がリストされています。
画像フォルダーには、関連する画像のレンダリング(ヒートマップ)された写真が含まれています。