Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

XEMPベースの予測の説明

このセクションでは、XEMPベースの予測の説明について説明します。 SHAPおよびXEMPの概要については、予測の説明の概要も参照してください。

その他の重要情報については、関連する注意事項を参照してください。

予測の説明の概要

以下の手順は、アップロードしたデータセットを予測の説明タブを使用する方法の概要を示します。 追加のデータセットをアップロードして説明の計算を行うこともできます。

備考

XEMPベースのプロジェクトでは、方法論間の1つの重要な違いは、多クラス分類プロジェクトの予測説明を生成する機能です。 The basic function and interpretation are the same, with the addition of multiclass-specific filtering and viewing options.

  1. 選択したモデルの予測の説明をクリックします。

  2. モデルに対して特徴量のインパクトがまだ計算されていない場合は、特徴量のインパクトを有効化ボタンをクリックします。 (You can calculate impact from either the Prediction Explanations or Feature Impact tabs—they share computational results.)

  3. Once the computation completes, DataRobot displays the Prediction Explanations preview, using the default values (described below):

    コンポーネント 説明
    入力の計算 各レコードに対して返す説明の数を設定し、選択に低および/または高範囲を適用するかどうかを切り替えます。
    しきい値の変更 予測の選択の低および高検定スコアを設定します。
    予測の説明のプレビュー 入力およびしきい値設定に基づいて、検定データからの説明のプレビューを表示します。
    計算機 選択した条件を使用して、選択された予測および完全な予測セットの説明の計算を開始します。
  4. 必要に応じて、計算入力しきい値を変更してプレビューを更新します。

  5. 新しい値を使用して計算処理を行い、結果をダウンロードします。

備考

Visual Artificial Intelligence (AI)プロジェクトの追加要素(以下の説明を参照)を使用して画像特徴量のユニーク数の品質をサポートできます。

同じモデルを使用して、すべてのデータセット(トレーニング、検定、テスト、予測)にデフォルトまたはユーザー指定のベースラインしきい値が適用されます。 ベースラインを変更した場合、プレビューを更新して、更新したデータセットの予想の説明を再計算する必要があります。

XEMP予測の説明の解釈

サンプルプレビューは以下のように表示されます。

この結果を説明する簡単な方法は以下の通りです。

0.894の予測値は、行4936にあります。その値については、6つの表示された特徴量が予測に最も高いPositiveインパクトを持っています。

上記の例から、「患者が再入院する確率がモデルで89.4%とされた理由」を知ることができます。説明によると、患者の体重、緊急外来の回数(3)、および25種類の薬の全てにおいて、(positive)予測に強力なpositive効果があることを示しています(理由はその他にもあり)。

各予測に対して番号が付いた説明の一覧が表示されます。説明の番号は、設定に基づきます。 各説明は、データセットの特徴量およびそれに対応する値で、説明の強度に関する定量的なインジケーターが表示されます。 インジケーターは、強(+++)、中(++)、または弱(+)の陽性の影響と強(---、中(--)、または弱(-)の陰性の影響力を示します。 詳細については、XEMPの定量的強度の計算方法の説明を参照してください。

予測値をスクロールして、他の患者の結果を表示します。

説明に関する備考

以下の点を考慮してください。

  • データポイントが非常に小さい場合、説明では丸められた同じ値が一覧表示されます。
  • 予測の作成で「欠損値」が重要な場合(強力なインジケーター)、説明の状態に「欠損」と表示されることがあります。
  • 一般的に、予測の上位の説明の方向は結果と同じですが、特徴量の間の相互効果または相関によって、negative予測に対して説明が強いpositive効果を示すことあります。
  • ID列の数値は、インポートしたデータセットの行番号IDです。
  • 高確率予測で負の影響の説明が表示されることがあります(または、逆に低スコア予測は高いpositive効果を含む特徴量を示します)。 その場合、予測の説明は、特徴量の値が異なっている際に予測の確率が更に高くなる可能性を示しています。

    たとえば、血圧は正常で、腰を骨折した107歳の女性の再入院のリスクを予測するとします。 この女性の再入院の確率は間違いなく高くなりますが、血圧は正常なので、(全体的なリスクスコアは非常に高いものの)リスクスコアは低くなります。 血圧の予測の説明は、特徴量が異なる場合、予測の確率が高くなることを示しています。

プレビューの変更

DataRobotでは、トレーニングデータ(検定セットなど)の最大6つの予測に対して最大10の予測の説明のプレビューが計算されます。

予測の説明タブのデフォルト設定を以下に示します。

コンポーネント デフォルト値 備考
予測の説明の数 3 説明の数を1~10の間で設定します。
予測の数 最大6 表示されるプレビュー予測の数は、指定範囲に含まれるデータポイントの数に応じて異なります。 たとえば、指定範囲に4つのデータポイントしかない場合、プレビューには4つの行しか表示されません。
下限しきい値チェックボックス 選択済み NA
上限しきい値チェックボックス 選択済み NA
予測しきい値の範囲 予測分布の上下10% ドラッグして変更します。

予測および説明のプレビューではトレーニングデータが自動的に使用可能になります。 予測データセットをアップロードすると、予測の完全なセットの予測の説明が計算されます。

計算入力およびしきい値を変更すると、プレビューを更新するよう求めるメッセージが表示されます。

更新をクリックして、新しい設定でプレビューを再表示します。以前の設定に戻すには、変更を取り消すをクリックします。 プレビューを更新すると、ハイライトされた範囲内の最大6つの予測のパラメーターで予測の新しいセットが生成されます。

計算入力の変更

予測の説明を計算する場合、設定できる3つの入力があります。それは、チェックされた場合は下限予測しきい値または上限予測しきい、チェックされていない場合はしきい値なし、各予測の説明の数です。

予測の説明の数を変更するには、1から10の間の数値を入力(またはボックスの矢印を使用)して設定します。下限しきい値と上限しきい値のボックスにチェックを入れ、スライダーを使用して予測の説明を表示する範囲を設定します。 入力値を変更するとプレビューを更新するよう求めるメッセージが表示されます。

ヒント

しきい値を変更したとき(および変更内容を保存するとき)は、更新をクリックする必要があります。

しきい値の変更

しきい値によって、DataRobotで予測が取得される予測分布の範囲が決定されます。 しきい値を変更するには、低または高しきい値のバーを目的の位置までドラッグしてプレビューを更新します。

低および高しきい値フィルターを適用して計算の速度を上げることができます。 少なくとも1つのフィルターを指定すると、選択した外れ値行の予測の説明だけが計算されます。 予測値(連続値プロジェクトの場合)または陽性分類になる可能性(分類プロジェクトの場合)が低しきい値よりも低い場合、または高しきい値よりも高い場合、行は外れ値とみなされます。 両方のフィルターをオフにすると、すべての行の予測の説明が計算されます。

エクスポージャーが(連続値プロジェクトで)設定されている場合、分布には、調整済み予測(エクスポージャーを除数として割られた予測など)の分布が示されます。 同様に、分散グラフのラベルは、検定予測/エクスポージャーに変更され、プレビューテーブルの予測列の名前は予測/エクスポージャーに変更されます。

予測を計算およびダウンロード

DataRobotでは、トレーニングデータの検定セットから最大6つの予測の説明のプレビューが自動的に表示されます。 プレビューは内部ディスプレイに表示されます。 ただし、完全なトレーニングパーティション(1)、完了したデータセット(2)、または新しいデータセット(3)の説明を計算およびダウンロードできます。

データセットのアップロード

しきい値が目的の説明のタイプと範囲を返していることを確認したら、1つ以上の予測データセットをアップロードします。 以下の手順を実行します。

  1. + 新規データセットをアップロードをクリックします。 予測の作成タブに移動します。ここでは、アップロードするデータセットを参照、インポート、またはドラッグできます。 オプションで、列を追加します
  2. データセットをインポートします。 インポートが完了したら、解釈 > 予測の説明タブを再度クリックして戻ります。

列の追加

予測結果に列を追加する必要がある場合があります。 追加は、必要になる追加の後処理作業を最小化する場合などに便利なツールです。 デフォルトでは、ターゲット特徴量は説明の出力に含まれないので、ターゲット特徴量を追加するのは一般的な操作です。

追加操作はその他の操作から独立しているので、予測の説明ワークフローの任意のポイント(新しいデータセットのアップロード前または後、あるいは計算の実行中)で追加できます。 ダウンロードを開始すると、出力に追加した列が追加されます。

特徴量を追加するには、予測の作成タブに切り替えるか、新しいデータセットをアップロードをクリックして該当するタブを表示します(追加できるのはモデルを構築したときに存在した列だけです)。 手順5から始まる手順に従います。

完全な説明の計算

デフォルトでは、インサイトには検定データが反映されますが、プロジェクトのトレーニングデータ内のすべてのデータポイントの予測および説明を表示できます。 この場合、 トレーニングデータ というデータセットの横にある計算ボタン()をクリックしてください。 このデータセットは自動的にすべてのモデルで使用可能になります。

予測の説明の生成とダウンロード

アップロードしたデータセットから予測の説明を生成できます。 しかし、最初にプレビューの6つの予測だけでなく、全ての予測の説明を計算する必要があります。 データセットをアップロードした後に予測を計算してダウンロードするには:

  1. データセットのすべての予測の説明が計算されていない場合は、データセットの右側にある計算機アイコン()をクリックして説明の計算を開始します。

  2. 説明の計算モーダルのフィールドに入力してパラメーターを設定し、計算をクリックして対応するデータセットの各行の説明を計算します。

    DataRobotが説明の計算を開始します。ワーカーキューの進捗を追跡します。

  3. 計算が完了すると、データセットはダウンロードが可能なものとしてマークされます。

  4. ダウンロードアイコン()をクリックして、すべてのデータセットの予測および対応する説明をCSV形式でエクスポートします。

    選択範囲外の予測もデータに含まれますが、説明は含まれません。

  5. 設定を更新した場合(しきい値または予測の説明の数を変更した場合)、更新ボタンをクリックしてから、計算機をクリックして予測の説明を再計算する必要があります。

備考

最新バージョンの説明だけがデータセット用に保存されます。 パラメーター設定を比較するには、設定の予測の説明CSVをダウンロードして、新しい設定で再度実行します。

多クラス予測の説明

Prediction Explanations for multiclass classification projects are available from both a Leaderboard model or a deployment.

リーダーボードからの説明

多クラスプロジェクトでは、DataRobotは各クラスの予測値を返します—多クラス予測の説明では、DataRobotがクラスリクエストの説明の予測値を決定した理由を説明します。 したがって、それぞれ0.40.10.5の値を持つクラスABおよびCがある場合、DataRobotがクラスA0.4の予測値を割り当てた理由の説明を要求できます。

説明のプレビューを表示

  1. XEMPベースリーダーボードモデルからの予測の説明解釈 > 予測の説明タブにアクセスします。

  2. クラスドロップダウンを使用して、クラスのトレーニングデータベースの説明を表示します。 各クラスには、独自の分布図(1)と独自のサンプルセット(2)があります。

一歩進んだ操作:多クラスプレビュー

Preview data is available for a subset of the most frequent model classes. The selection is derived from the Lift Chart distribution and typically represents the top 20 classes. Although multiclass supports an unlimited number of classes, the display supports just the 20 available in the the Lift Chart.

There are models that don't have a Lift Chart calculated. Most often this happens for slim run projects (for example, GB+ dataset sizes or multiclass projects with >10 classes) trained into validation (>64% for default parameters). In those types of cases, although the chart isn't available, DataRobot can still calculate explanations. This is not unique to multiclass projects, multiclass just has additional corner cases when there can be no distribution chart for some classes—when that class is rare and wasn't present in training data, for example.

When calculating the multiclass preview, DataRobot selects a limited number of classes to display (there can be up to 1000) in support of better UX and faster calculation times. As a result, the available display is a selection of those classes that do have Lift Chart calculations (DataRobot calculates 20 classes for a multiclass model). If the model doesn't have any Lift Charts data, DataRobot selects the first 20 classes alphabetically.

説明を計算する

完全なトレーニングデータセットまたは新しいデータのいずれかの説明を計算できます。 プロセスは一般に分類および連続値プロジェクトの場合と同じですが、多クラス固有の違いがいくつかあります。 これは、DataRobotがクラスごとに個別に説明を計算するためです。 計算機をクリックすると、次のクラスの説明を生成するためのモーダルが開きます。

The Classes setting controls the method for selecting which classes are used in explanation computation. The Number of classes setting configures the number of classes, for each row, DataRobot computes explanations for. For example, consider a dataset with 6 classes. Choosing Predicted data and 3 classes will generate explanations for the the 3 classes—of the 6—with the highest prediction values. To maximize response and readability, the maximum number of classes to compute explanations for is 10. (This is a different value than what is supported in the prediction preview chart.)

クラスオプションには以下が含まれます。

クラス 説明
予測 予測値に基づいてクラスを選択します。 予測データセットの各行について、クラスの価値により設定されたクラス数の説明を計算します。
実測 既知の値であるクラスから説明を計算します。 各行について、「グラウンドトゥルース」であるクラスを説明します。このオプションは、トレーニングデータセットを使用している場合にのみ使用できます。
クラスのリスト クラスのリストから特定のクラスを選択します。 各行について、リストで識別されたクラスのみを説明します。

説明が計算されたら、情報アイコン()にカーソルを合わせ、計算された説明のサマリーを表示します。

説明をダウンロードする

ダウンロードアイコン()をクリックして、すべてのデータセットの予測および対応する説明をCSV形式でエクスポートします。 多クラスプロジェクトの説明には、説明されたクラスごとに追加のフィールド—クラスラベルと(計算設定に基づく)説明のリストが含まれています)。

次のサンプル出力について考えてみます。

備考:

  • 各行には、予測された各クラスが説明されています(1)。
  • 最初のクラスの列は、予測される最上位のクラスです。
  • クラスのリストオプションを使用したことがある場合、出力にはそれらのクラスのみが表示されます。 これは、予測値にあまり関心がなく、特定のクラスを説明したい場合に役立ちます。

データセットが値に近い予測パーセンテージを示している場合、DataRobotが特定のクラス(予測されたクラスとチャレンジャークラスを理解するのに役立ちます)を予測した理由を理解するために説明が非常に重要になります。

デプロイからの説明

デプロイから予測を計算するデプロイ > 予測 > 予測を行う)場合、DataRobotは多クラスプロジェクト以外で使用可能なオプションにクラスフィールドとクラス数フィールドを追加します。

Visual Artificial Intelligence (AI)の予測の説明

Visual Artificial Intelligence (AI)プロジェクトの予測の説明(画像の説明)を使用すると、「画像」タイプの特徴量を含むデータセットの説明を取得できます。 Visual Artificial Intelligence (AI)画像の説明は、上記のすべての特徴量(およびいくつかの追加特徴量)をサポートします。

計算が完了すると、画像が説明の重要な部分であることを示すアイコンが追加されます。

アイコン()をクリックすると、画像の説明をドリルダウンできます。

アクティベーションマップをオンにすると、画像内でモデルの「対象」を確認できます。

説明の計算とダウンロード

予測の説明と同様に、データセット内の各行の予測の計算と説明のダウンロードを行うことができます。 ダウンロードした画像の説明アーカイブには、以下のものが含まれます。

  • 予測CSVファイル(1)
  • 画像のフォルダー(2)

CSVには、説明の一部である画像特徴量のイメージファイル名が特徴量の値としてリストされます。

イメージフォルダーには、関連する画像のレンダリング(ヒートマップ)された写真が含まれています。


更新しました December 21, 2022
Back to top