予測分布グラフ¶
(ROC曲線タブの)予測分布グラフは、表示しきい値(解析のための分割境界線)に合わせて実測値の分布を表します。分割境界線の左側にあるすべての予測は「false」、右側にあるすべての予測は「true」として分類されます。
予測分布グラフは、選択したデータソースのモデルパフォーマンスを視覚的に表現します。分類ユースケース2で見ると、予測分布グラフは2つの患者グループ(再入院あり、再入院なし)の間で確率的な予想を表し、そのモデルが患者をどの程度区別できるのか示します。混同行列の列にある色再入院なしの患者は緑色、再入院ありは青色で表されています。表示しきい値の各側に赤色と青色両方があることが分かります。
この表を使用してグラフを解釈できます。
グラフ上の色 | 場所の名前 | 状態 |
---|---|---|
赤 | しきい値の左 | True Negative(TN) |
青 | しきい値の左 | False Negative(FN) |
赤 | しきい値の右 | False Positive(FP) |
青 | しきい値の右 | True Positive(TP) |
灰色は赤色と青色の重なりを示すことにご備考ください。
分類の問題として、各予測は1つの観測値(この例では、再入院あり、またはなし)に対応しています。予測分布グラフは、選択したデータソースにある全観測値の予測の総合的な分布を表します。
分布セレクター(Y軸)¶
Y軸分布セレクターを使用すると、予測分布の表示を密度または頻度曲線で選択することができます。
Y軸ドロップダウンから以下のいずれかを選択します。
チャートは、陽性と陰性の下側に面積の等しい領域を表示します。
各曲線の下側にある面積は、各クラスの観測値の数により決定されます。
分布曲線は、データソースまたは/および選択した分布に基づきます。頻度と密度を切り替えると、曲線は変わりますがしきい値や関連ページにある要素の値は変更されません。
データ選択¶
ROC曲線タブの視角化のためのデータソースを選択できます。そのためには、予測分布グラフ上のデータ選択ドロップダウンをクリックし、検定、交差検定、またはホールドアウトを選択します。使用可能なオプションは、そのパーティションを実行したか有効化したかによって異なります。
また、外部のテストデータセットに基づいてグラフを作成することもできます。時間認識モデリングでは、バックテストベースの選択が可能です。データソースを変更すると、予測分布グラフに加え、次のシナリオで説明するチャート、行列、およびマトリクスペインが更新されます。
備考
表示しきい値を変更すると、視覚化も以下のように変更します。
予測分布グラフを使用した実験¶
以下の変更を試して結果を確認します。
-
カーソルを予測分布グラフの上に合わせてください。カーソルを動かすと白い文字でしきい値が表示されます。
チャートペインに表示された曲線(ここに表示されるROC曲線)には、DataRobotが、動的に移動してしきい値に対応する円が表示されます。
-
予測分布グラフをクリックして新しいしきい値を選択します。
新しい値が、表示しきい値フィールドに表示されます。予測分布グラフ上の円と切片線が、新しいしきい値に対して更新されます。メトリクスペイン、チャートペイン(ここでROC曲線に設定)、行列ペイン(ここで混同行列に設定)が、新しいしきい値を反映する形で更新されます。
その他の方法として、新しい値をしきい値フィールドにタイプ入力して、しきい値設定を変更することができます。
-
Y軸ドロップダウンをクリックして、予測の分布を密度および頻度曲線の表示の間で切り替えます。この変更は他のページにある要素に影響を与えません。