混同行列¶
プレビュー
Support for the Confusion Matrix in Workbench is a preview feature, on by default.
機能フラグ: 無制限の多クラス
多クラス混同行列は、 多クラスエクスペリメントでのモデルパフォーマンスの評価に役立ちます。 「混同行列」という名前は、1つのクラスを別のクラスとして一貫した形で誤ったラベル設定(混同)を行うことにより、モデルがどのように2つ以上のクラスを混同するかを意味します。 行列は、実測値と予測値を比較するため、誤ったラベル付けが行われたかどうか、およびどの値で誤ったラベル付けが行われたかを容易に把握できます。 (二値分類エクスペリメントには混同行列もあります。混同行列は ROC曲線タブからアクセスできます。)
多クラスに関する注意事項を参照してください。
混同行列は2つの視覚化を提供します。
- 選択したターゲットで見つかったすべてのクラスの概要を提供する 多クラス行列 (1)。
- 選択されたクラスの行列 (2)により、特定のクラスを分析します。
プロジェクトの構築に使用したトレーニングデータの結果に基づいて、両方の行列で各クラスの予測値と実測値が比較され、グラフィック要素によってクラスの誤ラベルが示されます。 多クラス分類混同行列は、選択したターゲットに対して見つかった各クラスの概要を示し、選択されたクラスの混同行列は特定のクラスを分析します。 これらの比較から、DataRobotモデルのパフォーマンスを判断することができます。 Wikipediaには混同行列の理解に役立つ詳細な情報が提供されています。
多クラス行列の概要¶
多クラスマトリックスであるヒートマップは、DataRobotが選択したターゲットに対して認識したすべてのクラス(値)の10セルごとの10セルの概要を、出現頻度ごとに色分けして提供します。 行列表示を操作するための一部のツールには、マルチオプションツールバー (1)、ページスクロール (2)、および2つの合計列 (3) があり、トレーニングセット全体のコンテキストで選択したページを理解し、データセット全体のクラスの保有率を理解するのに役立ちます。
セルの順序は、インサイトの上部にあるツールバーで選択した設定に応じて異なります。
セレクター | 説明 |
---|---|
データソース | 行列の作成に使用されるトレーニングデータからパーティションを設定します。オプションは、エクスペリメントのタイプ(時間を認識しない場合は検定またはホールドアウト、OTVの場合はバックテストの選択) に依存します。 |
クラスのソート条件 | 行列のソートおよび方向付けに使用する方法(名前、頻度、スコア)、およびソート順(昇順または降順)を設定します。 |
設定 | 表現基準(カウントまたはパーセンテージ)および軸方向を制御します。 |
エクスポート | 完全な混同行列を、データのCSV、画像のPNG、またはその両方のZIPにエクスポートします。 クラス行列は含まれません。 |
クラスのソートオプション¶
ソートオプションを以下に示します。
オプション | 説明 |
---|---|
名前 | 順序ソートオプションに基づく昇順または降順で、トレーニングデータで見つかったクラス名でアルファベット順にソートします。 各名前は両方の軸に表示されます。 垂直または水平の位置は、設定で選択した方向によって決定されます。 |
頻度(クラスは実測) | 指定されたクラスが予測されたクラスであった回数でソートされます。 各クラスの出現は、対応する合計行または列に記録されます。 |
頻度(クラスは予測) | 指定されたクラスがトレーニングデータ全体で実際のクラスとして表示された回数でソートされます。 各クラスの出現は、対応する合計行または列に記録されます。 |
F1スコア | モデルの精度指標を提供し、陽性的中率とリコールに基づき計算されます。 |
プレシジョン | すべての陽性 (Positive) の予測に関して、モデルが正しかった割合を提供します。 Positive Predictive Value (PPV) とも呼ばれます。 |
リコール | 実測されたすべての陽性の中で、True Positives(陽性だと正しく予測された場合)が占める比率を報告します。 感度のTrue Positive Rate (TPR) とも呼ばれます。 |
設定オプション¶
設定オプションでは、各セルで実測値と予測値を比較する「混同」のインスタンスを報告する方法を設定します。
オプション | 説明 |
---|---|
件数 | 実測クラスと予測クラスの組み合わせの元の出現数を報告します。 |
実測値のパーセンテージ | 合計カウント(「リコール」とも呼ばれます)に関連して、特定のセルに実際のクラスが表示された行のパーセンテージを報告します。 |
予測値のパーセンテージ | 合計カウント(「陽性的中率」とも呼ばれます)に関連して、特定のセルに実際のクラスが表示された行のパーセンテージを報告します。 |
実測値の傾向 | 各クラスの実測値を表示する軸を設定します。 |
多クラス行列の理解¶
完璧なモデルでは、行列は中央を通る対角線を示し、それらのセルは100%(パーセンテージに設定した場合)またはクラスの総数(カウントに設定した場合)のいずれかを参照します。 他のセルはすべて空になります。 このような結果になる可能性は低いため、以下の例を参考にして、さまざまな並べ替えや設定に基づいた行列を解釈してください。 以下の点に注意してください。
- パーセンテージを設定として使用すると、すべてのページにわたるすべてのセルは、表示する結果の行列で合計100%になります。 (実測値の割合に設定すると、実測値のクラスの合計は100%になります。)
- カウントを使用すると、すべてのページのすべてのセルの合計が合計列の値になります。
下の行列では、実測値のクラスが左側の軸にあり、予測されたクラスは上部にあります。 左から右に読むと、「Actual = X
という行すべてについて、DataRobotが他のクラスそれぞれを予測した頻度」が示されます。この行列は、カウントごとに表示を設定します。
この例では、モデルで27のクラスが見つかったため、軸ラベルでレポートされます(たとえば、「予測値(27件中1~10件)」)。
Emergency/Trauma = Actual
にフォーカスし、行を見渡します。
- 合計列は、この実測クラスを含む
4
行があることを報告します。 -
内部セルは、
Actual = Emergency/Trauma
の行についてDataRobotが予測したことを示しています。- 救急/外傷
1
回(正確な予測) - 家族医療/一般診療
1
回 - 内科
2
回
- 救急/外傷
ここで、実測値のパーセンテージに設定した行列を表示します。これは、元のカウントを合計で割った値を表示します。
Emergency/Trauma = PREDICTED
のパーセンテージの合計は100%ではありません。 これは、パーセンテージが予測値ではなく実測値から取得されるためです。
設定をPercent of predicted
に変更すると、その列のパーセンテージの合計が100%になります。
では、この3つの設定を並べて表示して、色付けが示すストーリーを考えてみましょう。
カウントで表示する場合、色は表示されているセルでの最大値に基づきます。 つまり、最も一般的なクラスが、まれなクラスよりも優位になります。 最初のスクリーンショットでは、InternalMedicine
は実測値と予測値の両方で最も一般的なクラスであるため、最も明るいセルが割り当てられます。 Predicted InternalMedicine vs Actual InternalMedicine
が最も明るく、14回出現します。
クラスごとのモデルのパフォーマンスを理解するには、実測値のパーセンテージを設定します。色付けには0~100%の絶対スケールが反映されるようになりました。 これにより、データが効果的に正規化され、異なるストーリーが展開されます。 ここで、この14回の出現は、Actual = InternalMedicine
のある行の70%(正しい予測の出現14回を全出現20回で割ったもの)しか表していないため、Predicted InternalMedicine vs Actual InternalMedicine
の明るさはかなり減ります。
次に、Actual Urology vs Predicted InternalMedicine
を検討します。 カウントでは、非常に暗い色で表示されます。このビューでの最大出現回数が14であるのに対して、2回しか出現しなかったためです。Actual = Urology
の行は全部で2つしかありませんでした。 しかし、実測値のパーセンテージを見ると、行列(明るい)は、DataRobotがActual = InternalMedicine
を予測した行の100%でそれをレポートします。
設定(色付け)をPercentage of predicted
に切り替えても、予測されたクラスについては同様の結果になります。 3枚目のスクリーンショットでは、カウントで色付けしたときに明るかったPredicted InternalMedicine vs Actual InternalMedicine
が、まだ暗いことを示しています。 なぜなら、この14回の出現は、InternalMedicine
を予測したすべての行の41.2%に過ぎないためです。
行列の操作¶
行列を操作するには:
- 予測値軸と実測値軸の凡例の矢印を使用して、データセット内のすべてのクラスをスクロールします。
-
行または列をクリックして、セル内のその特徴量のすべての出現を(白い枠線で)ハイライトします。 四角いセルは、実測クラスと予測クラスが同じである回数を示します。 クリックしたセルによって、 選択したクラス行列が右側に設定されます。
-
セルにカーソルを合わせると統計が表示されます。 値は、セルのクラスの組み合わせだけでなく、設定ドロップダウンから選択できる各オプションの値もレポートします。
選択したクラス行列¶
選択したクラス行列を使用して、特定のクラスを分析します。 クラスを選択するには、行列全体をクリックするか、またはドロップダウンから選択します。 ドロップダウンから選択すると、多クラス行列のハイライトが更新され、現在の個々の選択にフォーカスします。 多クラス行列の軸を変更すると、選択したクラスの混同行列のレイアウトが変更されます。
選択したクラス行列は以下を示します。
-
クラスごとのパフォーマンス (1) の個別統計および集計統計。
指標の説明
各指標の簡単な説明を以下に示します。
指標 説明 F1スコア モデルの精度を測るスケールで、陽性的中率とリコールに基づき計算されます。 リコール 感度またはTrue Positive Rate (TPR)とも呼ばれます。 実測されたすべての陽性の中で、True Positives(陽性だと正しく予測された場合)が占める比率。 プレシジョン Positive Predictive Value (PPV)とも呼ばれます。 すべての陽性(Positive)の予測に関してモデルが正しかったパーセンテージ。 -
選択したクラス (2) の実測および予測された誤分類のパーセンテージ。
-
二値プロジェクト (3) の ROC曲線で使用できる行列と同じ形式の個々のクラス混同行列。
四分割表の説明
選択されたクラスの混同行列は、四分割されます。その概要を以下の表に示します。
象限 説明 True Positive (TP) 実際に _ClassX_であるデータセットのすべての行に対して、DataRobotが _ClassX_として正しく予測した割合(パーセント)は? True Negative (TN) ClassXではないデータセットのすべての行に対して、DataRobotが _ClassX_以外として正しく予測した割合(パーセント)は? False Positive (FP) DataRobotが _ClassX_として予測したデータセットのすべての行のうち、 _ClassX_ではなかった割合(パーセント)は? これは、大きな行列内のクラスの全ての間違った予測の合計です。 False Negative (FN) _ClassX_であるデータセットのすべての行に対して、DataRobotが _ClassX_以外として誤って予測した割合(パーセント)は?