混同行列¶
ROC曲線タブは、実測値と予測値を比較することで精度を評価できる混同行列を提供します。 混同行列は、実測値と予測値をまとめた表のことです。 モデルが2つのクラスを混同している(1つのクラスをもう1つのクラスと混同してしまう)かどうかを示す行列であることから、「混同行列」という名称が使われています。
混同行列を使用した精度の評価¶
混同行列の分析¶
上記のサンプル混同行列はユースケース2に基づいています。
-
行列の各列には、予測された分類のインスタンスを表しています(再入院しないと予測、再入院すると予測)。
-
行列の各行には、実測された分類のインスタンスを表しています(実際に再入院しなかった、実際に再入院した)。 上記例の左側の実測軸を見ると、Trueは青い行に対応し、Positiveクラス(1または再入院した)を表し、Falseは赤い行に対応し、Negativeクラス(0または再入院しなかった)を表します。
-
行列には、行と列ごとの合計が表示されます。

-
正しい予測の合計はTP+TN、誤った予測の合計はFP+FNです。 ユースケース2について、サンプル行列を以下のように解釈することができます(左から右、上から下に読んでください)。
値 モデル予測 True Negative(TN) 再入院しないと予測され、実際に再入院しなかった1207人の患者。 False Positive(FP) 再入院すると予測されたが、実際に再入院しなかった3594人の患者。 False Negative(FN) 再入院しないと予測されたが、実際に再入院した1504人の患者。 True Positive(TP) 再入院すると予測され、実際に再入院した6496人の患者。
備考
予測分布グラフは、同じ値と定義を使用します。
混同行列は、精度だけに頼らず、より詳細な分析結果を活用します。 精度は、データセットが不均衡である場合(異なるクラスのサンプル数に大きく変動する)誤った結果を生じるため、分類子の実際のパフォーマンスについて、常に信頼できる指標ではないと考えられます。
スマートダウンサンプリングが有効になっている場合、混同行列の合計はデータパーティションのサイズ(検定、交差検定、ホールドアウト)と若干異なる場合があります。 これは主に丸め誤差に起因します。 実際には、マイノリティークラスの行には常に1の「加重」が割り当てられます(高度なオプションで設定する加重と混同しないように注意してください)。この加重が、ダウンサンプリング中に削除されることはありません。 マジョリティークラスの行のみが1より大きい「加重」を取得し、ダウンサンプリングされる可能性があります。
合計数を表示するには
行列のセル(左上上位のTrue Negativeセルなど)にカーソルを合わせると、合計数が数値または割合として確認できます(ここに表示される数値としての合計数)。
