Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

混同行列(多クラス分類モデル)

本機能の提供について

多クラスプロジェクトで無制限のクラスを利用できるかどうかは、お客様の料金プランによります。お客様の組織で有効になっていない場合、クラス制限は100に設定されています。この制限を増やすには、DataRobotの担当者にお問い合わせください。

多クラス分類モデルの場合、DataRobotでは、モデルのパフォーマンスの評価に役立つ多クラス混同行列が提供されます。混同行列は、実際のデータ値と予測データ値を比較するので、誤ったラベル設定が行われたかどうか、およびどの値で誤ったラベル設定が行われたかを容易に把握できます。

背景情報

一般的に、予測問題には、連続値と分類の2つの種類があります。連続値問題は、連続値(1.7, 6, 9.8…)を予測します。一方、分類問題は、値を不連続の クラス(購買、販売、保有...)に分類します。

分類は二値問題と多クラス問題に分けることができます。二値分類では、クラスは2つだけです。この例には、顧客が期日までに決済するかどうか(YesまたはNo)、患者が再入院するかどうか(TrueまたはFalse)などがあります。

一方、多クラス問題では、2つ以上の結果(クラス)が提供されます。例えば、顧客が(商品を購入するかどうかだけではなく)5つの競合企業のどれを選択するかという問題が考えられます。または、(誰かが電話をかけてくるかどうかではなく)通話をどの部署に転送するかという問題も考えられます。多クラス問題でクラスを足すことができることによって、より多くの「どっちの」という質問を尋ねることができ、より細かいモデルと解を得ることができます。

DataRobotでは、ターゲット特徴量の値の数に応じてプロジェクトタイプ、およびプロジェクトの種類(標準多クラス、拡張多クラス、または無制限の多クラス)が自動的に決定されます。以下の表は、DataRobotで数値ターゲットデータ型と数値以外のターゲットデータ型にデフォルトの問題タイプがどのように割り当てられるかを示します。

ターゲットデータ型 一意のターゲット値の数 デフォルトの問題タイプ 多クラス分類の使用
数値 3-10 連続値 あり(オプション)
数値 >10 連続値 あり、オプション(拡張多クラス)
数値以外 2 二値分類 なし
数値以外 3-100 多クラス あり(自動)
数値以外、数値 100+ 無制限の多クラス はい(有効化されれば自動化)

多クラスモデルの構築

多クラスモデリングでは、二値または連続値プロジェクトと同じ一般モデル構築ワークフローを使用します。

  1. データターゲットをインポートし、ターゲットを指定します。
  2. 該当する場合、多クラスに連続値プロジェクトを変更します。
  3. 1000クラスを超える無制限の多クラスプロジェクトの場合、集約設定を変更できます。それ以外の場合、DataRobotは、デフォルトでは、頻度上位999位のクラスを維持し、残りの部分を単一の「他の」バケットに集計します。
  4. 混同行列を使用してモデルのパフォーマンスを評価します。

連続値プロジェクトから多クラスプロジェクトへの変更

ターゲット特徴量を入力すると、プロジェクトのタイプが分類され、デフォルトがターゲット特徴量の横のタグで示されます。

問題が連続値として分類され、多クラスに変換できる場合、ターゲット入力ボックスの下に分類に切り替えるリンクが表示されます。リンクをクリックすると、プロジェクトが分類問題に変換されます(値は連続値ではなく分類として解釈されます)。ユニーク値の数が許容範囲外にある場合、分類に切り替えるリンクは使用できません。

ヒント

プロジェクトが「多クラスに対応しているかどうか」は設定によって異なります。無制限の他クラスが有効な場合、すべてのプロジェクトを変換できます。無制限の多クラスがない場合、一意の数値が100個以下の場合は数値を多クラスに変換できます。

連続値に切り替えるをクリックすると、プロジェクトタイプが分類からデフォルトの連続値設定に戻ります。

トレーニング方法を設定したら、指標を確認または変更し、モデリングモードを選択し、開始をクリックします。

無制限の多クラス

組織で有効な場合、無制限の多クラスはターゲット特徴量に含まれるクラスの数が100個未満のプロジェクトを処理できます。1000クラスを超えるターゲットを含むプロジェクトの場合、DataRobotは多クラス集計を使用してモデリングクラス数を1000にします。

無制限の多クラス集計の設定

1000クラスをサポートするため、DataRobotは頻度に基づいて、クラスを自動集計して、1000個の一意のラベルにします。しかし、集計パラメーターを設定して、プロジェクトに必要なすべてのクラスが表示されるように設定することもできます。

DataRobotは、検出されたクラスの数に基づいて、内訳を処理します。

  • 101~1000クラスの場合、モデリングは通常通り継続します。
  • 1000クラス以上の場合、ターゲット入力フィールドの下に注意が表示されます。

注意が表示された場合、DataRobotによる集計の処理を許可できます。この場合、999クラス(最も頻度の高い999クラス)があります。他のクラスはすべて、1000番目クラス(その他)に固定されます。しかし、集計設定を変更できます。

備考

1000クラス未満の多クラスプロジェクトでも集計設定を使用できます。

集計の設定

集計設定を変更するには、高度なオプションを表示リンクをクリックし、特徴量制限を選択します。ターゲットクラスを集計セクションにスクロールします。

次の表は各フィールドを説明しています。

要素 説明
ターゲットクラスを集計 集計機能を有効にします。検出されたクラスの数が1000を超えた場合、選択が音になり、変更はできません。1000クラス未満の場合、選択はデフォルトではオフですが、有効にできます。
集計クラスの名前 「その他」ビンの名前を設定します。「その他」ビンは、この集計プランの設定に該当しないすべてのクラスを含むビンです。これはデータセット内の除外値のすべての行を表します。指定された名前は列内のすべての依存のターゲット値と異なる必要があります。
非集計クラスでの最小頻度 「その他」ビンでのバケット化を回避するために必要なクラスに属する行の最小発生数を設定します。つまり、インスタンスが少ない複数のクラスは1つのクラスに折りたたまれます。
非集計クラスの最大数 集計後のクラスの最終数を設定します。最後のクラスは「その他」ビンです。(たとえば、900を入力した場合、データからの899個クラスビンと集計されたクラスの1つの「その他」ビンがあります。)3~1000の値を入力します。
集計から除外されるクラス 集計から保存されたクラスのカンマ区切りリストを識別し、対象である頻度が低くないクラスの予測を行うことができます。

集計の例

データセットには、ターゲット列の以下のパラメーター(8個の一意の値(クラス))が表示されます。

クラス 行数
A 1024
B 512
C 256
D 128
E 64
F 32
G 16
H 8

パラメーターは以下のように設定されます。

パラメーター VALUE
集計クラスの名前 その他のビン
非集計クラスでの最小頻度 50
クラスの最大数 5
集計から除外されるクラス [E、H]

クラスマッピングは、以下のように実行されます。

クラス 行数 インパクト
A 1024 なし、最小頻度以上
B 512 なし、最小頻度以上
C 256 なし、最小頻度以上
D 128 なし、最小頻度以上
E 64 なし、最小頻度以上
その他のビン 48 上記のFとGの組み合わせの行; 最小頻度を満たさない
H 8 集計から除外

これで、クラスマッピングによって7個の一意の値となりました(FとGが削除され、集計されたクラスに置き換えます)。「最大クラス数」パラメーターは最大数を5に設定し、2つ以上の「削除」を求めます。次に、DataRobotは、集計から除外されていないもの(EとHは除外済み)の中で頻度が最も低いものを削除します。そのため、CとDを削除します。その結果、最終的なターゲットクラス値の分布は以下のようになります。

  • クラスAとBが最も頻度が高いです。
  • クラスEとHは集計から除外されます。
  • クラスC、D、F、およびGが単一のクラス(DRRARE_TARGET_VALUES)に集計されます。
予測を作成する場合の応答時間

無制限の多クラスを使用する場合、予測データセットのクラス数と行数に応じて応答時間が直線的に増加するため、予測作成時により小さな「チャンク」サイズを使用することをお勧めします。

各クラス予測は、小数点(0.xxxxxxxxxx)の右に最大10桁を生成できます。そのため、各行に1クラスあたり13バイト生成できます。たとえば、10,000行の1000クラス多クラスの単一データセット予測は、13B * 1000 classes * 10000 rowsまたは約130MBの応答を生成できます。

特徴量のインパクトの変更

100クラスを超えるプロジェクトでは、特徴量のインパクトのビジュアライゼーションは、クラスごとのインパクトではなく、集計された特徴量のインパクトのみをチャート化します。その理由は以下のとおりです。

  1. 集計されたクラスのみを使用すると、実行時間が改善する。
  2. 各クラスインスタンスはカウントが比較的低いため、集計されたスコアよりもスコアの信頼性が低くなる。

そのため、クラスの選択ドロップダウンはチャートでは使用できません。

混同行列の概要

いずれの分類プロジェクトタイプでも、DataRobotでは、モデルのパフォーマンスの評価に役立つ混同行列が構築されます。「混同行列」という名前は、1つのクラスを別のクラスとして一貫した形で誤ったラベル設定(混同)を行うことにより、モデルがどのように2つ以上のクラスを混同するかを意味します。混同行列は、実際のデータ値と予測データ値を比較するので、誤ったラベル設定が行われたかどうか、およびどの値で誤ったラベル設定が行われたかを容易に把握できます。

問題タイプに固有の混同行列は、二値分類(ROC曲線)と多クラス問題の両方で利用できます。多値混同行列にアクセスするには、最初にモデルを作成し、評価グループから混同行列を選択します。

このタブでは、各多クラス分類モデルに2つの混同行列テーブル(多クラス分類混同行列選択されたクラスの混同行列)が表示されます。プロジェクトの構築に使用したトレーニングデータの結果に基づいて、両方の行列で各クラスの予測値と実測値が比較され、グラフィック要素によってクラスの誤ラベルが示されます。多クラス分類混同行列は、選択したターゲットに対して見つかった各クラスの概要を示し、選択されたクラスの混同行列は特定のクラスを分析します。これらの比較から、DataRobotモデルのパフォーマンスを判断することができます。

混同行列タブで使用できる要素を以下に示します。

オプション 説明
行列 見つかったすべてのクラスの概要。
データ選択 使用されたデータパーティション。
モード 表示に影響を与えるモード。
表示オプション 表示オプションのメニュー。
行列の詳細 数値頻度の詳細。
クラスセレクター 個々のクラスセレクター。
選択されたクラスの混同行列 クラス固有の行列。
拡張クラス混同行列サムネイル 拡張クラスのサムネイル。

大きい混同行列

この行列は、データセット内で選択したターゲットに対してDataRobotで認識された各クラス(値)の概要を表示します。異なった色およびサイズの円を使用して分類予測の結果がレポートされます。色は予測の精度を示します。緑の円は正しい予測を表し、赤い円は間違った予測を表します。円のサイズは、正しい予測と誤った予測の(行数に基づく)発生数の視覚的なインジケーターです(「製品問題」が予測されていても、実測値は「不適切なサポート」であった場合の行数など)。

多クラスのタイプによって行列のデフォルトのサイズは異なります。

  • 100クラスまでは、行列は10個の特徴量✕10個の特徴量となります。
  • 100クラスを超える場合、行列は25個の特徴量✕25個の特徴量となります。

多クラス分類混同行列でいずれかの正しい予測(緑の円)をクリックします。そのクラスの追加の詳細が、行列の右側に表示され、分析できるようになります。

データ選択

多クラス分類混同行列の構築に使用されるデータは、プロジェクトタイプに依存し、データ選択ドロップダウンを使用して変更できます。選択したオプションは、表示を変更して、プロジェクトの履歴(トレーニング)データを反映します。

  • 非認識プロジェクトの場合、検定、交差検定、またはホールドアウト(ロック解除されている場合)パーティションのデータが使用されます。

  • 時間認識プロジェクトの場合、個々のバックテスト、すべてのバックテスト、またはホールドアウト(ロック解除されている場合)のデータが使用されます。

さらに、外部テストデータセットを追加すると、モデルのパフォーマンスの評価に便利です。

モデル

ターゲット列内の各クラスに関する詳細情報を提供する3つのモードオプション(全体実測予測)があります。モードを変更すると行列全体、選択されたクラスの行列、および選択されたクラスの詳細が更新されます。

以下の表に多クラス混合行列の各モードを説明します。

モード 説明 行列グリッドのセルにマウスを置くと表示される内容...
全体 選択した各クラスのF1スコア、リコール、およびプレシジョン指標を提供します。
  • 行の総数
  • 行の総数と選択した分割内の行の総数の比較(%)
実測 リコールスコアの詳細、およびモデルで選択したクラスと混同されたクラスの部分的なリストを表示します。全リストをクリックすると、混同された全てのクラスのリコールスコアが表示されます。*
  • 行の総数
  • 行の総数と選択した分割内の実際のクラス値の行の総数の比較(%)
予測 プレシジョンスコア(選択されたクラスがモデルでどれだけ正確に予測されるか)の詳細を表示します。全リストをクリックすると、混同された全てのクラスのプレシジョンスコアが表示されます。*
  • 行の総数
  • 行の総数と選択した分割内の予測クラス値の総数の比較(%)

完全な一覧をクリックすると、特徴量の誤分類ポップアップが開き、全てのクラスのスコアがリストされ、実測モードと予測モードを切り替えることができます。

表示オプション

歯車アイコンをクリックすると、多クラス混同行列の並べ替えおよび別の配置に変更するためのオプションのメニューが表示されます。

以下の表示オプションがあります。

  • 実測値の配置:実測値の表示の軸(行または列)を設定します。
  • 並べ替え基準:並べ替え順(アルファベット順、実測または予測頻度、またはF1スコア)を設定します。
  • 順序:昇順または降順で行列を表示します。

例えば、最小の予測頻度値を表示するには、予測頻度と昇順のオプションを選択します。該当する値が行列の一番上に表示されます。

行列の詳細

多値混同行列の右側と下を縁どる青いバーは、各クラスの数値的な頻度の詳細を示し、DataRobotの精度を判断するために役立ちます。どのクラスでも、実測値軸の反対側にあるバーをクリックすると、実測頻度が表示されます。予測軸の反対側にあるバーをクリックすると、予測頻度が表示されます。

以下の例は、[50-60)特徴量のageクラスの実測頻度をレポートします。この場合、トレーニングデータに基づき、(このサンプルサイズで)[50-60)クラスがターゲットageの値であった264のインスタンスがありました。この264行はデータセット全体の16.5%を占めます。

ヒント

現在選択されているクラスに関係なく、青いバーの上にマウスを置くことで、そのクラスの頻度詳細を表示できます。

クラスセレクター

ドロップダウンでは個々のクラスを選択でき、アクティブなモードに基づいて詳細を見ることができます。

選択されたクラスの混同行列

小さい行列は、ある1つのクラスの精度詳細を表示します。ドロップダウンを使用するか、大きな行列で緑の円をクリックすることによって、モードまたは選択されたクラスを変更すると、選択されたクラスの混同行列が動的に更新されます。選択された分類の混同行列に表示されるクラスは、大きな行列で同時にハイライトされ、ラベルが付けられた四分割表に頻度パーセンテージが表示されます。行列内の円の上にマウスを置くと、(選択された分割における)サンプル内の行の総数に対する貢献度合いが表示されます。四分割表の各分割の行の合計は、データセットの合計に一致します。たとえば、Bad SupportがターゲットのChurnReasonsの値であったインスタンスが1600あります。各四分割の上にマウスを置くと、DataRobotの予測の各結果の数(精度)が表示されます。

選択されたクラスの混同行列は、四分割されます。その概要を以下の表に示します。

四分割 説明
True Positive 実際にClassAであるデータセットの全ての行に対して、DataRobotがClassAとして正しく予測した数(割合)。この四分割表のセルは、大きな行列で反映された値に等しくなります。
True Negative 実際にClassAではないデータセットの全ての行に対して、DataRobotがClassA以外として正しく予測した数(割合)。この四分割表のセルは、大きな行列で反映された値に等しくなります。
False Positive DataRobotがClassAとして予測したデータセット内の全ての行のうち、ClassAではなかった行の数。これは、大きな行列内のクラスの全ての間違った予測の合計です。
False Negative 実際にClassAであるデータセットの全ての行に対して、DataRobotがClassA以外として誤って予測した数(割合)。この四分割表のセルは、大きな行列内の選択されるべきクラスでありながらそうではない全ての行の合計を示します

拡張クラス混同行列サムネイル

拡張クラス(11~100)多クラスプロジェクトでは、結果のより詳細な調査を行うことのできるサムネイルページネーションツールを利用できます。サムネイルは、完全な多クラス行列の小型の表現です。サムネイルの青いドットは、(正しく分類されたかどうかに関係なく)ほとんどの予測を含む場所を示すので、検査対象の場所と考えることができます。

サムネイル内をクリックすると、大きな行列が更新され、選択した箇所の周囲の10x10の領域が表示されます。最終的なフレーム(右下)には、最後の10の境界以降の残りの列だけが表示されます(たとえば、83個のクラスのあるデータセットでは3つのエントリだけが表示されます)。完全な行列は、上記の拡張されていない多クラス行列と同様に機能します。大きい10x10の行列に表示される各セルの統計は、サムネイルによってあらわされる完全な混同行列にわたって計算されます。

サムネイルは、外側にある矢印を使用するか、特定のボックスをクリックすることによってナビゲートできます。行および列の番号は、現在の行列位置を識別するために役立ちます。

青いドットが左上から右下に斜めに表示されているサムネイルは、優れたモデルである可能性があります(正しい予測が多数あります)。しかし、カテゴリーは順番通りではないので、ドットが偶然収集された欠損値を示すことがあり、個々の四角を詳細に調査してパフォーマンスをチェックすることが重要です。


更新しました May 10, 2022
Back to top