Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

多ラベルモデリング

本機能の提供について

多ラベルモデリングが利用できるかどうかは、お使いのDataRobotパッケージによって異なります。 組織内で有効になっていない場合は、DataRobotの担当者に詳細をお問い合わせください。

多ラベルモデリングは一種の分類タスクであり、多クラスモデリングと似ていますが、高い柔軟性があります。 多ラベルモデリングでは、データセットの各行は1つ、複数、またはゼロのラベルに関連付けられます。 よく見られる多ラベル分類問題の1つは、テキストの分類です(たとえば、映画の説明文には「犯罪」と「ドラマ」の両方を含められる)。

もう1つの一般的な多ラベル分類問題は画像の分類であり、画像が1つのカテゴリー、複数のカテゴリー、またはどれにも当てはまらない(猫、犬、熊)ことがあります。

多ラベルモデリングの操作に関する 考慮事項を参照してください。

一歩進んだ操作:多変量モデリング用にサポートされているデータ型

DataRobotは、以下の戦略を多変量モデリング向けにサポートしています。

  • 多クラス:二値分類の拡張では、特徴量に複数のクラスを許可できますが、一度に適用できるのは1つだけです(「私が見ているのは猫ですか、それとも犬ですか?」)。 予測は、各クラスの確率を個別に報告します(「90%の確率で犬ですが、小さいクマである可能性もあります」)。 行の予測は合計で1になります。

  • 多ラベル:より高い柔軟性を提供する多クラスの一般化。 各観測値は、0、1、または複数のラベルに関連付けることができます(「私が見ているのは猫ですか?犬ですか?猫犬ですか?猫でも犬でもありませんか?」)。 予測は、観測値の各ラベルの確率を報告します。合計が必ずしも1になるとは限りません。

  • 集計されたカテゴリー型特徴量:複数のカテゴリー値を持つ特徴量に使用する特微量の型(たとえば、同一製品のカテゴリーまたは部門ごとの点数など)。 カテゴリーデータを集約し、一般的には特徴量探索に使用されますが、データセット内でこの型を作成して、独自のビジュアライゼーションを使用することも可能です。

次の表は、多変量モデリングをサポートする特徴量の型をまとめたものです。

データ型 説明 ターゲットとして許可しますか? プロジェクトタイプ
カテゴリー 1行に単一のカテゴリー、相互排他的 はい 多クラス
多カテゴリー 1行に複数のカテゴリー、非排他的 はい 多ラベル
集計されたカテゴリー型特徴量 1行に複数のカテゴリー、各カテゴリーの複数のインスタンスを許可 いいえ 重回帰*

* 現在サポートされていません

データセットの作成

多ラベルモデリングに使用できるトレーニングデータセットを作成するには、1つの多カテゴリー列を含めます。 以下の点に注意してください。

  • 多カテゴリ特徴量は、ターゲットとして選択されている場合にのみサポートされます。 他のすべての多カテゴリ特徴量は無視されます。

  • DataRobotでは、各多カテゴリー特徴量で最大1,000個の一意のラベルを使用して、プロジェクトを作成することができます。 DataRobotではそれらを無視するため、データセットから無関係なラベルを削除する必要はありません。 特徴量の制約の高度なオプションを使用して、モデリングのためにラベルをトリミングする方法を設定します。

  • ラベル名は最大60のASCII文字の文字列である必要があります。60バイトまでのUnicode文字がサポートされています。

  • 同じラベルが複数回出現してもかまいませんが、繰り返されるラベル値は1回として扱われます(たとえば、crime, drama, dramacrime, dramaとして扱われる)。

  • 画像とVisual Artificial Intelligence (AI)を扱う場合、画像データセットの作成および多ラベル特徴量用のカテゴリー列の追加に関するガイドラインに従います。

多カテゴリー行の形式

多カテゴリー行の形式は、ラベル名のリストです。 次の表に、有効な多カテゴリー値と無効な多カテゴリー値の例を示します。

理由
有効な多カテゴリー値
[“label_1”, “label_2”] 文字列形式、2つの関連するラベル付き
[“label_1”] 文字列形式、1つの関連するラベル付き
[] 関連するラベルのない1行のラベルセット
無効な多カテゴリー値
[‘label_1’, ‘label_2’] 有効なJSONリストではありません
[1, 2] ラベル名が文字列ではありません

多カテゴリー特徴量を含むCSVファイルを作成するときは、必ず特殊文字を適切にエスケープしてください。 カンマ(,)はデフォルトの区切り文字です。二重引用符記号()はデフォルトのエスケープ文字です。 補記:

  • 多カテゴリー値は、CSVファイルでは二重引用符で囲む必要があります。
  • ラベル名を囲む二重引用符は、二重引用符で囲む必要があります。

CSVファイルの多カテゴリ特徴量の有効な表現は次のようになります。

“[“”label_1””, “”label_2””]”

リスト括弧の外側の二重引用符は実測値をエスケープするため、リスト内のコンマは区切り文字として解釈されません。 また、“ラベル_1”と“ラベル_2”の前後の二重引用符をエスケープするには、それぞれを二重引用符で囲む必要があります。

Pythonを使用して多カテゴリ特徴量を含むCSVを生成するための推奨方法は、PandasのDataFrameを作成することです。このデータフレームでは、多カテゴリ特徴量の値が文字列のリストで表されます(1つの多カテゴリ行は文字列で表されるラベル名を含むリストです)。 次に、多カテゴリ列をJSONエンコードし、Pandas DataFrame.to_csvを使用してCSVファイルを生成します。 Pandasは、CSVを生成するときに適切なエスケープを処理します。

コードスニペット:4行のデータセットの作成

次のコードスニペットは、数値機能と多カテゴリ機能を備えた4行のデータセットを作成する方法を示しています。

import json

import pandas as pd

multicategorical_values = [["A", "B"], ["A"], ["A", "C"], ["B", "C"]]

df = pd.DataFrame(
    {
        "numeric_feature": [1, 2, 3, 4],
        "multicategorical_feature": multicategorical_values,
    }
)

df["multicategorical_feature"] = df["multicategorical_feature"].apply(json.dumps)

df.to_csv("dataset.csv", index=False) 

多カテゴリ特徴量の検定

DataRobotは、複数のステージで特徴量の検定を実行して、適正な行形式を確保します。

  • EDA1:特徴量が潜在的に多カテゴリである(つまり、少なくとも1つの行が正しい多カテゴリ形式を持つ)ことが検出されると、DataRobotは行のサンプルに対して多カテゴリ形式検定を実行します。 無効な多カテゴリ行は、データ品質評価ツールで多カテゴリ形式エラーとして報告されます。

  • EDA2:この特徴量が多カテゴリ形式エラーなしでEDA1に合格し、ターゲットとして選択されると、DataRobotはすべての行でターゲット検定を実行します。 形式エラーが検出された場合、プロジェクト作成エラーモーダルが表示され、プロジェクトはキャンセルされます。 モーダルで詳細リンクを展開し、形式の問題と必要な修正を確認します。 エラーを修正したら、データを再アップロードして、再度試みます。

EDA1に合格して、EDA2に不合格なのはどうしてですか?

データセットが500MBを超える場合、DataRobotはサンプルに対してEDA1を実行します(これは多ラベルに限ったことではない)。 次に、EDAのサンプルからランダムに100行を抽出し、多カテゴリ形式に合致するものがあるかどうかをチェックします。 有効な多カテゴリ特徴量が1つでも存在すれば、DataRobotはEDAサンプル全体をチェックします。 ターゲット検定の間、DataRobotはデータセット全体をチェックします。 その結果、無効な特徴量がEDA1に合格し、データセット全体を評価したときにエラーとなる可能性があります。

DataRobotによる多ラベルの検出方法

行内のすべてのラベルは、その行の「ラベルセット」を構成します。 多ラベル分類の目的は、新しい観測値が指定された場合に、ラベルセットを正確に予測することです。 EDA1中に、行にラベルセットで構成されるデータ列が検出されると、DataRobotはその特徴量に特微量の型としてmulticategoricalを割り当てます。 多カテゴリ特徴量をターゲットとして使用すると、DataRobotは多ラベル分類を実行します。

ラベルは相互に排他的ではありません。1つの行に複数のラベルを付けることや、複数の行に同じラベルを付けることができます。 データページで、多カテゴリ特徴量の上位30の一意のラベルセットを表示します。

データセットのコンテキストでラベルセットを表示するには、元のデータを見るボタンを使用します。

データセットをアップロードしてEDA1が終了したら、特徴量セットまでスクロールして、特徴量の型Multicategoricalを示す特徴量を展開して詳細を表示します。 以下では、ラベルの配布と相互作用に関するインサイトを提供する関連タブについて説明します。

特徴量の統計タブ

特徴量の統計タブは、多カテゴリ型の特徴量で使用でき、以下の表に示すようにいくつかの部分で構成されています。

要素 説明
1 特徴量のプロパティ 多ラベルデータセットの全体的な特性を提供します。
2 ペアワイズマトリックス ラベルのペアのペアワイズ統計を表示します。
3 マトリックスの管理 行列表示を制御するためのフィルターを提供します。

特徴量統計タブの統計情報は正確ではないことに注意してください。EDAに使用されるサンプルのデータセットプロパティのみを反映しています。

特徴量のプロパティ

特徴量のプロパティ統計レポートは、多ラベルデータセットの全体的な特性を提供します。

フィールド 説明 例の内容
ラベル番号 ターゲット内の一意のラベルの数。 100個の一意のラベル
カーディナリティ 各行のラベルの平均数。 平均して、各行には3つのラベルがあります
密度 各行に平均して存在するすべての一意のラベルの割合。 各列に平均して全ラベルのおよそ3%が存在します
P_min ラベルが1つだけの行。 21%の行にはラベルが1つしかありません
多様性 考えられる最大値に関する一意のラベルセットの割合。 考えられるすべてのラベルセットの約35%だけが、データ内に存在します
MeanIR(平均不均衡率)* 最も頻度の高いラベルと比較した平均的なラベルの不均衡。 最も頻度の高いラベルと比較して、平均して値が高いほど、ラベルはより不均衡になります。 平均して、ラベルは非常に不均衡です
MaxIR(最大不均衡率)* すべてのラベル全体で最も不均衡なラベル。 いくつかの極端に不均衡なラベルが存在します
CVIR(平均不均衡率の変動係数)* ラベルの不均衡のばらつき。 ラベルの不均衡がその平均の周りに集中しているか、または有意な変動があるかどうかを示します。 不均衡はラベルによって大きく異なります
SCUMBLE** 頻出ラベルと希なラベルの間の一致の尺度。 高いSCUMBLEは、データセットの学習が難しいことを意味します。 一致が高い

*不均衡対策は次に従っています。Charte, F.、Rivera, A.J.、del Jesus、M.J.、Herrera, F:Addressing imbalance in multilabel classification: Measures and random resampling algorithms。 Neurocomputing 163, 3–16 (2015)

**SCUMBLEは次の定義に従っています。Francisco Charte、Antonio J。 Rivera、Maria J。 del Jesus、Francisco Herrera: Dealing with Difficult Minority Labels in Imbalanced Multilabel Data Sets.

ペアワイズマトリックス

ペア単位の行列は、ラベルのペアのペア単位の統計と、データセット内の各ラベルの出現率を示します。 ここでは以下の操作を行うことができます。

  • 個々のラベルの頻度を確認してください。
  • ペア単位の相関を視覚化します。
  • ペア単位の同時確率を視覚化します。
  • ペア単位の条件付き確率を視覚化します。

大きい方の行列は、選択したターゲットで見つかったすべてのラベルペアの概要を示します。右側のミニ行列は、選択したラベルペアの追加の詳細を示します。 行列は、ラベル間の関係性を示す表です。 ミニ行列の変数は2つのラベルです。1つのラベルの状態(存在、不在)がX軸に沿って変化し、もう1つのラベルの状態がY軸に沿って変化します。 完全な行列の場合、状態は変化しません(必ず存在)。ラベルのみが変化します。

マトリックスの管理

20を超えるラベルを持つデータセットでは、追加の行列マップがメイン行列の左側に表示されます。 マップ上の任意のポイントをクリックし、メイン行列をその領域(調査したいラベルが収束している部分)に再度フォーカスします。 ミニ行列が変更され、ペアに関するより詳細な情報が提供されます。 または、後述するドロップダウンを使って行列表示を制御します。

色は、マトリックスフィールドのプロパティで選択されたプロパティの値を示します。 たとえば、「相関」を選択した場合、行列セルの色は、選択したセルのラベルペア間の相関を表します。赤は負の値を表し、緑は正の値を表します。 選択できる3つのプロパティ(相関、同時確率、条件付き確率)のうち、負の値を持つことができるのは相関のみです(同時確率または条件付き確率では赤い円は発生しません)。 行列の右側に隣接する青いバーは、対応する行のラベルの頻度を表します。

左側の並べ替えツールの1つを使用して、行列内のラベルの順序を変更できます。

ソートのオプション 説明
行列フィールドのプロパティ 行列に表示するプロパティ(相関、同時確率、または条件付き確率)を設定します。 (下記の説明を参照してください。)
ラベルの並び替え ラベルの順序を、アルファベット順、頻度順、または不均衡に基づいて変更します。
ラベルの選択 ラベル名をマップまたは手動で選択します。

右側のミニ行列で、プロパティドロップダウンを設定して、同時確率または条件付き確率の測定値を表示します。

この種の行列操作の一般的な説明については、混同行列のドキュメントを参照してください。

さらに、マップを使用するか、手動でラベル名を選択して、メイン行列でラベルをハイライトできます。

ラベルをマップで選択

ペアワイズマトリックスに表示されるラベルを、行列マップに基づいて変更できます。 マップ内の任意のポイントをクリックするだけで、メイン行列とミニ行列が更新され、選択した内容が反映されます。 マップ内の四角いマークは、より大きな行列が何を表しているかを示します。

ラベルの手動選択

ペアワイズマトリックスに表示されるラベルを手動で設定し、関心のある任意の組み合わせに一致させることができます。 また、組み合わせを名前付きリストとして保存し、実験後に適用して比較することも可能です。

ラベルを選択するには:

  1. ラベルの選択で、手動を選択します。

  2. 行と列を別々に設定する場合は、チェックボックスをオンまたはオフにします。

  3. 各行または列の入力フィールドには、ラベルの頻度によって決定される上位10個のラベルがデフォルトで表示されます。 必要に応じてラベルを追加または削除し、各オプションに1~10個のラベルがあることを確認します。

    • 追加する場合は、文字を入力し始めると、まだ存在しないラベルが選択可能になります。
    • 削除する場合は、ラベル名の横の×をクリックします。
  4. 必要に応じて行列を作成したら、ラベルを保存をクリックして保存し、ラベル選択を再利用できるようにします。

  5. ラベルリストが保存されている場合は、追加のドロップダウンからリストを選択できるようになります。

  6. 保存したリストを管理するには、ドロップダウンから手動選択を管理を選択します。 そこからリスト名を編集したり、リストを削除したりできます。

行列表示セレクター

以下で、2つのラベルの結合確率、2つのラベルの条件付き確率、および相関について説明します。

この選択は、「ラベルの同時発生の設定はどのくらいの頻度で発生しますか?」という質問に答えます。

たとえば、ABの2つのラベルの場合、データ行での同時生起には次の4通りの設定があります。

  • Aは存在、Bも存在
  • Aは存在、Bは不在
  • Aは不在、Bは存在
  • Aは不在、Bも不在。

同時確率は、これらイベントそれぞれの確率です。 たとえば、Aが存在、Bが不在の確率が0.25と報告された場合、データセット内のすべての行の25%において、Aが存在し、Bが不在であることを意味します。

メイン行列のペア単位の統計インサイトは、選択された両方のラベルが存在する同時確率のみを示します。 ミニ行列では、セルは同時生起の各設定の同時確率を示します。 たとえば、次のようになります。

interest_mediumが存在しprice_lowが不在の確率が13.8%の場合は、すべての行の13.8%でinterest_mediumが不在かつprice_lowが存在という状態を意味します。

データセットにラベルABがあります。 Bが存在するデータセット内のすべての行を検討します。 行にはAが存在する行もあれば、Aが不在の行もあります。 たとえば、データセットには次の行があります。

[A, B]
[B]
[A]
[A] 

Bを含む行が2つあります。 それら行の1つには、Aも存在します。 これは、Bが存在することを条件にしたAの条件付き確率になります。

| P(A present | B present) |

上記の場合、確率は0.5です。 Aは、Bの存在する2つの列のうち、1つに存在します。Bが存在することは基本条件であり、興味の対象は、その条件が与えられている場合に、Aが存在するという事象の条件付き確率です。

この例では、(イベントと条件)の4通りの設定があります。

P(A present | B present)
P(A present | B absent)
P(A absent | B present)
P(A absent | B absent) 

| メイン行列は P(A present | B present)のみを示し、ミニ行列は対応するセルのすべての設定を示します。 |

一般に相関は、2つの確率変数間の線形従属の指標です。 この場合、特徴量のラベルはABになります。 各ラベルは、「0 = ラベル不在」(「低」値)、「1 = ラベル存在」(「高」値)の二値特徴量と考えることができます。 そして、ABの相関は、Aのそれぞれの高値と低値、およびBの高値と低値の関係を示します。

Aが1かつBが1(またはAが0かつBが0)の同時出現に関するトレンドはどのようなものですか? A=1かつB=1、またはA=0かつB=0の行が多くなれば、AとBは正の相関を持つことになります。

例:

  • ラベルAが、Bが1(存在)である行すべてで1(存在)で、 Bが0(不在)の行すべてで0(不在)であれば、両者の相関は1(相関で指定可能な最高値)になります。 つまり、より多くの行でA=1かつB=1(またはA=0かつB=0)であれば、AとBは正の相関を持つことになります。
  • Bが1の行でAが0で、Bが0の行でAが1の場合、相関は-1(指定可能な最低値)になります。 つまり、正の相関とは逆のトレンド(Aの高い値がBの低い値に対応)であれば、相関は負になります。
  • トレンドがない場合、相関は0になります。

相関は、この両極端の間で、Aの高値(「1」)と低値(「0」)がBの高/低値とどのように組み合わされるかを示します。

二値特徴量の場合、相関は結合確率に似ていますが、解釈はもっと簡単です。 (両方のラベルが1であることの結合確率と両方のラベルが1であることの期待値から簡単に計算できますが、同じではありません。) なお、相関を表す2x2行列は存在しません。 これは、2つの特徴量の相関によって、4つの設定(低-低、低-高、高-低、高-高)すべての情報をまとめた1つの数値が得られるからです。 ただし、2x2行列が示すプロパティは、完全に記述するために4つの数字を必要とします。

「ヒストグラム」タブ

ヒストグラムは選択したラベルについて、ラベルがデータに存在する頻度、または不在の頻度(行数)を示す棒グラフを提供します。 ヒストグラムを使用して、不均衡なラベルを検出します。

リストからラベルを選択して、ヒストグラムを表示します。 ラベルは、名前、頻度、または不均衡で並べ替えることができます。 たとえば、不均衡オプションを使用すると、データセット内で最も不均衡なラベルを探すことができます。

ヒストグラム操作の一般的な説明については、ヒストグラムのドキュメントを参照してください。

「表」タブ

テーブルタブには、最も頻度の高い30個のラベルセットが一覧表示されます。

モデルの構築と調査

多ラベルモデルの構築では、標準のDataRobotビルドプロセスを使用します。

  1. 適切に準備されたデータセットをアップロードします(またはAIカタログから開きます)。
  2. データページで多カテゴリ特徴量を(必要に応じて検索して)見つけ、ターゲットとして選択します。
  3. 高度なオプション > 追加タブを開いて、LogLoss(デフォルト)、AUC、AUPRC、またはそれらの加重バージョンのいずれかの指標を選択します。 その他の選択を設定します。
  4. モード(オートパイロット、クイック、または手動)を選択し、モデリングを開始します。

[リーダーボード]タブ

多ラベル固有のモデリングのインサイトは、以下のリーダーボードのタブから利用できます。

また、特徴量のインパクトを使用して、どの特徴量がモデルの決定を促進するかを理解することもできます。

ラベルごとの指標

評価 > ラベルごとの指標タブは、多ラベルモデル用に特別に設計された可視化です。 予測しきい値(ページから設定可能)のさまざまな値について、ラベル全体のパフォーマンスを集計するという点でモデルの評価に役立ちます。 チャートは、各ラベルを二値特徴量として扱うことで二値のパフォーマンス指標を示します。 以下に具体例を示します。

  • 選択可能な指標について、予測しきい値に基づいて、平均およびラベルごとのモデルパフォーマンスを表示します。
  • パフォーマンスの良いラベルとパフォーマンスの悪いラベルの数を評価するのに役立ちます。

ここに記載されている指標の詳しい説明は、ROC曲線指標で参照できます。

  コンポーネント 説明
1 しきい値セレクター 予測と表示しきい値の設定を設定します。
2 指標値チャートおよび指標セレクター 設定された表示しきい値に基づいてグラフ化された結果を表示します。二値パフォーマンス指標を選択するためのドロップダウンを提供します。
3 平均パフォーマンスレポート すべてのラベルに対するマクロ平均モデルのパフォーマンス。
4 ラベルセレクター 表示を、すべてまたは固定されたラベルに設定します。
5 データセレクター ラベルごとの値をレポートするデータパーティションを選択します。
6 指標値テーブル 各ターゲットラベルのモデルパフォーマンスを表示します。

指標値テーブル

指標値テーブルは、各ターゲットラベル(二値特徴量とみなす)に対するモデルのパフォーマンスを報告します。 以下のようにテーブルを操作できます。

  • テーブル内の指標は、表示しきい値に対応します。しきい値を変更すると、異なるしきい値のラベル指標が表示されます。

  • 列ヘッダーをクリックして、テーブル内のラベルの並べ替え順序を変更します。

  • [SHOW]列の目のアイコン()をクリックすると、指標値チャートにラベルを含める(または削除する)ことができます。

  • 検索フィールドを使用して、テーブル内の特定のラベルを検索します。

  • ID列(#)は静的であり、並び替えとともに使用して、対象の指標が特定の値より上または下にあるラベルを評価できます。

    たとえば、ラベルが100個あるプロジェクトを考えてみましょう。 0.7を超える精度で測定する場合、精度でソートし、最後の精度値が0.7を超える行インデックスを確認します。その精度以上のラベルの割合は、総行数に対する行インデックスから求めることができます。

指標値チャート

チャートは、グラフ化された結果と指標セレクターで構成されています。

図中のX軸は、予測しきい値のさまざまな値を表します。 Y軸は、選択した指標の値をプロットします。 全体として、この図は、選択した指標に基づく平均モデルパフォーマンス曲線を太字の緑色の曲線として示しています。 表示しきい値で設定されたしきい値は、オレンジ色の縦線で強調表示されます。

ラベル表示の設定

ラベル名の左にあるチェックボックスをクリックすると、特に有用性の高いラベル(「固定された」ラベル)を反映した表示に変更できます。

固定されたラベルタブには、特に有用性の高いものとして選択したラベルがすべて表示されます。 固定されたラベルがない場合は、すべてのラベルに戻るように求められ、そこでラベルをクリックして固定できます。

ラベルを固定するには、[PIN]列のピンアイコン()を選択します。 固定された各ラベルは、指標値チャートに追加されます。 以下の点に注意してください。

  1. ラベル名の色は、チャートのラインエントリに合わせて変更されます。
  2. [SHOW]列の目のアイコン()をクリックすると、チャートからラベルを削除できます。

ラベルが追加されると、固定されたラベルタブで利用できるようになります。

しきい値セレクター

しきい値セクションは、表示しきい値予測しきい値の両方を入力するためのポイントを提供します。

  • 表示しきい値を使用して、ラベル指標と平均モデルパフォーマンスの表示にテーブルが使用するしきい値レベルを設定します。
  • 予測しきい値を使用して、予測作成時に適用されるモデルの予測しきい値を設定します。
  • 矢印を使用して、現在の表示と予測しきい値の値を交換します。

データセレクター

チャートとテーブルの指標と曲線の基になっているデータセットパーティション(検証、交差検定、またはホールドアウト(ロック解除されている場合))を選択します。

ROC曲線

ROC曲線の機能は二値分類と多ラベルプロジェクトで同じです。 二値の場合、タブは二値ターゲットのインサイトを提供します。 多ラベルプロジェクトでは、ラベルドロップダウンを使用して、ターゲットラベルのインサイトを個別に表示できます。

ラベルを変更すると、グラフ、サマリー統計量、混同行列などのページ要素が更新されます。

予測しきい値は手動で設定するか、F1またはMCCを最大化するように設定することができます。 選択したしきい値がすべてのラベルに適用されます。ラベルごとの個別のアプリケーションはありません。

リフトチャート

リフトチャートを使用すると、多ラベルターゲットの予測値と実測値を比較できます。 二値リフトチャートと同じように機能し、同じセレクターを提供しますが、目的のラベルを選択する機能が追加されています。

特徴量ごとの作用

特徴量ごとの作用は、データセットの特徴量をその特徴量のインパクトスコアに基づいてランク付けします。 多ラベルモデリングでは、標準の特徴量ごとの作用オプションすべてに加え、いくつかの追加機能を利用できます。 特徴量ごとの作用を計算するをクリックすると、最初に(プロジェクトに対してまだ計算されていない場合)特徴量のインパクトが計算され、その後にモデルの特徴量ごとの作用の計算が実行されます。

計算完了後に、ラベルを選択すると、部分依存、予測値、実測値が表示されます。 これらのビューは、計算されたすべての数値およびカテゴリー特徴量で利用可能です。

初期計算で計算されなかったラベルは、ラベルの選択を使用して個別に計算します。

予測を作成する

通常どおり、ワンクリックで多ラベル分類子をデプロイし、リアルタイムデプロイのAPIからワークフローに予測を統合します。 また、出力をダウンロードして、データセット内の各ラベルの結果を確認することもできます。 つまり、各行について、その行に関連するラベルの予測と、その行に対する各ラベルのスコアの両方が出力に表示されます。

機能に関する注意事項

多ラベルモデルを使用する場合は、次の点に注意してください。

  • 時間認識(時系列およびOTV)モデリングはサポートされていません。

  • DataRobotでは、各多カテゴリ特徴量で2~1,000個のラベルを使用して、一意のラベルを持つプロジェクトを作成することができます。 多ラベルインサイト(トリミング設定が適用された後)は、最も頻繁に使用される100個のラベルのみを反映します。

  • 多カテゴリ特徴量は、ターゲット特徴量としてのみサポートされています。 DataRobotは、記述的な多カテゴリ特徴量を無視します。

  • 予測のサイズはラベルの数に比例するため、リアルタイムの予測に使用できる行数は、ラベルの数とともに減少します。

  • 多カテゴリのターゲットでは、ターゲットのドリフトや精度の追跡はサポートされていません。

  • 次のモデルタイプを使用できます。

    • 決定木分類子
    • Ridge分類子
    • Random Forest 分類子
    • エクストラツリー分類子
    • 多ラベルkNN
    • 「1対すべて」のLGBM
    • 選択したKerasモデル
    • マジョリティークラス分類子
  • 以下はサポートされていません。

    • スコアリングコード
    • チャレンジャーモデル
    • Image augmentation
    • エージェント
    • 予測の説明
    • 層化抽出分割
    • 単調制約
    • オフセット
    • 通貨のデータ型
    • ROCチャートのエクスポート
    • 外部ホールドアウト
    • コンプライアンスドキュメントの生成

更新しました February 20, 2024