Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データと表示しきい値の選択

ROC曲線タブの可視化を使用するには、データソース表示しきい値を選択します。 これらの値により、ROC曲線が可視化されます。

可視化するデータを選択

ROC曲線の可視化に反映されるデータソースを選択するには:

  1. リーダーボードでモデルを選択し、評価 > ROC曲線に移動します。

  2. 予測分布グラフの上にあるデータ選択のドロップダウンメニューをクリックし、可視化で表示するデータソースを選択します。

    備考

    データ選択リストには、有効化され実行されたパーティションのみが含まれます。 リストには、プロジェクトに追加されたすべてのテストデータセットが含まれます。テストデータセットの選択は、実行されるまで非アクティブです。 時間認識モデリングは、バックテストベースの選択を可能にします。

    選択項目 説明
    ホールドアウト 可視化には、ホールドアウトパーティションを使用します。 モデルのホールドアウトがロック解除されていない状態で実行された場合、ホールドアウトは選択リストに表示されません。
    交差検定 可視化には、交差検定パーティションを使用します。 DataRobotは交差検定の分割を「スタック」し(デフォルトでは5)、結合されたデータの可視化を計算します。
    検証 可視化には、検定パーティションを使用します。
    外部テストデータ 可視化には、実行した外部テストのデータを使用します。 テストデータセットを追加したがまだ実行していない場合、そのテストデータセットの選択は非アクティブです。
    外部テストデータを追加 外部データを追加を選択した場合、予測 > 予測を作成タブが表示されます。 タブを使用してテストデータを追加し、外部テストを実行します。 [ROC曲線]タブに戻ってデータ選択をクリックし、実行したテストデータを選択します。
  3. [ROC曲線]タブの可視化を表示します。 Update the display threshold (see below) as necessary to meet your modeling goals.

表示しきい値を設定

表示しきい値は、ROC曲線タブのいくつかの可視化の基準です。 設定したしきい値により、予測分布グラフに加え、次のセクションで説明する[チャート]、[行列]、および[指標]ペインが更新されます。 モデリング目標を満たすしきい値で実験します。

一歩進んだ操作:しきい値

分類モデルのしきい値は、予測値のクラス境界を設定するポイントです。 モデルは、しきい値を下回る観測値を「false」として分類し、しきい値を上回る観測値を「true」として分類します。したがって、DataRobotでは、しきい値を超える予測にPositiveクラスのラベルが自動的に割り当てられます。

変更できるしきい値は2つあります。

  • The display threshold: Updates the visualizations on the ROC Curve tab.
  • 予測しきい値:このモデルを使用して作成されたすべての予測のしきい値(およびラベル)を変更します。

表示しきい値には、予測値(0~1)または予測パーセンテージの2つのベースのいずれかを選択できます。 予測値は、クラスの境界の決定に使用される数値を表しています。 パーセンテージオプションでは、1つのクラスとして分類される上位または下位n%のレコードを設定できます。 たとえば、上位の予測をフィルターし、その境界を使用してリコール計算などを実行するかと思います。 次に、値を比較指標として使用するか、単に記録の上位パーセンテージの点検に使用できます。

表示しきい値を設定するには:

  1. [ROC曲線]タブで、表示しきい値のドロップダウンメニューをクリックします。

    要素 説明
    1 表示しきい値 設定したしきい値を表示します。 クリックしてしきい値の設定を選択します。 予測分布グラフをクリックして、表示しきい値を更新することもできます。 表示しきい値は、デフォルトでF1を最大化します。

    別のモデルに切り替えると、表示しきい値が更新され、新しいモデルのF1が最大化されます。 これにより、モデル間の分類結果を簡単に比較できます。 If you select a different data source (by selecting Holdout, Cross Validation, or Validation in the Data Selection list), the Display Threshold updates to maximize F1 for the new data.
    2 しきい値 スライダーをドラッグするか、表示しきい値を入力してください。可視化ツールはそれに応じて更新されます。
    3 オプションの最大化 F1スコア、MCC(マシューズ相関係数)、または収益などの指標を最大化するしきい値を選択します。 収益を最大化するには、まず、行列ペインの+ペイオフを追加をクリックしてペイオフを設定します。

    The metrics values on the ROC curve display might not always match those shown on the Leaderboard. ROC曲線指標の場合、DataRobotは、分布を最もよく表す計算されたしきい値を最大120個保持します。 このため、詳細が失われる可能性があります。 たとえば、表示しきい値としてMCCを最大化を選択した場合、DataRobotは上位120のしきい値を保持し、その中で最大値を計算します。 この値は通常大差はありませんが、指標値と正確に一致しない場合があります。
    4 予測しきい値として使用 クリックして、予測しきい値表示しきい値の現在の値に設定します。 それにより、予測時に、しきい値は、PositiveとNegativeの分類の境界として機能します。—しきい値を上回る観測値は、Positiveクラスのラベル、しきい値を下回る値はNegativeクラスのラベルを受け取ります。 予測しきい値は、 収益曲線を生成する場合、および 予測を行う場合に使用されます。
    5 予測しきい値を表示 クリックして、視覚化コンポーネント(グラフとチャート)をモデルの予測しきい値にリセットします。
    6 しきい値タイプ 最高予測値の上位%または予測値(0~1)を選択します。 See Threshold Type for details.

    この例では、表示しきい値は0.2396に設定されており、これによりF1スコアが最大化されます。

  2. 更新された可視化を表示します。 表示しきい値に有効な入力は、次のページの要素を変更します。

    • 更新された値は、指標ペインと([行列]ペインで)混同行列に表示されます。
    • 予測分布グラフにあるオレンジ色の線が選択した値に合わせて移動し、オレンジ色の円でマークされます。
    • ROC曲線収益曲線など—[チャート]ペインに表示される現在の曲線で、新しいポイントが選択されます(円で示されます)。 一部の曲線には、ポイントに対応する線の交差点があります。

    備考

    可視化の表示は、指定したしきい値に最も近いデータポイントを表します(つまり、20%と入力した場合、実際には表示は20.7%のように表示されます)。 ボックスは、「戻る」を押した後に正確な値をレポートします。

表示しきい値の設定方法

タブをクリックすると、表示しきい値の別の設定方法が表示されます。

  1. ROC曲線タブで、表示しきい値のドロップダウンメニューをクリックします。

  2. スライダーを使用するか、値を入力して表示しきい値を設定します。

    しきい値タイプ上位%の場合は、0~100の値を入力します(入力後に正確なポイントに更新されます)。 しきい値タイプ予測値の場合、0.0から1.0までの数値を入力します。入力した値が有効でない場合は、右側に注意メッセージが表示されます。

  3. ドロップダウンの外側をクリックすると、可視化ツールに表示しきい値の影響が表示されます。

  1. 表示しきい値に使用する指標のMaximum(最大)値を選択します。 F1、MCC、または利益から選択します。 指標のMaximum(最大)値は次のように表示されます。

    備考

    利益を最大化できるようにするには、行列ペインをペイオフ行列に設定する必要があります。 それ以外の場合、利益を最大化オプションはグレー表示されます。

  2. ドロップダウンの外側をクリックすると、可視化ツールに表示しきい値の影響が表示されます。

  1. 「ゴースト」線がその上に対応する値で表示されるまで、予測分布グラフにカーソルを合わせます。

  2. クリックすると、表示しきい値が新しく選択された値に自動的に更新されます。

予測しきい値の設定

二値分類モデルの予測リクエストでは、Positiveクラスの確率とラベルの両方が返されます。 しきい値(表示しきい値)が自動的に計算されますが、予測時にラベルを適用するときに、しきい値は0.5にリセットされます。 結果の予測では、しきい値を超える値を含むレコードには、このしきい値に基づいて(予測に加えて)Positiveクラスのラベルが設定されます。 この値によって予測処理後に実際のしきい値ラベルを適用する必要が生じている場合、予測しきい値を変更して、そのステップを回避できます。

予測しきい値を設定するには:

  1. ROC曲線タブで、表示しきい値のドロップダウンメニューをクリックします。

  2. Update the display threshold if necessary.

  3. 予測しきい値として使用を選択します。

    デプロイした後、このモデルで作成され、新しいしきい値を超えるすべての予測は、Positiveクラスラベルを返します。

ここで設定した予測しきい値は、以下のタブにも保存されます。

これらのタブのいずれかで値を変更すると、新しい値がすべてのタブに反映されます。 モデルをデプロイした後は、そのデプロイ内でしきい値を変更することはできません。

設定をデフォルトのしきい値の0.5に戻すには、予測しきい値の表示をクリックします。


更新しました February 20, 2024