Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

累積チャート

チャートペイン(ROC曲線タブ)では、累積チャートを生成できます。これらのチャートは、モデルの累積特性を調査することにより、モデルのパフォーマンスを評価するのに役立ちます。モデルがない場合と比較して、モデルがある場合はどの程度成功しますか。累積チャートの一般的な使用方法は次のとおりです。

既存顧客をターゲットにマーケティングキャンペーンを展開する場合を考えてみます。顧客データベースには1,000件の名前が含まれています。これまでのキャンペーンの反応率は20%であることがわかっているので、すべての顧客を対象に印刷および郵送の費用をかけることは望ましくありません。代わりに、積極的に反応する顧客だけをターゲットにします。

  • 予測モデルを使用して、各顧客の反応(PositiveまたはNegative)の確率を判断します。
  • Positive反応の確率でソートします。
  • 確率の高い顧客をターゲットにします。

累積ゲインおよび累積リフトチャートを使用して、モデルのパフォーマンスを判断します。チャートのX軸には、モデルの予測のしきい値限度が表示されます。ゲインまたはリフトのY軸は、そのパーセンテージに基づいて計算されます。モデルには、各パーセンテージの限度レベルのゲインまたはリフト(モデルを使用しない場合の向上)が表示されます。

次のセクションでは、累積ゲインおよびリフトについて簡略に説明します。詳細については、累積値上げとリフトチャートをご覧ください。

累積ゲイン

累積ゲインには、最も信頼度の高い予測の別の限度レベルを参照した場合に識別される特定のクラスのインスタンスの数が表示されます。例:

100のNCAAバスケットボールチームのうち、50のチームがマーチ・マッドネストーナメントに出場できるとします。トーナメントに出場する50のチームを予測する場合を考えてみます。信頼度が最も高い10チーム(予測)の検証結果にまったく問題がない場合、トーナメントに出場するチームの20%を予測できたことになります。

  • トーナメントに出場する50チームのうち10チームが正しく選択されました(10 / 50 = 20% Gain)。
  • 信頼度の最も高い予測の上位10件のゲインは20%です。

別の限度レベルを選択して信頼度の最も高い20件の予測結果にも問題がない場合、ゲインは40%になります。

  • トーナメントに出場する50チームのうち正しく選択された20チーム(20 / 50 = 40% Gain

その延長線上で考えると、すべてのチームを正しく予測できた場合、予測の上位50件を限度レベルとしたときのゲインは100%になります。

  • 50チームのうち正しく選択された50チーム(50 / 50 = 100% Gain

ランダムベースライン

逆に、予測スキルがなくランダムに選択する場合、信頼度の高い10件で正しい予測が5チームだけである可能性があります(グループの分布と同じ精度に基づきます)

  • 50チームのうち正しく選択された5チーム(5 / 50 = 10% Gain

このフレームワークでは、ランダムな「ベースライン」の精度はグループの分布と同じであることが「前提」となります。その結果、ランダムベースラインの予測レベルのゲインは、限度レベルと同じになります(10%の正しい予測、10%のゲイン)。

累積リフト

累積リフトでは、ランダムベースラインに対するゲインの比較が表示されます。バスケットボールの例では、信頼度の最も高い10件の予測のリフトは2.0です。

  • 50 = 20% Gainチームのうち正しく選択された10チーム
  • モデルによる予測の20%のゲインをベースライン(ランダムモデル)の10%ゲインで割った値(20 / 10 = 2.0 Lift

つまり、ランダムモデルと比べて、モデルを使用した場合の正解率は2倍になります。

2つのクラスのバランスが均等である場合を考えて、リフトは2.0で最大になります。

  • 信頼度の最も高い10%(20% Gain → 20 / 10 = 2.0 Lift
  • 信頼度の最も高い50%(100% Gain → 100 / 50 = 2.0 Lift

ベースラインランダムレベルで予測する場合、リフトは1になります。ランダムよりも予測が悪い場合、リフトは1以下になります。

累積チャートの使用

累積チャートを使用するには、ROC曲線タブに移動し、チャートドロップダウンから累積チャートのタイプを選択します。PositiveまたはNegativeクラスに累積ゲインまたはリフトを選択できます。

以下に示すのは、Positiveクラス累積ゲインの一例です。

要素 説明
表示しきい値 ROC曲線タブの視覚化ツールで管理する表示しきい値に相当します。曲線にカーソルを合わせ、曲線上の新しい点に表示される円を移動し、クリックして新しいしきい値を選択することで、新しい表示しきい値を選択できます。
最良曲線 理的に最良のモデルを示します。
実測曲線 実測リフトまたはゲイン曲線を示します。この例は、Positive累積リフト曲線が示しています。
最悪曲線 ランダムモデルを示します。

累積チャートでは、予測モデルを使用するメリットを正しく識別できます。

インサイトの解釈

累積リフトと累積ゲインの両方は、1つのリフト曲線と1つのベースライン(「ランダム」)を含みます。この2つの領域が広いほどモデルのパフォーマンスが高くなります。ベースラインは常に、均等に分布する全体的な反応を表す斜め線です。チャートは、選択されたクラスに基づいて表示されます。このクラスは、分類しきい値よりも高い(Positive)または低い(Negative)スコアを含む予測を表示するかどうかの選択です。

理論的最良曲線は、クラス分布によって決定されます。たとえば、バランスの取れた複数のクラスの場合、TPRが10%であればTRPは20%になります。この理由は、バランスが完全なクラスは、対象クラスの行に比べて全体の行数が2倍になるからです(クラスが2つだけの場合、両方のクラスの行数は同じです)。したがって、任意のサンプルのランダム予想では、サンプルの半数が正しく返されます。理想的な予測ではすべてのサンプルが正しく返されます(1/0.5=2)。

マイノリティークラス(ラベルの40%など)を予測する場合、TPR @ 10%は25%(10 / 40)になります。一般的に、マイノリティークラスが大きくなるほど理論的最良曲線は鋭角になります(総リコールを取得するための完全な予測数が少なくなります)。

両方のチャートでは、X軸の各ポイントは、選択クラス(アクションを起こすことのできるすべてのしきい値)として分類されるよう予測されるデータサンプルのパーセンテージを示します。

累積ゲインは、予測データのさまざまなパーセンテージの感度と真陰性率の値を表します。つまり、データセット内のターゲット(イベント)の総数に対する、特定のしきい値までのターゲット(イベント)の累積数の比率です。その結果、モデルは、マーニングキャンーの顧客をターゲットするなど、さまざまなケースに役立ちます。Positive反応の確率に従って顧客をソートすると、(ランダムなターゲットではなく)反応率の最も高い確率の顧客のパーセンテージに対してのみキャンペーンを展開できます。言い換えれば、ターゲットの80%がデータの上位20%に含まれていることがモデルで示されている場合、全体の顧客の20%にだけ郵便物を送付できます。

累積ゲインから派生する累積リフトは、予測モデルの効果を示します。これは、モデルを使って取得された結果とモデルを使わずに取得された結果の比率として計算されます。したがって、リフトでは、モデルを使用することによって予測がどれだけ向上するかを測定できます。

技術的には、リフトは、さまざまなしきい値レベルにおけるランダム推定のパーセンテージに対するゲインパーセンテージの測定です。たとえば、上位2%のしきい値の累積リフトが4.0であるということは、モデルに基づいてレコードの20%を選択する場合、モデルなしのデータの20%をランダムに選択することで見つけたターゲット(イベント)の総数の4.0倍を期待できることを意味します。言い換えれば、ランダムな選択に比べてモデルが何倍優れているかが示されます。正確な値を計算するには、ベースラインで割り当てられたモデルのゲインを取ります。

累積ゲインの解釈

累積ゲインチャートの場合、Y軸には、現在のしきい値(Positive選択クラスの場合は真陽性率、Negativeの場合は真陰性率)を使用してモデルで正しく分類された選択クラスのパーセンテージが表示されます

上記のチャートでは、以下の事項がわかります。

  • モデル予測の60%に対してアクションを起こした場合、True Positivesの80%弱が取得されます。
  • 理論的最良曲線によれば、予測の40%がデータのPositiveクラスになります。言い換えれば、データの40%に対してアクションを起こせばPositiveクラスのすべてのオカレンスを取得できます(非常に希ですが、理想的な予想がある場合)。

累積リフトの解釈

累積リフトチャートのY軸は、ランダムモデルと比較した場合の向上の係数を示します。たとえば、行の10%をランダムに選択した場合、対象クラスの10%が取得できることが期待できます。モデルの予測の上位10%で選択クラスの28%が取得できる場合、リフトは28/10または2.8として示されます。累積リフトの値はベースラインで除算されるため、ランダムベースライン(値1.0で水平)は、それ自体で除算されるため、直線になります。

上のチャートは、累積ゲインに使用されるものと同じデータを使用しています。線は同じで、値は平均化されています。したがって、モデル予測の約60%を使用すれば、ランダム選択を使用した場合に比べて約1.3倍のPositiveクラス反応を得ることができます。


更新しました February 22, 2022
Back to top