Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

リフトチャート

リフトチャートは、モデルがターゲットの母集団をどの程度うまく分割しているか、そしてターゲットを予測することができるかを示し、モデルの有効性を視覚化します。 チャートは、最もリスクの高いものから最もリスクの低いもののように予測値ごとにソートされるので、ターゲット特徴量の値の異なる範囲においてモデルのパフォーマンスがどの程度良好かを見ることができます。 リフトチャートを見ると、カーブの左側は、モデルが母集団の1つのセクションで低いスコアを予測した場所を示し、曲線の右側は、モデルが高いスコアを予測した場所を示しています。 一般的に、実際の線の勾配が急である程、予測値の線と実測値の線との一致度が高くなり、モデルの精度が高くなります。 一貫した増加を見せる線は、もう1つの望ましい指標です。 ELI5での一般化された解釈と例を参照してください。

たとえば、ローンの貸し倒れリスクを予測する場合、ターゲット特徴量は「貸し倒れになったかどうか?」になります。通常、このユースケースでは、貸し倒れになるローン、つまり非常にリスクの高いローンに最も注目します。 したがって、全体的な精度ではなく、モデルが最もリスクの高いX%のローンをどれだけ正確に予測できるかということが重要になります。

リフトチャートには、貸し倒れのリスクを最も低いものから最も高いものまで、モデルがどの程度正確に予測しているかが示されます。 デフォルトでは、曲線の右側が最もリスクが高くなります。 優れたモデルは、どのレベル(ビン)のリスクにおいても正確です。 表示されるビンの数(リスクのレベル)を調整できます。 デフォルトの10ビンを使用する場合、予測されるリスクレベルでローンを10段階に区分することになります。

リーダーボードから、リフトチャートには実測値と予測値が表示されます。詳細については、以下で説明します。 (比較した場合、リフトチャートおよびモデル比較タブで使用可能なデュアルリフトチャートは、予測値を昇順にソートしてグループ化することによって、数値特徴量をDataRobotで作成された均等なサイズの複数の「ビン」にグループ化します。

連続値プロジェクトのモデルを構築する際にエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがリフトチャートに表示されます(対応する凡例が違いを示します)。

  • オレンジの線は、特定の値に関して、エクスポージャーの合計で除算されたターゲットの合計を示します。

  • 青い線は、エクスポージャーの合計によって除算された予測の合計を示します。

この調整は、保険契約の年間コストと予測の間の関係性を理解する場合などに便利です。

表示の変更

ヒント

この視覚化は、スライスされたインサイトに対応しています。 スライスを使用すると、特徴量値に基づいてモデルのデータの部分母集団をユーザー設定で定義でき、モデルがさまざまなデータセグメントに対してどのように動作するかをよりよく理解するのに役立ちます。 詳細については、完全なドキュメントを参照してください。

リフトチャートには、表示に影響するいくつかのコントロールがあります。

要素 説明
データ選択 データソースを変更します。 変更内容は、指定された実行タイプ内でのそのモデルに対する予測対実結果の表示内容に影響します。 オプションは完了した検定の種類(検定、交差検定、ホールドアウトのいずれか)によって異なりますが、外部のテストデータセットにアクセスして使用することもできます。 時間認識モデリングは、バックテストベースの選択を可能にします。
データスライス 二値分類と連続値のみ インサイト内に表示する部分母集団を定義するフィルターを選択します。
クラスを選択 多クラスのみ。 可視化で結果を表示するクラスを設定します。
ビンの数 表示される値のきめ細かさを調整します。 予測をソートする際、幾つのビンにソートするかその数を設定します(初期設定では10ビン)。
ビンを並べ替え ビンのソート順を設定します。
ドリルダウンを有効化 モデルフィットプロセス中に作成された予測を使用します。 ドリルダウンでは、リフトチャートの上位100件と下位100件の予測の合計200件が表示されます。 ドリルダウンは、すべてのデータ スライスでのみサポートされます。
予測をダウンロード ドリルダウンが有効な場合は予測の作成タブが表示されます。
エクスポート チャートのPNG、データのCSV、または両方を含んだZIPをダウンロードします。 詳しくは、エクスポートに関するセクションを参照してください。
バイアスされた予測につながる最適化指標でプロジェクトが構築されたことを示します。 アイコンの上にカーソルを置いて推奨を表示します。
ビンサマリーヒント ビンの上にカーソルを置くと、要素行の数に加えて、これらの行の平均実測ターゲット値および平均予測ターゲット値が表示されます。

データソースとビンの数を設定した時点で、下記を行うことができます。

  • ドリルダウンを有効化リンクをクリックし、各ビンのデータをダウンロードします。
  • テーブル内のリンクにカーソルを合わせると、特定のビンのインラインテーブルが表示されます。

データの掘り下げ

リフトチャートには、データソースのサブセットのみが表示され、データソースドロップダウン選択に基づいて表示している特定のリフトチャートに必要な予測のみが表示されます。

ドリルダウンを有効化をクリックすると、モデルフィットプロセスで作成された予測を使用し、データセットの列の全てをそれら予測に追加するようにDataRobotを設定できます。 (これは、リフトチャート内でビンをクリックした際、表示される元のデータのソースです。)

ドリルダウンを有効化した時点で、DataRobotは、データを演算し、完了した時点でラベルが予測をダウンロードに変化します。 予測をダウンロードをクリックすると、DataRobotは予測の作成タブに移動し、予測の演算またはダウンロードを行います。 予測を作成タブを使用して予測を演算するオプションは、データソースドロップダウンを使用して選択されたサブセットではなく、データセット全体を対象にしています対す。

元のデータの表示

ドリルダウンを有効にした後、グラフのプラス記号をクリックして、ビンでに含まれているデータのテーブルを表示できます。 プラス記号のないビンのデータを表示するには予測をダウンロードする必要があります。

連続値プロジェクトのモデル構築にエクスポージャーパラメーターを使用した場合、インライン表の予測列には、エクスポージャーで調整された予測(エクスポージャーを除数として割られた予測)が表示されます。 インラインテーブルの実測値列には、エクスポージャーで調整された列値(エクスポージャーで分割された実測値)が表示されます。 その結果、予測および実測値列の名前は、予測値/エクスポージャーおよび実測値/エクスポージャーに変わります。

元のデータ表示の計算

ドリルダウンは、ランクの最も低い予測と最も高い予測をそれぞれ100件だけ表示します。 これはリフトチャートの左端と右端に該当します。 表示中のデータソースの大きさによって、元のデータを表示するのに利用可能な強調表示されたビンの数は異なり、チャートの各側に同じ数のビンが表示されます。 より大きなデータセットについては、各側に一つだけの強調表示されたビンが存在することがあります。 (これをテストするには、ビンの数を増やすことができ、その際、強調表示される箇所の数が増える可能性が非常に高くなります。

下記の例について見てみましょう。 検定サブセットに5000列が含まれています。 10ビンでリフトチャートを表示させる際、各ビンには500列が含まれています。 ドリルダウンを有効化する際、予測の最下位100件の全てがビン1に入ります。ビンの数を60に増やすと、各ビンに含まれる列は83になります。 したがって、左の2つの(および右端の2つの)ビンが強調表示されます。

多クラスプロジェクトを含むリフトチャート

備考

この機能には下位互換性がありません。この機能の導入前に構築されたモデルの場合、多クラスのインサイトを表示するにはモデルを再トレーニングする必要があります。

多クラスプロジェクトの場合、リフトチャート表示を設定して、個々のターゲットクラスに焦点を合わせることができます。 (個々のクラスのリフトチャートを表示できます。) チャートの下にあるクラスを選択ドロップダウンを使用して、モデルがクラスのターゲット母集団をどの程度適切にセグメント化しているか、およびモデルがターゲットを予測する能力がどの程度かを視覚化します。 ドロップダウンには、選択のための最も一般的な20のクラスが表示されます。

エクスポートボタンを使用して以下をエクスポートします。

  • 選択したクラスのPNG
  • 選択したクラスのCSVデータ
  • すべてのクラスのデータのZIPアーカイブ

リフトチャートのビニングの例

DataRobotでは、デシルチャートと呼ばれることもあるリフトチャートを、予測を昇順にソートして均等なサイズのビンにグループ化することによって作成します。 結果はリフトチャートにプロットされます。x軸にはビンの数がプロットされ、y軸にはビン内の予測の平均値がプロットされます。 これは2ステップのプロセスです。最初に、モデルでターゲットに近似すると考えられる要素によって行がグループ化され、次に実際の出現数が演算されます。 両方の値がリーダーボードのリフトチャートにプロットされます。

たとえば、不良債務情報のデータベースに100行が含まれる場合、予測されたスコアリングでソートされ、これらのスコアをユーザーが指定した数のビンに分割します。 10のビンがある場合、各グループには10のグループが含まれます。 最初のビン(またはデシル)には最低の予測スコアが含まれ、不良債務者になる可能性が最も低いと考えられます。 10番目のビンには最高の予測スコアが含まれ、不良債務者になる可能性が最も高いことが示唆されます。ビンの数(およびビンあたりの行数)に関係なく、考え方は同じで「ビンに含まれる人のパーセンテージが実際に不良債務に陥ったか」がポイントになります。

不良債務の例では、チャート上のポイントの意味を考えた場合、各ビンのポイントは以下のことを意味します。

  • リーダーボードでは、不良債務に陥ると予測された人の数(青い線)と実際に不良債務に陥った人の数(オレンジの線)が示されています。 このチャートを使用して、モデルの精度を評価します。
  • モデル比較では、各モデルで実際に不良債務者になった人の数が表示されます。

では、実際の値は何でしょうか? 左側のチャートにプロットされた実際の値は、ターゲット値が適用される該当ビンの行の数またはパーセンテージです。 この区別は、モデル比較ページのモデルを考慮する際に非常に重要です。 DataRobotではモデルのスコアリングに基づいて行がソートされ、そのソート済みリストから行がビンにグループ化されます。 各モデルのビンには、それぞれ異なる内容が含まれます。その結果、各モデルのビンには同じ数のエントリーが含まれますが、各ビンの実測値は異なります。

エクスポージャーと加重の詳細

連続値プロジェクトでエクスポージャーを設定した場合、観測値は、エクスポージャーで調整された「年次」予測(つまり、エクスポージャーを除数として割られた予測など)に従ってソートされ、ビンの境界はこれらの調整された予測に基づいて決定されます。 y軸には、ビン内のエクスポージャーの合計を除数として割られた調整済みの予測の合計がプロットされます。 実測値は同じ方法で調整およびプロットされます。

エクスポージャーとサンプル加重の両方が指定されている場合、エクスポージャーは上記のようにビンの境界を決定するために使用されますが、サンプル加重は使用されません。 DataRobotは、composite_weight = weight * exposureの積に等しい複合加重を使用して、各ビンの予測値と実測値の加重平均を計算します。 次に、y軸は調整された予測値の加重合計を複合加重の合計で割ったものをプロットします。実測値の場合も同様です。


更新しました 2024年12月6日