Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データドリフト

トレーニングデータと運用データが時間の経過に伴って変化すると、デプロイモデルの予測能力は失われます。 そのようなモデル周辺のデータは、ドリフトしていると言われます。 デプロイに追加されたトレーニングデータと予測データ(推論データとも呼ばれます)を活用することで、モニタリング > データドリフトタブのダッシュボードは、デプロイ後のモデルのパフォーマンスを分析するのに役立ちます。

DataRobotでのドリフトの追跡方法

データドリフトの場合、DataRobotは以下を追跡します。

  • ターゲットドリフト:DataRobotは予測に関する統計情報を蓄積しているため、時間の経過と共にターゲットの分布と値がどのように変化するかを監視することができます。 ターゲット分布の比較の基準として、DataRobotではホールドアウトの予測値の分布を使用します。

  • 特徴量ドリフト:DataRobotは予測に関する統計情報を蓄積しているため、時間の経過と共に特徴量の分布と値がどのように変化するかを監視することができます。 特徴量の分布を比較するためのベースラインとして:

    • 500MBより大きいトレーニングデータセットでは、DataRobotはトレーニングデータのランダムサンプルの分布を使用します。

    • 500MBより小さいトレーニングデータセットでは、DataRobotはトレーニングデータの100%の分布を使用します。

ターゲットと特徴量の追跡はデフォルトで有効になっています。 これらのドリフト追跡機能を制御するには、デプロイの設定 > データドリフトタブに移動します。 特徴量ドリフト追跡がオフになっている場合、特徴量ドリフト追跡を有効にするようデータドリフトタブにメッセージが表示されます。

データドリフトステータスに関するEメール通知を受信するには、通知の設定監視のスケジュールデータドリフト監視の設定を行います。

データドリフトダッシュボードは、デプロイしたモデルの特定の時間間隔における正常性を識別するために役立つ4つのインタラクティブな情報のエクスポート可能な視覚化を提供します。

備考

エクスポートボタンをクリックして、PNG、CSV、またはZIPファイルとしてデータドリフトダッシュボードの各チャートをダウンロードします。

チャート 説明
1 特徴量ドリフトと特徴量の有用性の比較 ある時点から別の時点の間で実際の特徴量値の分布がどれだけ変化したかに対して、その特徴量のそのモデルでの有用性をプロットします。
2 特徴量の詳細 トレーニングデータで選択された特徴量のレコードの予測データに対するパーセンテージ(分布)をプロットします。
3 時間経過に伴うドリフト デプロイされたモデルのトレーニングデータセットと、本番環境での予測生成に使用されるデータセットの間の、時間経過に伴う分布の差異を示します。 このチャートは、データドリフトの指標であるPSI(Population Stability Index)の変化を追跡します。
4 時間経過に伴う予測 時間の経過に伴うモデルの予測の分布の変化(ターゲットドリフト)を示します。 表示は、プロジェクトの種類(連続値または二値分類)に応じて異なります。

上記の視覚化に加えて、 データドリフト > ドリルダウンタブを使用して、ドリフト傾向を特定し、特徴量全体でのデータドリフトのヒートマップを比較することができます。

データドリフトダッシュボードを設定

設定 > データドリフトページでドリフトと有用性のしきい値および追加の定義を設定することで、デプロイでのデータドリフトステータスの計算方法をカスタマイズできます。 次のコントロールを使用して、必要に応じてデータドリフトダッシュボードを設定することもできます。

コントロール 説明
1 モデルバージョンセレクター ドロップダウンで選択したモデルを反映するようにダッシュボード表示を更新します。
2 日付スライダー ダッシュボードで表示するデータの範囲を制限します(特定の期間にズームインするなど)。
3 範囲セレクター(UTC) デプロイ日付スライダーに表示する日付範囲を設定します。
4 単位セレクター デプロイ日付スライダーの時間のきめ細かさを設定します。
5 セグメント属性 / セグメント値 セグメント分析で視覚化されるデータドリフトをフィルターするために、個々の属性と値を設定します。
6 選択した特徴量 特徴量詳細チャート時間経過に伴うドリフトチャートに表示される特徴量を設定します。
7 表示を更新 新しいデータを使用してダッシュボードのオンデマンド更新を開始します。 このボタンを使用しなくても、ダッシュボードは15分ごとに自動更新されます。
8 リセット ダッシュボードコントロールをデフォルト設定に戻します。

特徴量ドリフトと特徴量の有用性の比較チャート

特徴量ドリフトと特徴量の有用性の比較チャートでは、データ内で最もインパクトが高い25の数値特徴量、カテゴリー特徴量、およびテキストベース特徴量がモニターされます。 チャートを使用して、1つのポイントのデータが別のポイントのデータと異なるかどうかを確認します。 差異がある場合、モデルまたはデータ自体に問題がある可能性があります。 たとえば、自動車保険の契約者の年齢が時間の経過に伴って低くなる場合、元のモデルの構築に使用されたデータで新しいデータを正確に予測できなくなる可能性があります。 特に、有用性の高い特徴量のドリフトは、モデルの精度に関する注意を示している場合があります。

チャートのポイント上にカーソルを置くと、特徴量名が識別され、ドリフト(縦軸)と有用性(横軸)の精密な値が表示されます。 設定アイコン をクリックして、有用性ドリフトのしきい値を調整します。

特徴量の詳細チャートと時間経過に伴うドリフトチャートで視覚化された特徴量を選択するには、特徴量ドリフトと特徴量の有用性プロットで、その特徴量のマーカーをクリックします。

特徴量ドリフト

Y軸は、特徴量のドリフト値を示します。 この値は、PSI(Population Stability Index)を計算したもので、時間経過に伴う分布の差異を示す指標です。

ドリフト指標のサポート

DataRobot UIはPSI(Population Stability Index)指標のみをサポートしますが、DataRobot APIはカルバックライブラー情報量、ヘリンガー距離、コルモゴロフ–スミルノフ、ヒストグラム交差、ワッサースタイン距離、イェンセンシャノン情報量をサポートします。 さらに、Python APIクライアントを使用すると、 サポート対象の指標のリストを取得できます。

特徴量の有用性

X軸は、学習(トレーニング)データを取込むときに計算された特徴量の有用性スコアを示します。 DataRobotは、モデルタイプに応じてそれぞれ特徴量の有用性を計算します。 DataRobotモデルとカスタムモデルの場合、有用性スコアはPermutation Importanceを使用して計算されます。 外部モデルの場合、有用性スコアはACEスコアです。 1の有用性/インパクト値のドットはターゲット予測を示します。 モデル内で有用性が最も高い特徴量も(緑色の点として)1の位置に表示されます。

4象限の解釈

チャートで表される4象限は、特徴量の有用性に対してプロットされた特徴量ごとのデータドリフトを視覚化するために役立ちます。 4象限は、大まかには以下のように解釈することができます。

象限 解釈 色インジケーター
1 高有用性の特徴量で高いドリフトが発生しています。 直ちに調査する必要があります。
2 低有用性の特徴量で、設定されたしきい値を超えるドリフトが発生しています。 注意して監視する必要があります。
3 低有用性の特徴量で最小のドリフトが発生しています。 必要なアクションはありません。
4 高有用性の特徴量で小さなドリフトが発生しています。 必要なアクションはありませんが、しきい値に近づく特徴量は監視する必要があります。

備考

チャート上のポイントは灰色または白のどちらにもできます。 灰色の円はドリフトステータスの計算から除外された特徴量を表し、白い円は有用性の高い特徴量を表します。

プロジェクトの所有者は、チャートの右上にある設定アイコン をクリックして4分割をリセットできます。 デフォルトでは、ドリフトしきい値のデフォルト値は0.15です。縦軸の範囲は、0から0.25および観測されたドリフト値の最高値までです。 これらの四分円は、ドリフトおよび有用性のしきい値を変更することによりカスタマイズできます。

特徴量の詳細チャート

特徴量の詳細チャートは、トレーニングデータ内で選択された特徴量の分布と予測データ内のその特徴量の分布を比較するヒストグラムを提供します。 「特徴量の詳細チャート」を使用するには、ドロップダウンから特徴量を選択します。 デフォルトでターゲット特徴量に設定されるリストには、追跡されたすべての特徴量が含まれます。

ヒント

特徴量の詳細チャートの特徴量を選択するには、特徴量ドリフトと特徴量の有用性チャートの特徴量マーカーをクリックして特徴量を選択するか、または、データドリフトサマリーコントロールで選択された特徴量を設定することもできます。

数値特徴量

数値データの場合、DataRobotは各特徴量の分布の効率的かつ正確な近似を計算します。 これをもとに、トレーニングデータの正規化されたヒストグラムを、選択したドリフト指標を使用したスコアリングデータと比較することで、ドリフト追跡を行います。

チャートには、数値特徴量の13個のビンが表示されます。

  • 10個のビンは、トレーニングデータで観測されたアイテムの範囲をキャプチャします。

  • 2個のビンは、非常に高い値と非常に低い値—トレーニングデータの範囲外にあるスコアリングデータの極値をキャプチャします。

  • 欠損カウントの1個のビンには、欠損特徴量の値とすべてのレコードが含まれます。

カテゴリー特徴量

ヒストグラムのビニングのカットオフがデータ依存の計算から生じる数値データとは異なり、カテゴリーデータは本質的に形式が離散的である(つまり連続的ではない)ため、ビニングは定義されたカテゴリーに基づきます。 さらに、スコアリングデータにカテゴリーレベルが欠落しているか、表示されていない可能性があります。

カテゴリー特徴量のドリフト追跡のプロセスは、トレーニングデータの各カテゴリーレベル(「ビン」)の行の割合を計算することです。 これにより、各レベルのパーセンテージのベクトルが得られます。 最も頻度の高い25のレベルが直接追跡されます—他のすべてのレベルは、その他ビンに集約されます。 このプロセスはスコアリングデータに対して繰り返され、選択したドリフト指標を使用して2つのベクトルが比較されます。

カテゴリー特徴量の場合、チャートには、上位カテゴリーと欠損カテゴリーのビンに加えて、独自のビンが2つ含まれます。

  • その他のビンには、最も頻繁に出現する25個の値以外のすべてのカテゴリー特徴量が含まれます。 この集計は、ドリフト追跡の目的で実行されますが、モデルの動作を表すものではありません。

  • 新規レベルビンは、トレーニングデータに含まれない特徴量の新しい値を含むデータで予測を作成した後に表示されます。 たとえば、分類特徴量Cityのある住宅価格に関するデータセットを例に考えてみます。 予測データに含まれている値Bostonがトレーニングデータに含まれていなかった場合、Bostonという値(およびその他の非表示の都市)は新規レベルビンに表示されます。

テキスト特徴量

テキスト特徴量はカーディナリティの高い問題です。つまり、新しい単語を追加しても、たとえばカテゴリーデータで見られるような新しいレベルの影響はありません。 DataRobotが採用している、テキスト特徴量のドリフト追跡を行う方法では、文章は主観的かつ文化的であり、スペルミスがある可能性を考慮しています。 つまり、テキストフィールドのドリフトを識別するには、個々の単語ではなく、言語全体のシフトを識別することがより重要です。

テキスト特徴量のドリフト追跡は、次の方法で実行されます。

  1. トレーニングデータで見つかった行から最も頻繁に使用される1000個の単語の出現を検出します。
  2. その特徴量に対して、トレーニングデータとスコアリングデータで別々に、これらの用語を含む行の割合を計算します。
  3. スコアリングデータの割合をトレーニングデータの割合と比較します。

出現率の2つのベクトル(単語ごとに1エントリ)が、使用可能なドリフト指標と比較されます。 この方法を適用する前に、DataRobotは、テキスト特徴量を単語(日本語や中国語の場合は文字)に分割する基本的なトークン化を行ってます。

テキスト特徴量については、「特徴量の詳細」の棒グラフがワードクラウドに置き換わりました。これにより、データ分布がトークンごとに可視化され、個々のトークンが特徴量のデータドリフトにどれだけ関与しているかが明らかになります。 特徴量ドリフトワードクラウドにアクセスするには、特徴量の詳細チャートで、ドロップダウンリストからテキスト特徴量を選択します。 データドリフトダッシュボードコントロールで、選択された特徴量ドロップダウンリストからテキスト特徴量を選択することもできます。 テキスト特徴量の特徴量ドリフトのワードクラウドを解釈するには、トークンの上にポインターを置くと、以下の詳細が表示されます。

ヒント

ポインターがワードクラウド上にあるとき、上にスクロールするとズームインして、より小さいトークンのテキストを表示できます。

チャートの要素 説明
トークン トークン化されたテキスト。 テキストサイズはトークンのドリフト貢献度を表し、テキストの色はデータセットの普及率を表します。 このチャートではストップワードは非表示になります。
ドリフト貢献度 この特定のトークンが、 特徴量ドリフト対特徴量の有用性および 時間経過に伴うドリフトチャートで報告されている、特徴量のドリフト値にどれだけ貢献しているかを示します。
ターゲット分布 この特定のトークンがトレーニングデータまたは予測データに表示される頻度がどれだけ増加するか。
  • :このトークンは、トレーニングデータでX%頻繁に表示されます。
  • :このトークンは、予測データでX%頻繁に表示されます。
ワードクラウドビューを無効にする

エクスポートボタンの横にある設定アイコン をクリックして、テキスト特徴量をワードクラウドとして表示チェックボックスをオフにすると、特徴量ドリフトのワードクラウドを無効にして標準チャートを表示できます。

時間経過に伴うドリフトチャート

時間経過に伴うドリフトチャートでは、デプロイされたモデルのトレーニングデータセットと、本番環境での予測生成に使用されるデータセットの間の、時間経過に伴う分布の差異が視覚化されます。 トレーニングデータセットで確立されたベースラインからのドリフトは、PSI(Population Stability Index)を用いて測定されます。 モデルが新しいデータで予測を続けると、追跡対象の特徴量ごとにPSIの経時変化が視覚化されるので、データドリフトの傾向を把握することができます。

データドリフトはモデルの予測能力を低下させる可能性があるため、ある特徴量がいつドリフトし始めたかを見極め、(モデルが新しいデータで予測を続ける中で)そのドリフトがどのように変化するかを監視することは、問題の深刻度を推測するのに役立ちます。 これにより、デプロイ内の特徴量間でデータドリフトの傾向を比較し、特定の特徴量間で相関するドリフト傾向を特定することができます。 さらに、このチャートによって季節的な影響(時間認識モデルでは重要)を特定することができます。 この情報は、データ品質の問題、特徴量構成の変化、ターゲット特徴量のコンテキストの変化など、デプロイされたモデルでのデータドリフトの原因を特定するのに役立ちます。 以下の例では、PSIが時間の経過とともに一貫して増加しており、選択した特徴量のデータドリフトが悪化していることを示しています。

時間経過に伴うドリフトチャートには、次の要素とコントロールが含まれています。

チャートの要素 説明
1 選択した特徴量 時間経過に伴うドリフト分析の特徴量を選択します。これは、時間経過に伴うドリフトチャートと 特徴量の詳細チャートで報告されます。
2 予測の時間/サンプルサイズ
(X軸)
対応するドリフト値(PSI)の計算に使用する予測の時間範囲を表します。 X軸の下にある棒グラフは、対応する予測時間中に行われた予測の数を表します。
3 ドリフト
(Y軸)
対応予測時間に対して計算されたドリフト値(PSI)の範囲を表します。
4 トレーニングのベースライン トレーニングベースラインデータセットの0 PSI値を表します。
5 ドリフトステータス情報 選択した特徴量のドリフトステータスとしきい値情報を表示します。 ドリフトステータスの視覚化は、 デプロイオーナーによって設定された監視設定に基づいています。 デプロイオーナーは、 特徴量ドリフトと特徴量の有用性チャートの比較設定でドリフトと有用性が高いしきい値を設定することもできます。
考えられるドリフトステータスの分類は次のとおりです。
  • 正常性(緑): 特徴量のドリフトは最小限です。 必要なアクションはありませんが、しきい値に近づく特徴量は監視する必要があります。
  • リスクあり(黄色) 低有用性の特徴量で、設定されたしきい値を超えるドリフトが発生しています。 注意して監視する必要があります。
  • 失敗(赤):高有用性の特徴量で、設定されたしきい値を超えるドリフトが発生しています。 直ちに調査してください。
特徴量の有用性は、特徴量のインパクトスコアをしきい値の有用性と比較して決定します。 有用性の高い特徴量の場合、特徴量のインパクトスコアは有用性が高いしきい値以上になります。
6 エクスポート 時間経過に伴うドリフトチャートをエクスポートします。

時間経過に伴うドリフトチャートの追加情報を表示するには、チャート内のマーカーにカーソルを合わせると、予測時間PSIサンプルサイズが表示されます。

ヒント

時間経過に伴うドリフトチャートのX軸は、下の時系列の予測チャートのX軸と一致しており、2つのチャートを簡単に比較できます。 さらに、時間経過に伴うドリフトチャートのサンプルサイズデータは、時系列予測チャートの予測数データに相当します。

時間経過に伴う予測チャート

時間経過に伴う予測チャートでは、時間の経過に伴ってモデルの予測がどのように変化したかを一目で把握できます。 例:

Daveは、彼のモデルが過去1ヶ月間について、以前よりも明らかに頻繁に1(再入院すると)予測されているようだと思っています。彼は対応する再入院の真の分布の変化がわからないので、モデルの精度が低下しているのではないかと疑っています。この情報を基に、Daveは再トレーニングが必要がどうかを調査します。

二値分類のチャートと連続値のチャートは若干異なりますが、得られるものは同じです—プロットは時間の経過に伴って、比較的安定しているでしょうか? 安定していない場合、異常値が生じるビジネス上の理由があるかどうか(暴風雨が発生、など)を確認する必要があります。 ビニングされた期間のポイントが異常に高いあるいは低い場合は下のヒストグラムをチェックして、その期間の予測が十分にあって統計的に信頼できるデータポイントなのかどうかを確認します。

予測の時間

予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。

  • [サービスの正常性]タブの「予測リクエストの日時」は、常に予測サーバーが予測リクエストを受信した日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。

  • データドリフトタブと精度タブについてデフォルトで、「予測リクエストの時間」は、予測リクエストを送信した時刻になります。これは、 予測履歴とサービスの正常性設定で、予測タイムスタンプでオーバーライドできます。

さらに、両方のチャートには横軸にトレーニングおよびスコアリングのラベルがあります。 トレーニングラベルは、モデルのトレーニングデータのホールドアウトセットで作成された予測の分布を示すチャートのセクションを示します。 チャート上には常に1つのポイントがあります。 スコアリングラベルは、デプロイ済みモデルで作成された予測の分布を示すチャートのセクションを示します。 スコアリングは、予測を作成するためにモデルが使用中であることを示します。 チャートには、時間の経過に伴う予測分布の変化を示す複数のポイントがあります。

連続値プロジェクトの場合

連続値プロジェクトの時間経過に伴う予測チャートには、トレーニングデータと予測データの両方の平均予測値に加えて、予測値の中央から±80%の範囲を表す視覚的インジケーターもプロットされます。 チャートのポイント上にカーソルを置くと、その詳細が表示されます。

フィールド 説明
日付 ビンデータの開始日。 表示される値は、この日付からグラフの次のポイントまでの数に基づいています。 たとえば、ポイントAの日付が01-07で、ポイントBの日付が01-14の場合、ポイントAは01-07から01-13までのすべてをカバーします(01-07と01-13を含む)。
平均予測値 ビンに含まれるすべてのポイントの値の平均。
10~90パーセンタイル その期間の予測のパーセンタイル。
予測 ビンに含まれる予測の数。 異常なデータが疑われる場合、この値をその他のポイントと比較します。
数字 異常 デプロイの予測警告を有効にしている場合、棒グラフの黄色いセクションは、ある時点の異常な予測を表します。 特定の期間の異常な予測の数を表示するには、棒グラフのフラグ付き予測に対応するプロット上のポイントにカーソルを合わせます。 予測警告は連続値モデルデプロイにのみ使用できます。

トレーニングデータの詳細

トレーニングデータをアップロードすると、グラフには10番目~90番目のパーセンタイルとターゲットの平均値の両方が表示されます()。 ターゲットの平均値に関するこの情報は、トレーニングデータのポイント上にマウスを置いて表示することもできます。

二値分類プロジェクトの場合

二値分類プロジェクトの時間経過に伴う予測チャートは、デプロイを追加したときに設定したラベルに基づいて、クラスのパーセンテージをプロットします(この例では01)。 データポイントにカーソルを合わせると、特定の値が表示されます。

時間経過に伴う予測は、連続モードと二値モードでデータを表示できます。

連続モードは、Positiveクラス予測を0と1の間の確立として示します。

連続モードでは、以下の詳細を使用できます。

フィールド 説明
日付 ビンデータの開始日。 表示される値は、この日付からグラフの次のポイントまでの数に基づいています。 たとえば、ポイントAの日付が01-07で、ポイントBの日付が01-14の場合、ポイントAは01-07から01-13までのすべてをカバーします(01-07と01-13を含む)。
平均予測値 ビンに含まれるすべてのポイントの値の平均。
10~90パーセンタイル その期間の予測のパーセンタイル。
予測 ビンに含まれる予測の数。 異常なデータが疑われる場合、この値をその他のポイントと比較します。

トレーニングデータの詳細

トレーニングデータをアップロードすると、グラフには10番目~90番目のパーセンタイルとターゲットの平均値の両方が表示されます()。 ターゲットの平均値に関するこの情報は、トレーニングデータのポイント上にマウスを置いて表示することもできます。

バイナリモードでは、予測しきい値が考慮に入れられ、作成されたすべての予測の各クラスのパーセンテージが示されます。

二値モードの分類モデルの時間経過に伴う予測チャートでは、以下の追加要素を使用できます。

要素 説明
1 時間経過に伴う予測チャートのクラスラベルのデータを表示または非表示にします。
2 二値分類デプロイの時間経過に伴う予測チャートで、連続モードと二値モードを切り替えます。 チャートのポイント上にカーソルを置くと、その詳細が表示されます。
3 予測の出力結果に対して設定されたしきい値を表示します。 しきい値はデプロイをインベントリに追加したときに設定され、変更することはできません。
4 トレーニングデータのターゲットの平均値を表示します()。

二値モードでは、以下の詳細を使用できます。

フィールド 説明
日付 ビンデータの開始日。 表示される値は、この日付からグラフの次のポイントまでの数に基づいています。 たとえば、ポイントAの日付が01-07で、ポイントBの日付が01-14の場合、ポイントAは01-07から01-13までのすべてをカバーします(01-07と01-13を含む)。
クラスラベル1 ビンに含まれるすべてのポイントに対する「Positive」クラスのポイントのパーセンテージ(この例では0)。
クラスラベル2 ビンに含まれるすべてのポイントに対する「Negative」クラスのポイントのパーセンテージ(この例では1)。
予測の数 ビンに含まれる予測の数。 異常なデータが疑われる場合、この値をその他のポイントと比較します。

データドリフトタブでのドリルダウン

データドリフト > ドリルダウンチャートでは、デプロイされたモデルのトレーニングデータセットと、本番環境での予測生成に使用されるデータセットの間の、時間経過に伴う分布の差異が視覚化されます。 トレーニングデータセットで確立されたベースラインからのドリフトは、PSI(Population Stability Index)を用いて測定されます。 モデルが新しいデータを予測し続けると、時間経過に伴うドリフトステータスの変化が、追跡された各特徴量のヒートマップとして視覚化され、データドリフトの傾向を特定できるようになります。

ドリルダウンタブを使用して、デプロイ内の特徴量全体でデータドリフトのヒートマップを比較して、相関するドリフト傾向を特定できます。 さらに、ヒートマップから1つ以上の特徴量を選択して、特徴量ドリフトの比較チャートを表示できます。このチャートでは、基準期間と比較期間の間で特徴量のデータ分布の変化を比較して、ドリフトを視覚化できます。 この情報は、データ品質の問題、特徴量構成の変化、ターゲット特徴量のコンテキストの変化など、デプロイされたモデルでのデータドリフトの原因を特定するのに役立ちます。

ドリルダウン表示設定の設定

ドリルダウンタブには、次の表示コントロールが含まれています。

コントロール 説明
1 モデル ヒートマップを更新して、ドロップダウンから選択したモデルを表示します。
2 日付スライダー ダッシュボードで表示するデータの範囲を制限します(特定の期間にズームインするなど)。
3 範囲 (UTC) デプロイ日付スライダーに表示する日付範囲を設定します。
4 単位 デプロイ日付スライダーの時間のきめ細かさを設定します。
5 リセット ダッシュボードコントロールをデフォルト設定に戻します。

特徴量ドリフトヒートマップの使用

すべての特徴量の特徴量ドリフトヒートマップには、次の要素とコントロールが含まれています。

要素 説明
1 予測時間
(X軸)
対応するドリフト値(PSI)の計算に使用する予測の時間範囲を表します。 X軸の下にある予測サンプルサイズの棒グラフは、対応する予測時間範囲中に行われた予測の数を表します。
2 特徴量
(Y軸)
デプロイのデータセット内の特徴量を表します。 特徴量名をクリックして、以下の 特徴ドリフト比較を生成します。
3 ステータスのヒートマップ デプロイの各特徴量について、時間経過に伴うドリフトステータスを表示します。 ドリフトステータスの視覚化は、 データドリフト設定に基づいています。 デプロイオーナーは、 特徴量ドリフトと特徴量の有用性チャートの比較設定でドリフトと有用性が高いしきい値を設定することもできます。
考えられるドリフトステータスの分類は次のとおりです。
  • 正常性(緑): 特徴量のドリフトは最小限です。 必要なアクションはありませんが、しきい値に近づく特徴量は監視する必要があります。
  • リスクあり(黄色) 低有用性の特徴量で、設定されたしきい値を超えるドリフトが発生しています。 注意して監視する必要があります。
  • 失敗(赤):高有用性の特徴量で、設定されたしきい値を超えるドリフトが発生しています。 直ちに調査してください。
特徴量の有用性は、特徴量のインパクトスコアをしきい値の有用性と比較して決定します。 有用性の高い特徴量の場合、特徴量のインパクトスコアは有用性が高いしきい値以上になります。
4 予測サンプルサイズ 特定の期間のデータドリフトの計算に使用される予測データの行数を表示します。 予測サンプルサイズに関する追加情報を表示するには、チャート内のビンにカーソルを合わせて、予測範囲の時間とサンプルサイズの値を確認します。

特徴量のドリフト比較チャートの使用

特徴量ドリフトの比較セクションには、次の要素とコントロールが含まれています。

要素 説明
1 リファレンス期間 ドリフト比較チャートのベースラインとして使用する期間の日付範囲を設定します。
2 比較期間 リファレンス期間と比較するデータ配信期間の日付範囲を設定します。 ヒートマップ上の対象エリアを選択して、比較期間として使用することもできます。
3 特徴量値
(X軸)
特徴量ドリフト比較チャートの特徴量データセット内の値の範囲を表します。
4 レコードのパーセンテージ
(Y軸)
値の範囲で表されるデータセット全体の割合を表し、選択した参照期間と比較期間を視覚的に比較できます。
5 特徴量のドリフト比較チャートを追加 選択した特徴量の特徴量ドリフト比較チャートを生成します。
6 このチャートを削除 特徴量のドリフト比較チャートの削除
ヒント" "特徴量ドリフトヒートマップでの比較期間の設定

比較期間として機能するヒートマップ上の対象領域を選択するには、クリックアンドドラッグして、特徴量ドリフト比較の対象期間を選択します。

特徴量のドリフト比較チャートの追加情報を表示するには、チャートのバーにカーソルを合わせると、そのバーに含まれる値の範囲、それらの値が参照期間で表すデータセット全体に占める割合、および比較期間でのデータセット全体の割合が表示されます。


更新しました May 14, 2024