Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データドリフトのモニタリングを設定

モデルをデプロイするとき、トレーニングおよび検定に使用するデータセットが予測データと異なっていることがあります。 データドリフト監視は、データドリフト > 設定タブで有効にすることができます。 DataRobotはターゲットドリフトと特徴量ドリフトの両方の情報を監視し、結果をデータドリフトタブに表示します。

DataRobotでのドリフトの追跡方法

データドリフトの場合、DataRobotは以下を追跡します。

  • ターゲットドリフト:DataRobotは予測に関する統計情報を蓄積しているため、時間の経過と共にターゲットの分布と値がどのように変化するかを監視することができます。 ターゲット分布の比較の基準として、DataRobotではホールドアウトの予測値の分布を使用します。

  • 特徴量ドリフト:DataRobotは予測に関する統計情報を蓄積しているため、時間の経過と共に特徴量の分布と値がどのように変化するかを監視することができます。 特徴量の分布を比較するためのベースラインとして:

    • 500MBより大きいトレーニングデータセットでは、DataRobotはトレーニングデータのランダムサンプルの分布を使用します。

    • 500MBより小さいトレーニングデータセットでは、DataRobotはトレーニングデータの100%の分布を使用します。

本機能の提供について

データドリフト追跡は、デプロイ対応の予測APIルートを使用するデプロイでのみ使用できます(https://example.datarobot.com/predApi/v1.0/deployments/<deploymentId>/predictionsなど)。

デプロイのデータドリフト設定ページでは、次の設定を行うことができます。

フィールド 説明
データドリフト
特徴量ドリフト追跡の有効化 デプロイ内の特徴量ドリフトを追跡するようDataRobotを設定します。 特徴量ドリフト追跡にはトレーニングデータが必要です。
ターゲット監視の有効化 デプロイ内のターゲットドリフトを追跡するようDataRobotを設定します。 精度監視にはターゲット監視が必要です。
トレーニングデータ
トレーニングデータ モデルを構築する際にトレーニングのベースラインとして使用されたデータセットを表示します。
推論データ
予測を保存しています。 DataRobotがこのデプロイによって行われた予測の結果を記録し、保存していることを確認します。 デプロイを作成すると、DataRobotにデプロイの推論データが保存されます。 これは、個別のアップロードすることはできません。
推論データ(外部モデル)
DataRobotは、このデプロイに対して行われたすべての予測結果を記録しています DataRobotが外部モデルによって行われた予測の結果を記録し、保存していることを確認します。
ここにファイルをドロップするか、ファイルを選択する 予測履歴データを含むファイルをアップロードして、データドリフトを監視します。
定義
定義を設定 データドリフトを監視するために、ドリフトと有用性の指標設定としきい値定義を行います。
通知
通知を送信 データドリフト監視の通知チェックのスケジュールを設定します。

備考

DataRobotは、デフォルトでターゲットと特徴量ドリフト情報を監視し、データドリフトダッシュボードで結果を表示します。 たとえば、監視する必要のない機微データがデプロイに含まれている場合などは、ターゲット監視を有効化特徴量ドリフト追跡を有効化のトグルを使用して追跡をオフにします。 ターゲット監視の有効化設定は、精度監視を有効にする際にも必要です。

データドリフト監視の通知を定義する

ドリフトは、指定された範囲で、すべての特徴量でデータの分布がどのように変化するかを評価します。 設定したしきい値によって、通知がトリガーされる前に許容されるドリフト量が決まります。

備考

データドリフトの監視設定を変更できるのは、デプロイオーナーだけです。ただし、ユーザー通知が送信される条件を設定することができます。 コンシューマーは監視や通知の設定を変更できません。

ドリフトと有用性のしきい値を設定するには、データドリフト > 設定タブの定義セクションを使用します。

  • ドリフトは、新しい予測データがモデルのトレーニングに使用された元のデータとどの程度異なるかを示す指標です。

  • 有用性により、有用性の高い特徴量と有用性の低い特徴量の差異を明らかにすることができます。

ドリフトと有用性の両方について、データドリフトタブで、しきい値とそれがどのように特徴量を分離するかを視覚化できます。 デフォルトで、デプロイのデータドリフトステータスは、少なくとも1つの有用性の高い特徴量が設定されたドリフトメトリックのしきい値を超えると、「失敗」()とマーク付けされます。有用性の高い特徴量はないが、少なくとも1つの有用性の低い特徴量がしきい値を超えと、「注意」()としてマーク付けされます。

デプロイオーナーは、各デプロイのドリフトステータスの計算に使用されるルールをカスタマイズできます。 デプロイのオーナーとして、次のことができます。

  • 有用性の高いまたは低い特徴量のリストを定義または上書きして、有用な特徴量を監視、または有用性の低い特徴量をあまり重視しないようにします。

  • ドリフトステータスの計算と注意からドリフトすると予想される特徴量は除外されるため、誤ってアラームが発生することはありません。

  • 「注意」および「失敗」のドリフトステータスの平均をカスタマイズして、各デプロイのドリフトステータスを必要に応じてパーソナライズおよび調整します。

デプロイのドリフトステータスのモニタリングを設定するには:

  1. データドリフト設定ページの定義セクションで、データドリフトを監視するための設定を行います。

    要素 説明
    1 範囲 リファレンス期間の時間範囲を調整し、トレーニングデータと予測データを比較します。 ドロップダウンメニューから時間範囲を選択します。
    2 ドリフト指標としきい値 ドリフト指標のしきい値を設定します。 DataRobotはPSI(Population Stability Index)指標のみをサポートしています。 ドリフトのしきい値が変更されると、特徴量ドリフト対特徴量の有用性のチャートが更新され、変更が反映されます。 詳細については、以下のドリフト指標のサポートを参照してください。
    3 有用性指標としきい値 有用性指標のしきい値を設定します。 有用性指標は、トレーニングデータで最も影響の大きい特徴量を測定します。 DataRobotは置換の有用性指標のみをサポートしています。 ドリフトのしきい値が変更されると、特徴量ドリフト対特徴量の有用性のチャートが更新され、変更が反映されます。 を参照してください。
    4 X個の除外特徴量 ドリフトステータス計算から特徴量(ターゲットを含む)を除外できます。 X個の除外特徴量をクリックすると、ダイアログボックスが開き、ドリフト追跡からの除外として設定する特徴量の名前を入力できます。 除外された特徴量はデプロイのドリフトステータスには影響しませんが、特徴量ドリフト対特徴量の有用性のチャートには引き続き表示されます。 を参照してください。
    5 X個のスター付き特徴量 最初は有用性が低く割り当てられていた場合でも、有用性が高く扱われるように特徴量を設定します。 X個のスター付き特徴量をクリックすると、ダイアログボックスが開き、有用性高(スター)として設定する特徴量の名前を入力できます。 追加されると、これらの特徴量には高い有用性が割り当てられます。 有用性のしきい値は無視されますが、特徴量ドリフト対特徴量の有用性のチャートには引き続き表示されます。 を参照してください。
    6 「注意」/「失敗」のしきい値 「注意」()と「失敗」()のドリフトステータスをトリガーする値を設定します。 を参照してください。

    備考

    しきい値の変更は、デプロイの履歴全体にわたって予測が行われる期間に影響します。 これらの更新されたしきい値は、データドリフトタブでのパフォーマンス監視のビジュアライゼーションに反映されます。

  2. データドリフト監視の設定を更新したら、保存をクリックします。

ドリフト指標のサポート

DataRobot UIはPSI(Population Stability Index)指標のみをサポートしますが、DataRobot APIはカルバックライブラー情報量、ヘリンガー距離、コルモゴロフ–スミルノフ、ヒストグラム交差、ワッサースタイン距離、イェンセンシャノン情報量をサポートします。 さらに、Python APIクライアントを使用すると、 サポート対象の指標のリストを取得できます。

除外された特徴量の例

下の例では、灰色の円で表示される除外された特徴量は、通常、ドリフトステータスは失敗に変更されます()。 除外されているため、ステータスはPassingのままです。

有用性しきい値とドリフトしきい値の設定例

下の例では、チャートは有用性とドリフトしきい値(矢印で指定)で調整され、上記のチャートより「注意」および「失敗」特徴量は増えています。

高い有用性を割り当てるために特徴量にスターを付ける例

下の例では、白い円で表示されているスター付き特徴量は、最初は有用性が低いため、通常はドリフトステータスは「注意」になります。 ただし、有用性は高いため、この特徴量はドリフトステータスが「失敗」()に変更されます。

ドリフトステータスのルールの設定例

下の例では、次のいずれかが当てはまる場合、ドリフトステータスを「注意」としてマーク付けするようにデプロイのルールを設定します。

  • ドリフトしきい値を超える有用性の低い特徴量の数が1より大きい。

  • ドリフトしきい値を超える有用性の高い特徴量の数が3より大きい。

通知チェックのスケジュール

データドリフト監視のEメール通知を送信すべきかどうかを判断するために、定期的なチェックをスケジュールするには:

  1. データドリフトの設定ページの通知セクションで、通知を送信を有効にします。

  2. データドリフト通知の設定をします。 次の表にスケジュールオプションを示します。 すべての時間はUTCで表示されます。

    頻度 説明
    毎日 各日の選択した時刻。
    毎週 各選択日の選択した時刻。
    毎月 各月の各選択日の選択した時刻。 月内で選択された日は、コンマ区切りのリストで数値(1から31)として表されます。
    毎四半期 四半期の各月の各選択日の選択した時刻。 各月の選択日は、コンマ区切りのリストで数値(1から31)として表されます。
    毎年 各選択月の、各選択日の選択した時刻。 各月の選択日は、コンマ区切りのリストで数値(1から31)として表されます。
    高度なスケジューラーを使用する
    0から59の範囲の数値のコンマ区切りのリストで定義された各分(1時間全体の場合は*)。
    時間 0から23の範囲の数値のコンマ区切りのリストで定義された各正時(1日全体の場合は*)。
    1から31の範囲の数値のコンマ区切りのリストで定義された各日(1月全体の場合は*)。
    1から12の範囲の数値のコンマ区切りのリストで定義された各月(1年全体の場合は*)。
    曜日 0から6の範囲の数値のコンマ区切りのリストで定義された各曜日(すべての曜日の場合は*)。
  3. スケジュール設定を更新したら、保存をクリックします。

    重要

    通知設定で指定した時間により、監視のタイプに応じたステータスチェックがスケジュールされます。 DataRobotは、 _チェックの間に監視イベントが発生した場合_のみ、サブスクライバーに通知を送信します。たとえば、サービスの正常性について4xxまたは5xxエラーを受信した場合や、指定されたウィンドウでデータドリフトのステータスに変化があった(成功から失敗、または失敗から成功)場合です。


更新しました March 13, 2024