Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

セグメント化された分析

セグメント化された分析により、デプロイ時のトレーニングおよび予測データ要求の運用上の問題点を特定します。DataRobotでは、データのドリフトと精度の統計をユニーク数のセグメント属性と値にフィルタリングすることでドリルダウン分析が可能になります。

セグメント化された分析の設定表示適用方法については、以下のガイドラインをご覧ください。

セグメント化された分析の設定

既存のデプロイのセグメント化された分析を有効にするには、設定 > データタブに移動します(デプロイのセグメント分析は、作成中に新しいデプロイ用に構成することもできます)。推論 > データドリフトヘッダーの下で以下のトグルをオンにします。これらのトグルを設定できるのは、デプロイのオーナーだけです。

  • データドリフト追跡を有効化
  • 予測行ごとの履歴保存を有効化
  • トレーニングデータと予測に対するセグメント化された分析のために属性を追跡

セグメント化された分析を有効にした時系列デプロイの場合、DataRobotはセグメント化された属性のForecast Distanceseries id(IDは複数系列モデルのみに適用)を最大で2つ自動的に追加します。これらの属性により、特定の予測距離や系列用の精度およびドリフトが確認できます。

トグルを有効にした後、予測を作成する前に、トレーニングおよび予測データで追跡するセグメント属性を指定する必要があります。追跡するセグメント属性を選択すると、モデルのデータが属性によってセグメント化され、ユーザーは追跡対象として選択した属性を構成するセグメント値を詳細に分析できます。セグメント化された分析に使用される属性は、デプロイされたモデルのトレーニングデータセットに存在する必要がありますが、モデルの特徴量である必要はありません。

追跡に使用できるセグメント属性のリストは、複数系列デプロイで使用される選択された系列IDを除いて、カテゴリー特徴量に限定されます。属性を追跡するには、トレーニングデータと予測に対するセグメント化された分析のために属性を追跡フィールドに目的の属性をリストします。

「コンシューマー」属性(予測リクエストを行うユーザーを表します)は、デフォルトで常にリストされます。時系列デプロイの場合、予測距離は、トレーニングデータセットに明示的に存在しなくても、セグメント属性として自動的に使用可能になります。予測距離は、予測ポイントと予測される日付に基づいて推測されます。追跡する属性を確定したら、変更を保存をクリックします。

予測を行い、セグメントごとに分析するデプロイのタブ(サービスの正常性データドリフト精度)に移動します。セグメント化された分析は、トグルをオンにした後の予測にのみ使用できる点に注意してください。

セグメント化された分析の表示

デプロイのセグメント化された分析を有効にして予測を行った場合、セグメントごとのさまざまな統計情報にアクセスできます。デフォルトで、セグメンテーションなしでデプロイの統計が表示されます。

セグメント分析に使えるドロップダウンメニューには、セグメント属性セグメント値の2つがあります。

サービスの正常性

サービスの正常性のセグメント化された分析では、すべてのデプロイに固定のセグメント属性を使用します。セグメント属性は、予測リクエストを表示するさまざまな方法を表します。セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。ソースは、以下に適用されるセグメント属性に応じた値別で表されます。

セグメント属性 説明 セグメント値
DataRobot-Consumer (DataRobotの使用者) 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 各セグメントの値は、ユーザーのEメールアドレスです。 セグメント属性:DataRobot-Consumer(DataRobotの使用者) 値:nate@datarobot.com
DataRobot-Host-IP(DataRobotのホストIP) 予測リクエストをするために使用される予測サーバーのIPアドレス別で、予測リクエストをセグメント化します。 各セグメント値は、ユニーク数のIPアドレスです。 セグメント属性:DataRobot-Host-IP(DataRobotのホストIP) 値:168.212.226.204
DataRobot-Remote-IP (DataRobotのリモートIP) 呼び出し元(予測リクエストするために使用されるマシン)のIPアドレス別で、予測リクエストをセグメント化します。 各セグメント値は、ユニーク数のIPアドレスです。 セグメント属性:DataRobot-Remote-IP(DataRobotのリモートIP) 値:63.211.546.231

セグメント属性を選択してから、その属性のセグメント値を選択します。両方を選択すると、サービスの正常性タブが自動的にリフレッシュされ、選択したセグメント値の統計が表示されます。

表示されるセグメント値は、指定された時間範囲に関連付けられている点に注意してください。ユーザーが指定された時間範囲外の予測リクエストのみを提供した場合、そのユーザーはドロップダウンメニューに選択可能なセグメント値として表示されません。

データドリフトと精度

データドリフトと精度のセグメント化された分析により、すべてのデプロイの固定属性に加えて、カスタム属性が可能になります。セグメント属性は、データを表示するさまざまな方法を表します。セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。ソースは、以下に適用されるセグメント属性に応じた値別で表されます。

セグメント属性 説明 セグメント値
DataRobot-Consumer (DataRobotの使用者) 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 各セグメントの値は、ユーザーのEメールアドレスです。 セグメント属性:DataRobot-Consumer(DataRobotの使用者) 値:nate@datarobot.com
カスタム属性 セグメント化された分析を設定するときに示されたトレーニングデータ内の列に基づくセグメント。たとえば、トレーニングデータに「国」列が含まれている場合、それをカスタム属性として選択し、データを個々の国(カスタム属性のセグメント値を構成する)でセグメント化できます。 指定したセグメント属性に基づきます。 セグメント属性:「国」 値:「スペイン」
なし セグメンテーションなしでデータドリフト統計を表示します。 すべて(セグメンテーションは適用されていません)。 N/A

セグメント属性を選択してから、その属性のセグメント値を選択します。両方を選択すると、データドリフトタブが自動的に更新され、選択したセグメント値の統計が表示されます。

表示されるセグメント値は、指定された時間範囲に関連付けられている点に注意してください。追跡されたセグメントの属性または値が、指定された時間範囲外の予測リクエストにのみ存在する場合、その属性または値はドロップダウンメニューに表示されません。

セグメント化された分析を適用

セグメント分析のユースケース例は、デプロイのデータエラー率の原因を特定することです。たとえば、このデプロイでは、セグメント化なしで、指定された時間範囲のエラー率14.39%が表示されます。

セグメント分析は、エラー率の原因を理解する上で役立ちます。たとえば、セグメント属性ドロップダウンから「DataRobotの使用者」を選択すると、指定された時間ウィンドウの個々のユーザーの予測リクエストのデータエラー率が表示されます。セグメント値ドロップダウンから個人ユーザーを選択すると、予測リクエストのセグメントのサービスの正常性統計が表示されます。

この場合、ユーザーjohn.bledsoe@datarobot.comを選択すると、統計がリフレッシュされ、このユーザーの統計が表示されます。彼は250のリクエストに対して25,000を予測し、エラー率は0%でした。

このユーザーはこのデプロイには全体のエラー率では寄与しなかったと解釈できます。ただし、このデプロイを予測する別のユーザーを選択すると、160のリクエストに対して1010が予測され、エラー率は36.875%でした。

セグメント分析から集められた情報は、デプロイのエラー率の原因を明確に示しており、管理者は誤りのあるデータを調べ、問題を是正できます。


更新しました February 22, 2022
Back to top