セグメント化された分析¶
セグメント化された分析により、デプロイ時のトレーニングおよび予測データ要求の運用上の問題点を特定します。 DataRobotでは、データのドリフトと精度の統計を固有のセグメント属性と値にフィルタリングすることでドリルダウン分析が可能になります。
セグメント化された分析を設定、表示、および適用する方法については、以下のガイドラインを参照してください。
セグメント分析の設定¶
デプロイの作成時にセグメント化された分析を有効にするか、または設定 > データタブに移動して、既存のデプロイを設定します。 推論セクションで以下のトグルをオンにします 。 これらのトグルを設定できるのは、デプロイのオーナーだけです。
- ターゲット監視の有効化
- 特徴量ドリフト追跡の有効化
- トレーニングデータと予測に対するセグメント化された分析のために属性を追跡
セグメント化された分析を有効にした時系列デプロイの場合、DataRobotはセグメント化された属性のForecast Distance
とseries id
(IDは複数系列モデルのみに適用)を最大で2つ自動的に追加します。 これらの属性により、特定の予測距離や系列用の精度およびドリフトが確認できます。
トグルを有効にした後、予測を作成する前に、トレーニングおよび予測データで追跡するセグメント属性を指定する必要があります。 追跡するセグメント属性を選択すると、モデルのデータが属性によってセグメント化され、ユーザーは追跡対象として選択した属性を構成するセグメント値を詳細に分析できます。 セグメント化された分析に使用される属性は、デプロイされたモデルのトレーニングデータセットに存在する必要がありますが、モデルの特徴量である必要はありません。
追跡に使用できるセグメント属性のリストは、複数系列デプロイで使用される選択された系列IDを除いて、カテゴリー特徴量に限定されます。 属性を追跡するには、トレーニングデータと予測に対するセグメント化された分析のために属性を追跡フィールドに目的の属性をリストします。
「コンシューマー」属性(予測リクエストを行うユーザーを表します)は、デフォルトで常にリストされます。 時系列デプロイの場合、予測距離は、トレーニングデータセットに明示的に存在しなくても、セグメント属性として自動的に使用可能になります。 予測距離は、予測ポイントと予測される日付に基づいて推測されます。 追跡する属性を確定したら、変更を保存をクリックします。
予測を作成して、セグメントごとにデプロイを分析するタブ( サービスの正常性、データドリフト、および精度。 セグメント化された分析は、トグルをオンにした後の予測にのみ使用できる点に注意してください。
セグメント分析の表示¶
デプロイのセグメント化された分析を有効にして予測を作成した場合、セグメントごとにさまざまな統計にアクセスできます。 デフォルトで、セグメンテーションなしでデプロイの統計が表示されます。
セグメント分析に使用されるドロップダウンメニューは、以下の2つです。セグメント属性とセグメント値。
サービスの正常性¶
サービスの正常性のセグメント化された分析では、すべてのデプロイに固定のセグメント属性を使用します。 セグメント属性は、予測リクエストを表示するさまざまな方法を表します。 セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。 ソースは、以下に適用されるセグメント属性に応じた値別で表されます。
セグメント属性 | 説明 | セグメント値 | 例 |
---|---|---|---|
DataRobot-Consumer (DataRobotの消費者) | 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 | 各セグメントの値は、ユーザーのEメールアドレスです。 | セグメント属性:DataRobot-Consumer 値: nate@datarobot.com |
DataRobot-Host-IP(DataRobotのホストIP) | 予測リクエストをするために使用される予測サーバーのIPアドレス別で、予測リクエストをセグメント化します。 | 各セグメントの値は、一意のIPアドレスです。 | セグメント属性:DataRobot-Host-IP 値:168.212. 226.204 |
DataRobot-Remote-IP (DataRobotのリモートIP) | 呼び出し元(予測リクエストするために使用されるマシン)のIPアドレス別で、予測リクエストをセグメント化します。 | 各セグメントの値は、一意のIPアドレスです。 | セグメント属性:DataRobot-Remote-IP 値:63.211. 546.231 |
セグメント属性を選択してから、その属性のセグメント値を選択します。 両方を選択すると、サービスの正常性タブが自動的にリフレッシュされ、選択したセグメント値の統計が表示されます。
表示されるセグメント値は、指定された時間範囲に関連付けられている点に注意してください。 ユーザーが指定された時間範囲外の予測リクエストのみを提供した場合、そのユーザーはドロップダウンメニューに選択可能なセグメント値として表示されません。
データドリフトと精度¶
データドリフトと精度のセグメント化された分析により、すべてのデプロイの固定属性に加えて、カスタム属性が可能になります。 セグメント属性は、データを表示するさまざまな方法を表します。 セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。 ソースは、以下に適用されるセグメント属性に応じた値別で表されます。
セグメント属性 | 説明 | セグメント値 | 例 |
---|---|---|---|
DataRobot-Consumer (DataRobotの消費者) | 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 | 各セグメントの値は、ユーザーのEメールアドレスです。 | セグメント属性:DataRobot-Consumer 値: nate@datarobot.com |
カスタム属性 | セグメント化された分析を設定するときに示されたトレーニングデータ内の列に基づくセグメント。 たとえば、トレーニングデータに「国」列が含まれている場合、それをカスタム属性として選択し、データを個々の国(カスタム属性のセグメント値を構成する)でセグメント化できます。 | 指定したセグメント属性に基づきます。 | セグメント属性:「国」 値:「スペイン」 |
なし | セグメンテーションなしでデータドリフト統計を表示します。 | すべて(セグメンテーションは適用されていません)。 | N/A |
セグメント属性を選択してから、その属性のセグメント値を選択します。 両方を選択すると、データドリフトタブが自動的に更新され、選択したセグメント値の統計が表示されます。
表示されるセグメント値は、指定された時間範囲に関連付けられている点に注意してください。 追跡されたセグメントの属性または値が、指定された時間範囲外の予測リクエストにのみ存在する場合、その属性または値はドロップダウンメニューに表示されません。
セグメント分析の適用¶
セグメント分析の使用例は、デプロイのデータエラー率の原因を特定することです。 たとえば、このデプロイでは、セグメント化なしで、指定された時間範囲のエラー率14.39%が表示されます。
セグメント分析は、エラー率の原因を理解する上で役立ちます。 たとえば、セグメント属性ドロップダウンから「DataRobotの消費者」を選択すると、指定された時間ウィンドウの個々のユーザーの予測リクエストのデータエラー率が表示されます。 セグメント値ドロップダウンから個人ユーザーを選択すると、予測リクエストのセグメントのサービスの正常性統計が表示されます。
この場合、ユーザーjohn.bledsoe@datarobot.comを選択すると、統計がリフレッシュされ、このユーザーの統計が表示されます。 彼は250のリクエストに対して25,000を予測し、エラー率は0%でした。
ユーザーはこのデプロイには全体のエラー率では寄与しなかったと解釈できます。 ただし、このデプロイを予測する別のユーザーを選択すると、160のリクエストに対して1010が予測され、エラー率は36.875%でした。
セグメント分析から収集された情報は、デプロイのエラー率の原因を明確に示しているので、管理者は誤りのあるデータを調べ、問題を修正することができます。