セグメント化された分析¶
セグメント化された分析により、デプロイ時のトレーニングおよび予測データ要求の運用上の問題点を特定します。 DataRobotでは、データのドリフトと精度の統計を固有のセグメント属性と値にフィルタリングすることでドリルダウン分析が可能になります。
セグメント化された分析を設定、表示、および適用する方法については、以下のガイドラインを参照してください。
セグメント分析の設定¶
サービスの正常性、データドリフト、精度のためにセグメント分析を使用するには、以下のデプロイ設定を有効にする必要があります。
-
ターゲット監視の有効化(データドリフトおよび精度の追跡を可能にするために必要)
-
特徴量ドリフト追跡の有効化(データドリフト追跡を有効にするために必要)
-
トレーニングデータと予測のセグメント分析での属性の追跡(サービスの正常性、データドリフト、および精度のセグメント分析を有効にするために必要)
備考
これらの設定を行えるのは、デプロイオーナーだけです。
セグメント分析の表示¶
デプロイのセグメント化された分析を有効にして予測を作成した場合、セグメントごとにさまざまな統計にアクセスできます。 デフォルトで、セグメンテーションなしでデプロイの統計が表示されます。
セグメント分析に使用されるドロップダウンメニューは、セグメント属性とセグメント値の2つです。
サービスの正常性¶
サービスの正常性のセグメント化された分析では、すべてのデプロイに固定のセグメント属性を使用します。 セグメント属性は、予測リクエストを表示するさまざまな方法を表します。 セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。 ソースは、以下に適用されるセグメント属性に応じた値別で表されます。
セグメント属性 | 説明 | セグメント値 | 例 |
---|---|---|---|
DataRobot-Consumer (DataRobotのコンシューマー) | 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 | 各セグメントの値は、ユーザーのEメールアドレスです。 | セグメント属性:DataRobot-Consumer 値: nate@datarobot.com |
DataRobot-Host-IP(DataRobotのホストIP) | 予測リクエストをするために使用される予測サーバーのIPアドレス別で、予測リクエストをセグメント化します。 | 各セグメントの値は、一意のIPアドレスです。 | セグメント属性:DataRobot-Host-IP 値:168.212. 226.204 |
DataRobot-Remote-IP (DataRobotのリモートIP) | 呼び出し元(予測リクエストするために使用されるマシン)のIPアドレス別で、予測リクエストをセグメント化します。 | 各セグメントの値は、一意のIPアドレスです。 | セグメント属性:DataRobot-Remote-IP 値:63.211. 546.231 |
セグメント属性を選択してから、その属性のセグメント値を選択します。 両方を選択すると、サービスの正常性タブが自動的にリフレッシュされ、選択したセグメント値の統計が表示されます。
セグメントの可用性
セグメント値ドロップダウンメニューに表示されるセグメント値は、選択された時間範囲、監視のタイプ、モデルIDには依存しません。
データドリフトと精度¶
データドリフトと精度のセグメント化された分析により、すべてのデプロイの固定属性に加えて、カスタム属性が可能になります。 セグメント属性は、データを表示するさまざまな方法を表します。 セグメント値は、1つ以上の予測リクエストに存在する選択されたセグメント属性の単一の値です。 ソースは、以下に適用されるセグメント属性に応じた値別で表されます。
セグメント属性 | 説明 | セグメント値 | 例 |
---|---|---|---|
DataRobot-Consumer (DataRobotのコンシューマー) | 予測リクエストをしたデプロイのユーザー別で、予測リクエストをセグメント化します。 | 各セグメントの値は、ユーザーのEメールアドレスです。 | セグメント属性:DataRobot-Consumer 値: nate@datarobot.com |
カスタム属性 | セグメント化された分析を設定するときに示されたトレーニングデータ内の列に基づくセグメント。 たとえば、トレーニングデータに「国」列が含まれている場合、それをカスタム属性として選択し、データを個々の国(カスタム属性のセグメント値を構成する)でセグメント化できます。 | 指定したセグメント属性に基づきます。 | セグメント属性:「国」 値:「スペイン」 |
なし | セグメンテーションなしでデータドリフト統計を表示します。 | すべて(セグメンテーションは適用されていません)。 | N/A |
セグメント属性を選択してから、その属性のセグメント値を選択します。 両方を選択すると、データドリフトタブが自動的に更新され、選択したセグメント値の統計が表示されます。
セグメントの可用性
セグメント値ドロップダウンメニューに表示されるセグメント値は、選択された時間範囲、監視のタイプ、モデルIDには依存しません。
セグメント分析の適用¶
セグメント分析の使用例は、デプロイのデータエラー率の原因を特定することです。 たとえば、このデプロイでは、セグメント化なしで、指定された時間範囲のエラー率14.39%が表示されます。
セグメント分析は、エラー率の原因を理解する上で役立ちます。 たとえば、セグメント属性ドロップダウンから「DataRobotのコンシューマー」を選択すると、指定された時間ウィンドウの個々のユーザーの予測リクエストのデータエラー率が表示されます。 セグメント値ドロップダウンから個人ユーザーを選択すると、予測リクエストのセグメントのサービスの正常性統計が表示されます。
この場合、ユーザーjohn.bledsoe@datarobot.comを選択すると、統計がリフレッシュされ、このユーザーの統計が表示されます。 彼は250のリクエストに対して25,000を予測し、エラー率は0%でした。
ユーザーはこのデプロイには全体のエラー率では寄与しなかったと解釈できます。 ただし、このデプロイを予測する別のユーザーを選択すると、160のリクエストに対して1010が予測され、エラー率は36.875%でした。
セグメント分析から収集された情報は、デプロイのエラー率の原因を明確に示しているので、管理者は誤りのあるデータを調べ、問題を修正することができます。