精度¶
精度タブでは、標準的な統計的手法とエクスポート可能な可視化によって、時間の経過に伴うモデルデプロイのパフォーマンスを分析できます。 このツールを使用して、モデルの品質が低下しているかどうかや、モデルの置換を検討すべきかどうかを判断します。 モニタリング > 精度タブには、問題のタイプとそれに関連する最適化指標に基づくインサイトが表示されます。
処理制限
このタブに表示される精度スコアは推定値であり、元のデータのすべての予測行を使用して計算された精度スコアとは異なる場合があります。 これは、データ処理に限界があるためです。 Processing limits can be hourly, daily, or weekly—depending on the configuration for your organization. さらに、1時間あたりのメガバイト制限(通常は100MB/時間)がシステムレベルで定義されます。 精度スコアには、大規模な予測リクエストのすべての行が反映されるわけではないため、より正確なスコアを得るためには、計算の限界に達しないように、複数の時間または日にわたってリクエストを行います。
[精度]タブの有効化¶
デフォルトでは、精度タブはデプロイに対して有効ではありません。 有効にするには、ターゲットの監視を有効にし、関連付けIDを設定して、DataRobotの外部で収集されたデプロイの予測値と実測値を含むデータをアップロードします。 Reference the overview of setting up accuracy for deployments by adding actuals for more information.
以下のエラーは、精度分析の妨げになる可能性があります。
問題 | 単位 |
---|---|
ターゲットの監視設定が無効になっています | |
予測時に関連付けIDがありません | Set an association ID before making predictions to include those predictions in accuracy tracking. |
欠損実測値 | Add actuals on the Settings > Accuracy tab. |
精度分析を有効にするには、予測数が不十分です | |
選択した時間範囲のデータがありません | 予測値と実測値が選択した時間範囲と一致することを確認して、その範囲の精度指標を参照します。 |
精度ダッシュボードを設定¶
コントロール(モデルバージョンおよびデータ時間範囲セレクター)は、データドリフトタブのコントロールと同様に機能します。 The Accuracy tab also supports segmented analysis, allowing you to view accuracy for individual segment attributes and values.
精度指標の設定¶
デプロイオーナー は各デプロイに複数の精度指標を設定できます。 デプロイで使用される精度指標は、精度グラフの上に個別のタイルとして表示されます。 使用する指標を編集するには、タイルをカスタマイズを選択します。
ダイアログボックスには、デプロイに対して現在有効になっているすべての指標が一覧表示されます。指標は、左から右方向のタイルの表示順で上から下に表示されます。 最初の指標であるデフォルト指標は、ページを開くと読み込まれます。
アイコン | アクション | 説明 |
---|---|---|
指標を上に移動 | 指標グリッドで、指標を左(または上)に移動します。 | |
指標を下に移動 | 指標グリッドで、指標を右(または下)に移動します。 | |
指標を削除 | 指標グリッドから指標を削除します。 | |
別の指標を追加 | 新しい指標を指標リストまたはグリッドの末尾に追加します。 |
1つのデプロイで、最大10の精度タイルを表示できます。 指標が不足している場合、既存のタイルの精度指標を変更します。変更する指標のドロップダウンをクリックして、置き換える指標を選択します。 利用可能な指標は、デプロイに使用するモデリングプロジェクトのタイプ(連続値、二値分類または多クラス)によって異なります。
モデリングタイプ | 使用可能な指標 |
---|---|
連続値 | RMSE、MAE、Gamma Deviance、Tweedie Deviance、R Squared、FVE Gamma、FVE Poisson、FVE Tweedie、Poisson Deviance、MAD、MAPE、RMSLE |
二値分類 | LogLoss、AUC、Kolmogorov-Smirnov、Gini-Norm、Rate@Top10%、Rate@Top5%、TNR、TPR、FPR、PPV、NPV、F1、MCC、Accuracy、Balanced Accuracy、FVE Binomial |
多クラス | LogLoss、FVE多項式 |
備考
これらの指標の詳細については、 最適化指標のドキュメントを参照してください。
すべての変更を行ったら、OKをクリックします。 精度タブが更新され、表示中の指標に加えた変更が反映されます。
精度チャート¶
これらの精度のインサイトは、問題のタイプとそれに関連する最適化指標に基づいてレンダリングされます。 In particular, the Accuracy over Time chart displays the change in the selected accuracy metric over time. 時系列の精度チャートと予測値と実測値チャートは、1つで2つのチャートであり、共通のx軸である予測時間を共有します。
予測の時間
予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。
-
[サービスの正常性]タブの「予測リクエストの日時」は、常に予測サーバーが予測リクエストを受信した日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。
-
データドリフトタブと精度タブについてデフォルトで、「予測リクエストの時間」は、予測リクエストを送信した時刻になります。これは、 予測履歴とサービスの正常性設定で、予測タイムスタンプでオーバーライドできます。
予測時間軸(x軸)では、各ポイントで作成された予測に関連付けられた実測値の数が、ボリュームビンに表示されます。 影付きの領域はアップロードされた実測値の数を表し、縞模様の領域は対応する実測値が欠損している予測の数を表します。
時系列デプロイでの予測の時間
時系列デプロイのデフォルトの予測タイムスタンプ方法は、予測リクエストの時刻ではなく、予測日(つまり、予測ポイント+予測距離)です。 予測日では、トレーニングデータとデータドリフトおよび精度統計の基準との間で共通の時間軸を使用できます。 たとえば、予測日を使用して、予測データの日付が6月1日から6月10日で、予測ポイントが6月10日に設定され、予測距離が+1 - + 7
日に設定されている場合、6月11日~17日の予測値を入手でき、データドリフトもこの期間追跡されます。
モデルをデプロイする際に、以下の予測スタンプオプションから選択できます。
- 日付/時刻特徴量の値を使用:デフォルト。 予測データと共に特徴量として提供される日時(例:予測日)を使用して、タイムスタンプを決定します。
- 予測リクエストの時刻を使用:予測リクエストを送信した日時を使用して、タイムスタンプを決定します。
いずれかのチャートで、プロット上のマーカー(またはマーカーに関連付けられた周囲のビン)をポイントすると、そのデータポイントの特定の詳細が表示されます。 次の表は、連続値モデルと分類モデルの両方のデプロイで提供される情報を示します。
要素 | 連続値 | 分類 |
---|---|---|
1 | ポイントがキャプチャする期間。 | |
2 | ||
3 | ||
4 | ||
5 | チャート上のこのポイントで表示される行数。 | |
6 |
時系列の精度チャート¶
時系列の精度チャートには、選択した精度指標の値の経時変化が表示されます。 グラフの上にある指標タイルをクリックすると、表示が変更されます。
開始値(ベースライン精度スコア)とプロットされた精度ベースラインは、モデルの精度スコアを表します。これは、トレーニングされたモデルのホールドアウトパーティションでの予測を使用して計算されます。
カスタムモデルのホールドアウトパーティション
- 構造化カスタムモデルでは、トレーニングデータセットのパーティション列に基づいてホールドアウトパーティションを定義します。 You can specify the partition column while adding training data.
- 非構造化カスタムモデルと外部モデルでは、トレーニングデータセットとホールドアウトデータセットを別々に提供します。
予測値&実測値チャート¶
予測値と実測値のチャートには、時間の経過に伴う予測値と実測値が表示されます。 二値分類プロジェクトの場合、チャートの上部にあるドロップダウンメニューから、表示する分類値(この例ではTrueまたはFalse)を選択できます。
実測値が欠損している予測を識別するには、実測値が欠損しているIDのダウンロードリンクをクリックします。 This prompts the download of a CSV file (missing_actuals.csv
) that lists the predictions made that are missing actuals, along with the association ID of each prediction. Use the association IDs to upload the actuals with matching IDs.
多クラス精度チャート¶
多クラスデプロイでは、標準のデプロイと同じ時系列の精度と予測値と実測値の比較チャートが提供されますが、チャートには個々のクラスが含まれ、表示されるデータを定義するクラスベースの設定が提供されるため、チャートは若干異なります。 さらに、データを チャートとして表示するか、 テーブルとして表示するかを選択することができます。
備考
デフォルトでは、チャートにはトレーニングデータで最も一般的な5つのクラスが表示されます。クラスの数が5を超えると、他のすべてのクラスは1行で表されます。
表示されるクラスを設定するには、日付スライダー上で、ターゲットクラスドロップダウンを設定し、選択したタブに表示するクラスを制御します。
ドロップダウンをクリックして表示するクラスを決定し、以下のいずれかを選択します。
オプション | 説明 |
---|---|
すべてのクラスを使用する | トレーニングデータで最も一般的な5つのクラスをすべて選択し、他のすべてのクラスを表す1つのラインを表示します。 |
特定のクラスを選択する | 最大5つのクラスを表示するには、次のいずれかを実行します。
|
適用をクリックすると、タブのチャートが更新され、選択したクラスが表示されます。
位置データの精度チャート¶
プレミアム機能
地理空間の監視はプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
地理空間特徴量の監視サポート
地理空間特徴量の監視は、二値分類、多クラス、連続値、位置のターゲットタイプでサポートされています。
DataRobotの Location AIが地理空間特徴量を検出して取り込むと、 H3インデックスと セグメント化された分析を使用して、世界がセルのグリッドに分割されます。 指標タブでは、これらのセルが「位置ごとの精度」分析の基礎となり、位置を比較することで、予測精度、スコアリングデータのサンプルサイズ、実測値のある行数の違いを特定できます。
デプロイの地理空間監視の有効化¶
トレーニングデータセット内の位置データを使用して構築し、デプロイした二値分類、連続値、多クラス、または位置モデルでは、DataRobotのLocation AIを活用して、デプロイでの地理空間の監視ができます。 To enable geospatial analysis for a deployment, enable segmented analysis and define a segment for the location feature geometry
, generated during location data ingest. The geometry
segment contains the identifier used to segment the world into a grid of—typically hexagonal—cells, known as H3 cells.
位置セグメントの定義
地理空間の監視に必要なH3セル識別子を含む列を指定する場合、セグメント値としてgeometry
を使用する必要はありません。 セグメント値として提供される列には、必要な識別子が含まれている限り、任意の名前を付けることができます(下記参照)。 For custom or external models with the Location target type, a location segment, DataRobot-Geo-Target
, is created automatically; however, you still need to enable segmented analysis for the deployment.
Location AIは、以下のネイティブの地理空間データ形式の取込みをサポートしています。
- ESRIシェープファイル
- GeoJSON
- ESRIファイルジオデータベース
- Well Known Text(テーブルの列に埋め込み)
- PostGISデータベース
Location AIは、ネイティブの地理空間データの取込みに加えて、データセットの列がlatitude
やlongitude
という名前で、次の形式の値が含まれている場合、位置変数を認識することで、非地理空間形式内の位置データを自動的に検出できます。
- 小数度
- 度分秒
- -46° 37′ 59.988″ および -23° 33′
- 46.63333W および 23.55S
- 46*37′59.98"W および 23*33′S
- W 46D 37m 59.988s および S 23D 33m
Location AIが位置特徴量を認識すると、位置データは H3インデックスを使用して集計され、各位置がセルにグループ化されます。 セルは、16進数形式で記述された64ビットの整数で表されます(852a3067fffffff
など)。 その結果、多くの場合、近接する位置は同じセルにグループ化されます。 これらの16進値はgeometry
特徴量に保存されます。
生成されるセルのサイズは、 解像度パラメーターによって決まり、解像度の値が大きいほど、生成されるセルの数が多くなります。 解像度は、トレーニングデータのベースライン生成中に計算され、デプロイの監視で使用するために保存されます。
予測を行う場合、各予測行には、他の予測行とともに、必要な位置情報が含まれているようにします。
位置ごとの精度チャート¶
位置ごとの精度チャートにアクセスするには、 位置ごとの精度分析向けに設定されたデプロイで、位置ごとをクリックして時系列の精度チャートを位置ごとの精度モードに切り替えます。
このチャートでは、位置間の予測精度の違い、位置間のスコアリングデータのサンプルサイズの違い、または位置間の実測値のある行数の違いを特定するH3セルのグリッドを表示できます。
位置ごとの精度チャートに表示される指標を設定するには、指標: メニューをクリックし、以下のいずれかのオプションを選択します。
指標 | 説明 |
---|---|
精度指標 | |
選択された指標 | |
サンプルサイズ | |
スコアリングデータの行数 | スコアリングデータセットのセルに含まれるサンプルサイズ |
トレーニングデータの行数 | トレーニングベースラインの生成に使用されるトレーニングデータセットのセルに含まれるサンプルサイズ |
実測値のある行の数 | セルの実測値と対になった予測行の数 |
予測値対実測値 | |
平均予測値 | 連続値デプロイの場合、セルの平均予測値 |
パーセンテージ予測値 | 二値および多クラスデプロイの場合、選択したクラスとして分類されたセル内の予測値の割合 |
平均実測値 | 連続値デプロイの場合、セルの平均実測値 |
パーセンテージ実測値 | バイナリおよび多クラスデプロイの場合、選択したクラスとして分類されたセル内の実測値の割合 |
WGS84 MAEとWGS84 RMSEの精度指標とは何ですか?
WGS84 MAEとWGS84 RMSEは、メートル単位の精度の尺度です。 たとえば、どちらの指標においても、10kという値は、予測された位置が実際の位置から平均して10,000メートル離れていることを示します。 Accuracy is computed using a modified RMSE formula and MAE formula, where the distance between two coordinates using a WGS84 reference ellipsoid is substituted for \((\hat{y}_i - y_i)\).
位置ごとの予測値対実測値チャート¶
位置ごとの予測値対実測値の監視サポート
位置ターゲットタイプでは、位置ごとの予測値を可視化できます。
位置ターゲットタイプのデプロイ済みモデルの場合、位置ごとタブには位置ごとの予測値対実測値チャートが含まれます。 このチャートでは、位置間のスコアリングデータのサンプルサイズの違い、または位置間の実測値のある行数の違いを特定するH3セルのグリッドを表示できます。 For each cell, this chart plots the mean Predicted location and the corresponding mean Actual location, connected by a line, to provide a direct visualization of the accuracy represented by the WGS84 MAE and WGS84 RMSE metrics. 平均位置間の距離が小さいほど、モデルの精度が高くなります。
精度の低いモデルの特定
精度の低いモデルでは、平均的な予測位置に対応する平均的な実際の位置は、2つの点を結ぶ線で示されるセグメンテーションセルの外側にある場合があります。 たとえば、以下は精度の低いモデルですが、予測された位置が実際の位置から大きく離れています。
位置ごとの予測値対実測値チャートに表示される指標を設定するには、指標: メニューをクリックし、以下のいずれかのオプションを選択します。
指標 | 説明 |
---|---|
サンプルサイズ | |
スコアリングデータの行数 | スコアリングデータセットのセルに含まれるサンプルサイズ |
実測値のある行の数 | セルの実測値と対になった予測行の数 |
地図ベースのチャートの操作¶
位置ごとの精度および位置ごとの予測値対実測値チャートを使用するには、以下の操作を行います。
アクション | 説明 |
---|---|
1 | ズーム設定:
|
2 | マップ/マウスアクション:
|
3 | 開く および閉じる をクリックして、グラデーションの各色に関連付けられた指標値の範囲を示す凡例を表示または非表示にします。 |
4 | 設定アイコン をクリックして、セルの不透明度を調整します。 |
精度アラートの解釈¶
DataRobotは、デプロイのために選択された最適化指標タイルを精度スコアとして使用し、アラートステータスを作成します。 アラートステータスの意味を以下に示します。
色 | 精度 | アクション |
---|---|---|
緑 / 合格 | 精度はモデルがデプロイされたときとほぼ同じです。 | 必要なアクションはありません。 |
黄色 / リスクあり | 精度はモデルが展開されたときから低下しています。 | 懸念がありますが、早急のアクションは必要ありません。監視を継続してください。 |
赤 / 失敗 | 精度はモデルが展開されたときから大幅に低下しています。 | 早急なアクションが必要です。 |
グレー / 無効 | 精度追跡が無効です。 | 監視を有効にして、予測を行います。 |
グレー / 開始されていない | 精度追跡はまだ開始されていません。 | 予測の作成。 |
グレー/不明 | 予測の作成。 |