精度タブ¶
精度タブでは、標準的な統計的手法とエクスポート可能な可視化によって、時間の経過に伴うモデルデプロイのパフォーマンスを分析できます。
このツールを使用して、モデルの品質が低下しているかどうかや、モデルの置換を検討すべきかどうかを判断します。 精度タブには、問題の種類に基づいてインサイトおよびインサイトに関連付けられた最適化指標が表示されます。これらの指標は連続値プロジェクトか二値分類プロジェクトかにより異なります。
処理制限
このタブに表示される精度スコアは推定値であり、元のデータのすべての予測行を使用して計算された精度スコアとは異なる場合があります。 これは、データ処理に限界があるためです。 処理制限は、組織の 設定に応じて、1時間単位、1日単位、または1週間単位で設定できます。 さらに、1時間あたりのメガバイト制限(通常は100MB/時間)がシステムレベルで定義されます。 精度スコアには、大規模な予測リクエストのすべての行が反映されるわけではないため、より正確なスコアを得るためには、計算の限界に達しないように、複数の時間または日にわたってリクエストを行います。
[精度]タブの有効化¶
デフォルトでは、精度タブはデプロイに対して有効ではありません。 有効にするには、ターゲットの監視を有効にし、関連付けIDを設定して、DataRobotの外部で収集されたデプロイの予測値と実測値を含むデータをアップロードします。 詳細については、実測値を追加してデプロイの精度を設定する方法の概要を参照してください。
以下のエラーは、精度分析の妨げになる可能性があります。
問題 | 単位 |
---|---|
ターゲットの監視設定が無効になっています | データドリフト > 設定タブでターゲットの監視を有効にします。 精度タブに、ターゲットの監視を有効にするよう促すメッセージが表示されます。 |
予測時に関連付けIDがありません | 予測を精度追跡に含めるには、予測を行う前に関連付けIDを設定します。 |
欠損実測値 | 精度 > 設定タブで実測値を追加します。 |
精度分析を有効にするには、予測数が不十分です | 精度 > 設定タブでさらに実測値を追加します。 精度 タブを有効にするには、対応する実測値を持つ最小100行の予測が必要です。 |
選択した時間範囲のデータがありません | 予測値と実測値が選択した時間範囲と一致することを確認して、その範囲の精度指標を参照します。 |
時間範囲および期間ドロップダウン¶
コントロール(モデルバージョンおよびデータ時間範囲セレクター)は、データドリフトタブのコントロールと同様に機能します。 精度タブはセグメント化された分析にも対応しており、個々のセグメント属性や値の精度を確認することができます。
精度指標の設定¶
デプロイオーナー は各デプロイに複数の精度指標を設定できます。 デプロイで使用される精度指標は、精度グラフの上に個別のタイルとして表示されます。 使用する指標を編集するには、タイルをカスタマイズを選択します。
ダイアログボックスには、デプロイに対して現在有効になっているすべての指標が一覧表示されます。 指標は、左から右方向のタイルの表示順で上から下に表示されます。
タイルの位置は、上矢印を選択すると左に移動し、下矢印を選択すると右に移動します。
新しい指標タイルを追加するには、別の指標を追加をクリックします。 1つのデプロイで、最大10の精度タイルを表示できます。
タイルの精度指標を変更するには、変更する指標のドロップダウンをクリックして、置き換える指標を選択します。
すべての変更を行ったら、OKをクリックします。 精度タブが更新され、表示中の指標に加えた変更が反映されます。
利用可能な精度指標¶
利用可能な指標は、デプロイに使用するモデリングプロジェクトのタイプ(連続値、二値分類または多クラス)によって異なります。
モデリングタイプ | 利用可能な指標 |
---|---|
連続値 | RMSE、MAE、Gamma Deviance、Tweedie Deviance、R Squared、FVE Gamma、FVE Poisson、FVE Tweedie、Poisson Deviance、MAD、MAPE、RMSLE |
二値分類 | LogLoss、AUC、Kolmogorov-Smirnov、Gini-Norm、Rate@Top10%、Rate@Top5%、TNR、TPR、FPR、PPV、NPV、F1、MCC、Accuracy、Balanced Accuracy、FVE Binomial |
多クラス | LogLoss、FVE多項式 |
これらの指標の詳細については、 最適化指標のドキュメントを参照してください。
結果の解釈¶
精度タブに表示される結果は、デプロイが連続値プロジェクトか二値分類プロジェクトに応じて異なります。
予測の時間
予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。
-
[サービスの正常性]タブの「予測リクエストの日時」は、常に予測サーバーが予測リクエストを受信した日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。
-
データドリフトタブと精度タブについてデフォルトで、「予測リクエストの時間」は、予測リクエストを送信した時刻になります。これは、 予測履歴とサービスの正常性設定で、予測タイムスタンプでオーバーライドできます。
時系列の精度グラフ¶
時系列の精度グラフには、選択した精度指標の値(この例ではLogLoss)の経時変化が表示されます。
時系列デプロイでの予測の時間
時系列デプロイのデフォルトの予測タイムスタンプ方法は、予測リクエストの時刻ではなく、予測日(つまり、予測ポイント+予測距離)です。 予測日では、トレーニングデータとデータドリフトおよび精度統計の基準との間で共通の時間軸を使用できます。 たとえば、予測日を使用して、予測データの日付が6月1日から6月10日で、予測ポイントが6月10日に設定され、予測距離が+1 - + 7
日に設定されている場合、6月11日~17日の予測値を入手でき、データドリフトもこの期間追跡されます。
モデルをデプロイする際に、以下の予測スタンプオプションから選択できます。
- 日付/時刻特徴量の値を使用:デフォルト。 予測データと共に特徴量として提供される日時(例:予測日)を使用して、タイムスタンプを決定します。
- 予測リクエストの時刻を使用:予測リクエストを送信した日時を使用して、タイムスタンプを決定します。
開始値(ベースライン精度スコア)とプロットされた精度ベースラインは、モデルの精度スコアを表します。これは、トレーニングされたモデルのホールドアウトパーティションでの予測を使用して計算されます。
カスタムモデルのホールドアウトパーティション
- 構造化カスタムモデルでは、トレーニングデータセットのパーティション列に基づいてホールドアウトパーティションを定義します。 トレーニングデータを追加する際にパーティション列を指定することができます。
- 非構造化カスタムモデルと外部モデルでは、トレーニングデータセットとホールドアウトデータセットを別々に提供します。
グラフの上にある指標タイルをクリックすると、表示が変更されます。
グラフ上のポイントにカーソルを置くと以下のような詳細が表示されます。
フィールド | 連続値 | 分類 |
---|---|---|
タイムスタンプ(1) | ポイントがキャプチャする期間。 | |
指標(2) | ポイントの期間に対して選択した最適化指標値。 これにはグラフ上の対応する指標タイルのスコアが反映され、表示された期間に合わせて調整されます。 | |
予測値(3) | ポイントの期間の平均予測値(予測データから派生)。 値は、予測値と実測値のグラフに沿った青いポイントとして反映されます。 | ポイントの期間に対して予測データで値ラベル(trueまたはfalse)が予測された頻度(パーセンテージ)。 値は、予測値と実測値のグラフに沿った青いポイントとして表されます。 ラベルの設定については、下の画像を参照してください。 |
実測値(4) | ポイントの期間の平均実測値(実測データから派生)。 値は予測値と実測値のグラフに沿ったオレンジのポイントで反映されます。 | ポイントの期間に対して実測値データが値1(true)である頻度(パーセンテージ)。 これらの値は、予測値と実測値のグラフに沿ってオレンジのポイントとして表されます。 ラベルの設定については、下の画像を参照してください。 |
行の数(5) | チャート上のこのポイントで表示される行数。 | |
欠損実測値(6) | 対応する実測値が記録されていない予測行数。 この値は、選択したポイントに固有のものではありません。 |
予測値と実測値のグラフ¶
上のグラフには、二値分類データセットのタイムラインに沿って予測値と実測値が表示されます。 いずれかのプロットのポイントにカーソルを合わせると、データドリフトタブの値と同じ値が表示されます(タイムスライダーが同じ時間範囲に設定されていると仮定)。
予測値と実測値のグラフの上部にあるドロップダウンメニューから、表示する分類値(この例では0または1)を選択できます。
二値分類プロジェクトの場合、タイムラインとヒストグラムのバケットは連続値プロジェクトと同様に機能しますが、このプロジェクトのタイプでは、結果を表示するクラスを選択できます(上記の時系列の精度グラフを参照してください)。
グラフの下のボリュームチャートには、各ポイントで行われた予測に対応する実測値の数が表示されます。 影付きの領域はアップロードされた実測値の数を表し、縞模様の領域は対応する実測値が欠損している予測の数を表します。
実測値が欠損している予測を識別するには、実測値が欠損しているIDのダウンロードリンクをクリックします。 実測値が欠損している予測をリストしたCSVファイル(missing_actuals.csv
)が各予測の関連付けIDとともにダウンロードされます。 関連付けIDを使用して、一致するIDを持つ実測値をアップロードします。
クラスセレクター¶
多クラスデプロイは、精度グラフに表示されるデータを変更するためのクラスベースの設定を提供します。 デフォルトでは、グラフにはトレーニングデータで最も一般的な5つのクラスが表示されます。 他のすべてのクラスは1行で表されます。 日付スライダーの上にターゲットクラスのドロップダウンがあります。 これは選択したタブに表示するためにどのクラスが選択されているかを示します。
ドロップダウンをクリックして、表示するクラスを選択します。 すべてのクラスを使用するまたは特定のクラスを選択するを選択します。
すべてのクラスを表示する場合は、最初のオプションを選択してから、 適用をクリックします。
特定のクラスを表示するには、2番目のオプションを選択します。 次のフィールドにクラス名を入力して、表示するクラス名を示します(一度に最大5つのクラスを表示可能)。 DataRobotには、クラスのクイック選択ショートカット(トレーニングデータで最も一般的な5つのクラス、精度スコアが最も低い5つのクラス、データドリフトが最も多い5つのクラス)が用意されています。 表示する5つのクラスを指定したら、適用をクリックします。
指定すると、タブ(デプロイ精度またはデータドリフト)のチャートが更新され、選択したクラスが表示されます。
精度多クラスのグラフ¶
時系列の精度:
予測値と実測値の比較。
アラートの解釈¶
DataRobotは、デプロイのために選択された最適化指標タイルを精度スコアとして使用し、アラートステータスを作成します。 アラートステータスの意味を以下に示します。
色 | 精度 | アクション |
---|---|---|
Green / Passing | 精度はモデルがデプロイされたときとほぼ同じです。 | 必要なアクションはありません。 |
Yellow / At risk | 精度はモデルが展開されたときから低下しています。 | 懸念がありますが、早急のアクションは必要ありません。監視を継続してください。 |
Red / Failing | 精度はモデルが展開されたときから大幅に低下しています。 | 早急なアクションが必要です。 |
Gray / Unknown | 精度データがありません。 予測が不十分(最低100が必要) | 予測を作成します。 |
以下に例を示します。¶
XYZ履歴データベーステーブルのトレーニングデータがあります。このトレーニングデータには、「アクティビティが不正行為かどうか」というターゲットが含まれています。モデルを構築した後、XYZ日次テーブル(ターゲットを含まない)に対してモデルのスコアリングを行い、XYZスコアデータベースに予測を書き出します。 アプリケーションはXYZスコアを使用します。予測時にデータベースインスタンスに書き込まれたデータは、後でXYZ履歴テーブルに別途書き込まれます。
モデルで正確な予測が行われているかどうかを判断するために、XYZ履歴テーブルとXYZスコアを毎月統合します。 これにより、予測される不正な値と実際に不正な値が単一の表に表示されます。
最後に、この予測データセットをDataRobotデプロイに追加し、実測値列および予測値列を設定します。 次に、DataRobotで結果が分析され、モデル精度低下とモデル置き換えの必要性を判断するために役立つ指標が提供されます。