サービスの正常性タブ¶
サービスの正常性タブは、予測リクエストに対するデプロイのレスポンス速度と信頼性に関する指標を追跡します。 これは、ボトルネックを特定し、適切なプロビジョニングに不可欠なキャパシティを評価するのに役立ちます。
たとえば、全般的にモデルのレスポンス時間が遅く感じられる場合、モデルのデプロイのサービスの正常性タブが役に立ちます。 このタブで予測リクエストの増加に応じてレイテンシーの中央値が上昇することが確認できる場合があります。 新しいモデルに切り替えたときレイテンシーが増える場合、パフォーマンスが優れている別のモデルで新しいモデルを置き換えることが可能かどうかを検討できます。
サービスの正常性にアクセスするには、デプロイインベントリぺージから1つのデプロイを選択して、次に表示される概要ページでサービス正常性タブを選択します。 このタブは、デプロイのアクティビティレベルと正常性を評価するために役立つ情報タイルおよびチャートを提供します。
予測の時間
予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。
-
[サービスの正常性]タブの「予測リクエストの日時」は、_常に_予測サーバーが予測リクエストを_受信した_日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。
-
On the Data Drift and Accuracy tabs, the "time of prediction request" is, by default, the time you submitted the prediction request, which you can override with the prediction timestamp in the Prediction History settings.
時間範囲および期間ドロップダウンの使用¶
コントロール(モデルバージョンおよびデータ時間範囲セレクター)は、データドリフトタブのコントロールと同様に機能します。 サービスの正常性タブもセグメント化された分析をサポートするので、サービスの正常性の統計を表示して個々のセグメント属性と値を確認できます。
メトリックス・タイルの理解¶
DataRobotには、モデルおよび時間枠の現在の設定に基づいて情報統計が表示されます。 したがって、タイル値は、スライダーで選択された単位に対応します。 スライダーの間隔値が週の場合、表示されるタイル指標は週に対応します。 メトリックス・タイルをクリックすると、下のチャートが更新されます。
サービスの正常性には、以下の指標がレポートされます。
統計 | 選択した時間枠のレポート… |
---|---|
予測の合計数 | デプロイで作成された予測の数。 |
リクエストの合計数 | デプロイが受信した予測リクエストの数(単一のリクエストに複数の予測リクエストが含まれる場合があります)。 |
次の時間以上のリクエスト | 指定されたミリ秒よりもレスポンス時間が長かったリクエストの数。 デフォルトは2000msです。ボックスをクリックして10~100,000msの時間を入力するか、コントロールを使用して値を調整します。 |
応答時間 | DataRobotが予測リクエストの受信、リクエストの計算、およびユーザーへの応答に要した時間(ミリ秒)。 レポートにはネットワークレイテンシーの時間は含まれません。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 リクエストがなかったデプロイや外部デプロイの場合は、ダッシュ(-)が表示されます。 |
実行時間 | DataRobotが予測リクエストの計算に要した時間(ミリ秒)。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 |
負荷(コール数/分)の中央値 / 最高値 | 1分あたりの要求数の中央値と最大値。 |
データエラーの割合 | 4xxエラーが発生したリクエストの割合(予測リクエスト送信の問題)。 これは、デプロイページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
システムエラーの割合 | 5xxエラーが発生した適切な形式のリクエストのパーセンテージ(DataRobot予測サーバーの問題)。 これは、デプロイページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
コンシューマ数 | このデプロイに対して予測リクエストを行った個々のユーザー(APIキーによって識別)の数。 |
キャッシュヒットの割合 | キャッシュされたモデルを使用したリクエストのパーセンテージ(その他の予測で最近使用されたモデル)。 キャッシュされていない場合、モデルのルックアップが行われるので、遅延が発生することがあります。 デフォルトで予測サーバーのキャッシュには16のモデルが保持され、制限に達した場合は最も使用頻度が低いモデルが破棄されます。 |
サービスの正常性チャートの理解¶
メトリックス・タイルの下のチャートには。時間経過に伴う個々のメトリックスが表示されるので、サービスの品質のパターンを識別するために役立ちます。 メトリックス・タイルをクリックすると、その情報を表すチャートが更新されます。エクスポートすることもできます。 特定の期間に設定するには、データ範囲スライダーを調整します。
チャートによっては複数の指標が表示される場合があります。
MLOpsログを表示¶
On the MLOps Logs tab, you can view important deployment events. これらのイベントによって、デプロイの問題を診断したり、デプロイが現在の状態になるまでの操作の記録を提供したりすることができます。 各イベントには、タイプとステータスがあります。 イベントログは、イベントタイプ、イベントステータス、または発生時刻でフィルターできます。また、「イベントの詳細」パネルでイベントの詳細を確認できます。
-
On a deployment's Service Health page, scroll to the Recent Activity section at the bottom of the page.
-
In the Recent Activity section, click MLOps Logs.
-
Under MLOps Logs, configure any of the following filters:
要素 説明 Set the Categories filter to display log events by deployment feature: - Accuracy: events related to actuals processing.
- Challengers: events related to challengers functionality.
- Monitoring: events related to general deployment actions; for example, model replacements or clearing deployment stats.
- Predictions: events related to predictions processing.
- Retraining: events related to deployment retraining functionality.
Set the Status Type filter to display events by status: - Success
- Warning
- Failure
- Info
Set the Range (UTC) filter to display events logged within the specified range (UTC). The default filter displays the last seven days up to the current date and time. What errors are surfaced in the MLOps Logs?
- Actuals with missing values
- Actuals with duplicate association ID
- Actuals with invalid payload
- Challenger created
- Challenger deleted
- Challenger replay error
- Challenger model validation error
- Deployment historical stats reset
- Model replacement validation warning 予測処理速度の上限に達しました
- Predictions missing required association ID
- 再トレーニングポリシーが成功しました
- Retraining policy error
-
左側のパネルには、MLOpsログリストに、選択したフィルターが適用されたデプロイイベントが表示されます。 イベントごとに、イベント名とステータスアイコン、タイムスタンプ、およびイベントメッセージのプレビューを含むサマリーを確認できます。
-
Click the event you want to examine and review the Event Details panel on the right.
This panel includes the following details:
- タイトル
- Status Type (with a success, warning, failure, or info label)
- タイムスタンプ
- Message (with text describing the event)
You can also view the following details if applicable to the current event:
- モデルID
- Model Package ID (with a link to the package in the Model Registry if MLOps is enabled)
- Catalog ID (with a link to the dataset in the AI Catalog)
- チャレンジャーID
- Prediction Job ID (for the related batch prediction job)
- Affected Indexes (with a list of indexes related to the error event)
- Start/End Date (for events covering a specified period; for example, resetting deployment stats)
ヒント
For ID fields without a link, you can copy the ID by clicking the copy button
.