サービスの正常性タブ¶
サービスの正常性タブでは、予測リクエストに迅速かつ確実に応答するデプロイの能力に関する指標を追跡します。 これは、ボトルネックを特定し、適切なプロビジョニングに不可欠なキャパシティを評価するのに役立ちます。
たとえば、全般的にモデルのレスポンス時間が遅く感じられる場合、モデルのデプロイのサービスの正常性タブが役に立ちます。 このタブで予測リクエストの増加に応じてレイテンシーの中央値が上昇することが確認できる場合があります。 新しいモデルに切り替えたときレイテンシーが増える場合、パフォーマンスが優れている別のモデルで新しいモデルを置き換えることが可能かどうかを検討できます。
サービスの正常性にアクセスするには、デプロイインベントリぺージから1つのデプロイを選択して、次に表示される概要ページでサービス正常性タブを選択します。 このタブは、デプロイのアクティビティレベルと正常性を評価するために役立つ情報タイルおよびチャートを提供します。
予測の時間
予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。
-
[サービスの正常性]タブの「予測リクエストの日時」は、常に予測サーバーが予測リクエストを受信した日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。
-
データドリフトタブと精度タブについてデフォルトで、「予測リクエストの時間」は、予測リクエストを送信した時刻になります。これは、 予測履歴とサービスの正常性設定で、予測タイムスタンプでオーバーライドできます。
時間範囲および期間ドロップダウンの使用¶
コントロール(モデルバージョンおよびデータ時間範囲セレクター)は、データドリフトタブのコントロールと同様に機能します。 サービスの正常性タブもセグメント化された分析をサポートするので、サービスの正常性の統計を表示して個々のセグメント属性と値を確認できます。
指標タイルの理解¶
DataRobotには、モデルおよび時間枠の現在の設定に基づいて情報統計が表示されます。 したがって、タイル値は、スライダーで選択された単位に対応します。 スライダーの間隔値が週の場合、表示されるタイル指標は週に対応します。 指標タイルをクリックすると、下のチャートが更新されます。
サービスの正常性タブでは、ダッッシュボード上で以下の指標をレポートします。
外部モデルと監視ジョブのサービス正常性に関する情報
レイテンシー、スループット、エラー率などのサービス正常性情報は、エージェントによって監視される外部のデプロイでは入手できません。また、予測監視ジョブを介して予測がアップロードされる場合も入手できません。
統計 | 選択した時間枠のレポート... |
---|---|
予測の合計数 | デプロイで行われた予測の回数(予測ノードごと)。 |
リクエストの合計数 | デプロイが受信した予測リクエストの数(単一のリクエストに複数の予測リクエストが含まれる場合があります)。 |
次の時間以上のリクエスト | 指定されたミリ秒よりもレスポンス時間が長かったリクエストの数。 デフォルトは2000msです。ボックスをクリックして10~100,000msの時間を入力するか、コントロールを使用して値を調整します。 |
レスポンス時間 | DataRobotが予測リクエストの受信、リクエストの計算、およびユーザーへの応答に要した時間(ミリ秒)。 レポートにはネットワークレイテンシーの時間は含まれません。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 リクエストがなかったデプロイや外部デプロイの場合は、ダッシュ(-)が表示されます。 |
実行時間 | DataRobotが予測リクエストの計算に要した時間(ミリ秒)。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 |
負荷(コール数/分)の中央値 / 最高値 | 1分あたりの要求数の中央値と最大値。 |
データエラーの割合 | 4xxエラーが発生したリクエストの割合(予測リクエスト送信の問題)。 これは、デプロイページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
システムエラーの割合 | 5xxエラーが発生した適切な形式のリクエストのパーセンテージ(DataRobot予測サーバーの問題)。 これは、デプロイページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
コンシューマー数 | このデプロイに対して予測リクエストを行った個々のユーザー(APIキーによって識別)の数。 |
キャッシュヒット率 | キャッシュされたモデルを使用したリクエストのパーセンテージ(その他の予測で最近使用されたモデル)。 キャッシュされていない場合、モデルのルックアップが行われるので、遅延が発生することがあります。 デフォルトで予測サーバーのキャッシュには16のモデルが保持され、制限に達した場合は最も使用頻度が低いモデルが破棄されます。 |
サービスの正常性チャートの理解¶
タイル化された指標の下のチャートには、時間経過に伴う個々の指標が表示されるので、サービス品質のパターンを特定するのに役立ちます。 指標タイルをクリックすると、その情報を表すチャートが更新されます。エクスポートすることもできます。 特定の期間に設定するには、データ範囲スライダーを調整します。
チャートによっては複数の指標が表示される場合があります。
MLOpsログを表示¶
MLOpsログタブでは、重要なデプロイイベントを表示できます。 これらのイベントによって、デプロイの問題を診断したり、デプロイが現在の状態になるまでの操作の記録を提供したりすることができます。 各イベントには、タイプとステータスがあります。 イベントログは、イベントタイプ、イベントステータス、または発生時刻でフィルターできます。また、「イベントの詳細」パネルでイベントの詳細を確認できます。
-
デプロイのサービスの正常性ページで、ページ下部の最近のアクティビティセクションまでスクロールします。
-
最近のアクティビティセクションで、MLOpsログをクリックします。
-
MLOpsログで、次のいずれかのフィルターを設定します。
要素 説明 1 カテゴリーフィルターを設定して、デプロイ特徴量ごとにログイベントを表示します。 - 精度:実測値の処理に関連するイベント。
- チャレンジャー:チャレンジャーの機能性に関連するイベント。
- 監視:一般的なデプロイアクションに関連するイベント。たとえば、モデルの置換やデプロイ統計のクリアなど。
- 予測:予測処理に関連するイベント。
- 再トレーニング:デプロイの再トレーニング機能に関連するイベント。
2 ステータスタイプフィルターを設定すると、ステータスごとにイベントを表示します。 - 成功
- 注意
- 失敗
- 情報
3 範囲(UTC)フィルターを設定すると、指定範囲内(UTC)に記録されたイベントを表示します。 デフォルトのフィルターには、現在の日付と時刻までの過去7日間が表示されます。 MLOpsログではどんなエラーが表示されますか?
- 欠損値のある実測値
- 重複する関連付けIDを持つ実測値
- 無効なペイロードを含む実測値
- チャレンジャーが作成されました
- チャレンジャーが削除されました
- チャレンジャーの再実行エラー
- チャレンジャーモデルの検定エラー
- カスタムモデルのデプロイ作成が開始されました
- カスタムモデルのデプロイ作成が完了しました
- カスタムモデルのデプロイ作成に失敗しました
- デプロイ履歴統計のリセット
- トレーニングデータのベースラインを確立できませんでした
- モデル置換の検定警告
- 予測処理速度の上限に達しました
- 必要な関連付けIDが欠損している予測
- 理由コード(予測の説明)のプレビューに失敗しました
- 理由コード(予測の説明)のプレビューが開始されました
- 再トレーニングポリシーが成功しました
- 再トレーニングポリシーエラー
- トレーニングデータのベースライン計算が開始されました
-
左側のパネルには、MLOpsログリストに、選択したフィルターが適用されたデプロイイベントが表示されます。 イベントごとに、イベント名とステータスアイコン、タイムスタンプ、およびイベントメッセージのプレビューを含むサマリーを確認できます。
-
調べたいイベントをクリックし、右側のイベントの詳細パネルを確認します。
このパネルには、以下の詳細が含まれます。
- タイトル
- ステータスタイプ(成功、注意、失敗、または情報ラベル付き)
- タイムスタンプ
- メッセージ(イベントを説明するテキストを含む)
現在のイベントに適用される場合、以下の詳細を表示することもできます。
- モデルID
- モデルパッケージID/登録されているモデルバージョンID(MLOpsが有効な場合、モデル登録内のパッケージへのリンクを含む)
- カタログID(AIカタログ内のデータセットへのリンクを含む)
- チャレンジャーID
- 予測ジョブID(関連するバッチ予測ジョブ用)
- 影響を受けるインデックス(エラーイベントに関連するインデックスのリストを含む)
- 開始日/終了日(デプロイ統計のリセットなど、指定された期間をカバーするイベントの場合)
ヒント
リンクのないIDフィールドの場合、コピーボタンをクリックしてIDをコピーできます。