サービスの正常性¶
サービスの正常性タブでは、予測リクエストに迅速かつ確実に応答するデプロイの能力に関する指標を追跡します。 これは、ボトルネックを特定し、適切なプロビジョニングに不可欠なキャパシティを評価するのに役立ちます。 たとえば、全般的にモデルのレスポンス時間が遅く感じられる場合、モデルのデプロイのサービスの正常性タブが役に立ちます。 このタブで予測リクエストの増加に応じてレイテンシーの中央値が上昇することが確認できる場合があります。 新しいモデルに切り替えたときレイテンシーが増える場合、パフォーマンスが優れている別のモデルで新しいモデルを置き換えることが可能かどうかを検討できます。
サービスの正常性にアクセスするには、デプロイインベントリぺージから1つのデプロイを選択して、次に表示される概要ページでサービス正常性タブを選択します。 このタブは、デプロイのアクティビティレベルと正常性を評価するために役立つ情報 タイルおよびチャートを提供します。
予測の時間
予測の時間の値は、データドリフトタブと精度タブ、およびサービスの正常性タブで異なります。
-
[サービスの正常性]タブの「予測リクエストの日時」は、常に予測サーバーが予測リクエストを受信した日時です。 この予測リクエストの追跡方法は、診断目的で予測サービスの正常性を正確に示しています。
-
データドリフトタブと精度タブについてデフォルトで、「予測リクエストの時間」は、予測リクエストを送信した時刻になります。これは、 予測履歴とサービスの正常性設定で、予測タイムスタンプでオーバーライドできます。
指標タイルとチャートの理解¶
DataRobotには、モデルおよび時間枠の現在の設定に基づいて情報統計が表示されます。 したがって、タイル値は、スライダーで選択された単位に対応します。 スライダーの間隔値が週の場合、表示されるタイル指標は週に対応します。 指標タイルをクリックすると、下のチャートが更新されます。
サービスの正常性タブでは、ダッッシュボード上で以下の指標をレポートします。
外部モデルと監視ジョブのサービス正常性に関する情報
サービス正常性の情報は、エージェントによって監視される外部のデプロイでは入手できません。また、予測監視ジョブを介して予測がアップロードされるデプロイでも入手できません。
| 統計 | 選択した時間枠のレポート... |
|---|---|
| 予測の合計数 | デプロイで行われた予測の回数(予測ノードごと)。 |
| リクエストの合計数 | デプロイが受信した予測リクエストの数(単一のリクエストに複数の予測リクエストが含まれる場合があります)。 |
xミリ秒以上のリクエスト |
指定されたミリ秒よりもレスポンス時間が長かったリクエストの数。 デフォルトは2000msです。ボックスをクリックして10~100,000msの時間を入力するか、コントロールを使用して値を調整します。 |
| レスポンス時間 | DataRobotが予測リクエストの受信、リクエストの計算、およびユーザーへの応答に要した時間(ミリ秒)。 レポートにはネットワークレイテンシーの時間は含まれません。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 リクエストがなかったデプロイや外部デプロイの場合は、ダッシュ(-)が表示されます。 |
| 実行時間 | DataRobotが予測リクエストの計算に要した時間(ミリ秒)。 予測リクエスト時間の中央値、あるいは90番目、95番目、または99番目のパーセンタイルを選択します。 |
| 負荷(コール数/分)の中央値 / 最高値 | 1分あたりの要求数の中央値と最大値。 |
| データエラーの割合 | 4xxエラーが発生したリクエストの割合(予測リクエスト送信の問題)。 これは、デプロイダッシュボードページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
| システムエラーの割合 | 5xxエラーが発生した適切な形式のリクエストのパーセンテージ(DataRobot予測サーバーの問題)。 これは、デプロイダッシュボードページのトップバナーのサービスの正常性サマリーとしてレポートされる値の要素です。 |
| コンシューマー数 | このデプロイに対して予測リクエストを行った個々のユーザー(APIキーによって識別)の数。 |
| キャッシュヒット率 | キャッシュされたモデルを使用したリクエストのパーセンテージ(その他の予測で最近使用されたモデル)。 キャッシュされていない場合、モデルのルックアップが行われるので、遅延が発生することがあります。 デフォルトで予測サーバーのキャッシュには16のモデルが保持され、制限に達した場合は最も使用頻度が低いモデルが破棄されます。 |
ダッシュボードを設定して、特定のセグメントと時間枠に視覚化された統計をフォーカスできます。 次のコントロールを使用できます。
| コントロール | 説明 |
|---|---|
| モデル | ドロップダウンで選択したモデルを反映するようにダッシュボード表示を更新します。 |
| 範囲 (UTC) | デプロイ日付スライダーに表示する日付範囲を設定します。 日付スライダーをドラッグして範囲を設定することもできます。 範囲セレクターで選択できるのは、モデルのデプロイの現在のバージョンの開始日と現在の日付だけです。 |
| 単位 | デプロイ日付スライダーの時間のきめ細かさを設定します。 選択した範囲に基づいて、次の時間単位が使用可能です。
|
| セグメント属性 | ダッシュボードのフィルター条件となるセグメントを設定します。 |
| セグメント値 | ダッシュボードのフィルター条件となるセグメント内で特定の値を設定します。 |
| 表示を更新 | 新しいデータを使用してダッシュボードのオンデマンド更新を開始します。 このボタンを使用しなくても、ダッシュボードは15分ごとに自動更新されます。 |
| リセット | ダッシュボードコントロールをデフォルト設定に戻します。 |
指標タイルの下のチャートには、時間経過に伴う個々の指標が表示されるので、サービス品質のパターンを特定するのに役立ちます。 指標タイルをクリックすると、その情報を表すチャートが更新されます。データ範囲スライダーを調整すると、特定の期間に着目できます。
チャートのエクスポート
をクリックします 現在選択されているチャートの.csvまたは.pngファイル、あるいは両方(および.jsonファイル)の.zipアーカイブファイルをエクスポートしてダウンロードします。
| 中央値/ | ピーク負荷(コール/分)チャートには、時間とともにピーク負荷と中央値負荷の2つのラインが表示されます: |
サービス正常性のステータスインジケーター¶
サービスの正常性は、予測リクエストに対するデプロイのレスポンス速度と信頼性に関する指標を追跡します。 デプロイインベントリでサービス正常性のステータスを表示し、サービスの正常性タブでサービスの正常性を視覚化できます。 サービスの正常性の監視は、予測リクエストまたは予測サーバーで4XXエラーと5XXエラーが発生したことを表します。
- 4xxエラーは、予測リクエスト送信の問題を示します。
- 5xxエラーは、DataRobot予測サーバーの問題を示します。
| 色 | サービスの正常性 | アクション |
|---|---|---|
| 緑 / 合格 | 4xxおよび5xxエラーなし。 | 必要なアクションはありません。 |
| 黄色 / リスクあり | 少なくとも1つの4xxエラーがあります。5xxエラーはありません。 | 懸念点が見つかりましたが、早急なアクションは不要です。監視します。 |
| 赤 / 失敗 | 少なくとも1つの5xxエラーがあります。 | 早急なアクションが必要です。 |
| グレー / 無効 | 監視されていないデプロイ。 | 監視を有効にして、予測を行います。 |
| グレー / 開始されていない | サービス正常性に関するイベントは記録されていません。 | 予測の作成。 |
| グレー/不明 | 予測なし。 | 予測の作成。 |
デプロイデータトレースの探索¶
プレミアム機能
トレースはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
カスタムまたは外部モデルのデプロイのサービスの正常性タブでは、予測の合計数チャートの下にトレーステーブルを確認できます。 トレーステーブルを表示するには、予測の合計数チャートの右上隅で、トレースを表示をクリックします。
トレースは、モデルまたはエージェントのワークフローに対するリクエストがたどった経路を表します。 DataRobotでは、トレースにOpenTelemetryフレームワークを使用しています。 トレースは、起点から解決まで、リクエストのエンドツーエンドの経路全体を追跡します。 各トレースには、ルートスパンから始まる1つ以上のスパンが含まれます。 ルートスパンはリクエストの経路全体を表し、プロセスの各ステップの子スパンが含まれます。 ルート(または親)スパンと各子スパンは、同じトレースIDを共有します。
トレーステーブルでは、各トレースに関連する以下のフィールドを確認できます。
| 列 | 説明 |
|---|---|
| タイムスタンプ | YYYY-MM-DD HH:MM形式でのトレースの日時。 |
| ステータス | すべてのスパンを含むトレースの全体的なステータス。 依存タスクが失敗した場合、ステータスはエラーになります。 |
| トレースID | トレースの一意の識別子。 |
| 期間 | トレースの完了にかかった時間(ミリ秒単位)。 この値は、(四捨五入された)ルートスパンの期間と同じで、子スパンによって表されるすべてのアクションが含まれます。 |
| スパン数 | トレースに含まれる完了したスパン(アクション)の数。 |
| コスト | コストデータが指定されている場合は、トレースの総コスト。 |
| プロンプト | トレースに関連するユーザープロンプト。 |
| 補完 | トレースのプロンプトに関連付けられているエージェントまたはモデルの回答(補完)。 |
:material-filter: フィルターをクリックして、最小スパン期間、最大スパン期間、最小トレースコスト、最大トレースコストでフィルターします。 スパンフィルターの単位はナノ秒(ns)です。チャートにはスパンがミリ秒(ms)で表示されます。
フィルターのアクセシビリティ
スパンが詳細ビューに展開されると、:material-filter: フィルターボタンは非表示になります。 フィルターを適用したチャートビューに戻るには、:octicons-x-12: 詳細パネルを表示しないをクリックします。
トレースに含まれるスパンとトレースの詳細を確認するには、トレーステーブルのトレース行をクリックします。 スパンの色は、スパンサービス(通常はデプロイ)に対応します。 スパンに関連付けられたデプロイまたはサービスへのアクセス権がない場合、制限されたスパンが表示されます。 スパンはチャート形式またはリスト形式で表示できます。
スパンの詳細をコントロール
どちらのビューからでも、:material-table: テーブルを表示しないをクリックしてタイムスタンプテーブルを折りたたんだり、:octicons-x-12: 詳細パネルを表示しないをクリックして展開されたトレーステーブルビューに戻ったりすることができます。
どちらのビューでも、スパンサービス名をクリックして、デプロイまたはリソースにアクセスします(アクセス権がある場合)。 生成AIモデルまたはエージェントワークフローの設定に応じた追加情報を、情報、リソース、イベント、エラーの各タブで入手できます。 エラータブは、トレースでエラーが発生した場合にのみ表示されます。







