エージェントのイベントログ¶
デプロイのサービス正常性タブの最近のアクティビティで、管理イベント(デプロイアクションなど)と監視イベント(スプーラーチャネルおよびレート制限イベントなど)を表示できるようになりました。
監視イベントは、MLOpsエージェントの問題を迅速に診断するのに役立ちます。 スプーラーチャネルのエラーイベントでは、 スプーラー設定の問題を診断および修正できます。 レート制限実施イベントでは、APIリクエストのレート制限を超えたために、サービス正常性の統計、データドリフト値、または精度値が更新されていないかどうかを確認できます。
エージェントのイベントログを有効にする¶
監視イベントを表示するには、エージェント設定ファイル(conf\mlops.agent.conf.yaml
)でpredictionEnvironmentID
を指定する必要があります。 MLOpsエージェントのインストールと設定がまだの場合は、インストールと設定のガイドを参照してください。
yaml linenums="1" hl_lines="23 24 25"
# This file contains configuration for the MLOps agent
# URL to the DataRobot MLOps service
mlopsUrl: "https://<MLOPS_HOST>"
# DataRobot API token
apiToken: "<MLOPS_API_TOKEN>"
# Execute the agent once, then exit
runOnce: false
# When dryrun mode is true, do not report the metrics to MLOps service
dryRun: false
# When verifySSL is true, SSL certification validation will be performed when
# connecting to MLOps DataRobot. When verifySSL is false, these checks are skipped.
# Note: It is highly recommended to keep this config variable as true.
verifySSL: true
# Path to write agent stats
statsPath: "/tmp/tracking-agent-stats.json"
# Prediction Environment served by this agent.
# Events and errors not specific to a single deployment are reported against this Prediction Environment.
predictionEnvironmentId: "<PE_ID_FROM_DATAROBOT_UI>"
# Number of times the agent will retry sending a request to the MLOps service on failure.
httpRetry: 3
# Http client timeout in milliseconds (30sec timeout)
httpTimeout: 30000
# Number of concurrent http request, default=1 -> synchronous mode; > 1 -> asynchronous
httpConcurrentRequest: 10
# Number of HTTP Connections to establish with the MLOps service, Default: 1
numMLOpsConnections: 1
# Comment out and configure the lines below for the spooler type(s) you are using.
# Note: the spooler configuration must match that used by the MLOps library.
# Note: Spoolers must be set up before using them.
# - For the filesystem spooler, create the directory that will be used.
# - For the SQS spooler, create the queue.
# - For the PubSub spooler, create the project and topic.
# - For the Kafka spooler, create the topic.
channelConfigs:
- type: "FS_SPOOL"
details: {name: "filesystem", directory: "/tmp/ta"}
# - type: "SQS_SPOOL"
# details: {name: "sqs", queueUrl: "your SQS queue URL", queueName: "<your AWS SQS queue name>"}
# - type: "RABBITMQ_SPOOL"
# details: {name: "rabbit", queueName: <your rabbitmq queue name>, queueUrl: "amqp://<ip address>",
# caCertificatePath: "<path_to_ca_certificate>",
# certificatePath: "<path_to_client_certificate>",
# keyfilePath: "<path_to_key_file>"}
# - type: "PUBSUB_SPOOL"
# details: {name: "pubsub", projectId: <your project ID>, topicName: <your topic name>, subscriptionName: <your sub name>}
# - type: "KAFKA_SPOOL"
# details: {name: "kafka", topicName: "<your topic name>", bootstrapServers: "<ip address 1>,<ip address 2>,…"}
# The number of threads that the agent will launch to process data records.
agentThreadPoolSize: 4
# The maximum number of records each thread will process per fetchNewDataFreq interval.
agentMaxRecordsTask: 100
# Maximum number of records to aggregate before sending to DataRobot MLOps
agentMaxAggregatedRecords: 500
# A timeout for pending records before aggregating and submitting
agentPendingRecordsTimeoutMs: 5000
エージェントのアクティビティを表示する¶
監視エージェントのイベントログを表示するには、サービスの正常性タブで、最近のアクティビティセクションに移動します。 最新のイベントはリストの一番上に表示されます。
イベント情報¶
各イベントには、発生した日時、説明、およびステータスを示すアイコンが表示されます。
ステータスアイコン | 説明 |
---|---|
![]() |
必要なアクションはありません。 |
![]() |
早急なアクションが必要です。 |
![]() |
デプロイアクションの詳細を示します(デプロイ起動が開始された、など)。 |
最近のアクティビティログ¶
最近のアクティビティログでは、アクティビティリストをフィルターして、追加情報にアクセスできます。
要素 | 説明 |
---|---|
![]() |
イベントタイプフィルターを設定して、リストを管理イベント(デプロイアクションなど)または監視イベント(スプーラーチャネルおよびレート制限イベントなど)に制限します。 |
![]() |
ログ内のイベントをクリックして、そのイベントの追加のイベントの詳細を表示します。 イベントの詳細には、イベント名、タイムスタンプ、チャネル名、イベントタイプ、関連する予測環境、およびイベントメッセージが含まれます。 |
![]() |
予測環境名をクリックして予測環境タブを開きます。このタブでは、予測環境の作成、管理、および共有が行えます。 |
イベントの監視¶
監視イベントは、MLOpsエージェントの問題を診断して、解決するのに役立ちます。 現在、次のイベントが最近のアクティビティログに表示される可能性があります。
イベント | 説明 |
---|---|
スプーラーチャネルの監視 | スプーラー設定の問題を特定して、それらを解決できるようにします。 |
レート制限が適用されました | 操作がAPIリクエストレート制限を超えた場合に特定し、サービス正常性の統計の更新、データドリフトの計算、または精度の計算を停止します。 このイベントは、影響を受ける操作が一時停止されている期間を報告します。 レート制限は、デプロイごと、操作ごとに適用されます。 |
デプロイAPIのレート制限は何ですか?
操作 | エンドポイント(POST) | 制限 |
---|---|---|
指標の送信(サービスの正常性) | api/v2/deployments/<id>/predictionRequests/fromJSON/ |
100万個のリクエスト/時間 |
予測結果の送信(データドリフト) | api/v2/deployments/<id>/predictionInputs/fromJSON/ |
100万個のリクエスト/時間 |
実測値の送信(精度) | api/v2/deployments/<id>/actuals/fromJSON/ |
40個のリクエスト/秒 |