MLOps管理エージェント¶
本機能の提供について
MLOps管理エージェントはデフォルトでオフになっています。DataRobot MLOpでこの機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:Enable MLOps management agent
現在、パブリックプレビュー機能として利用可能な管理エージェントは、あらゆるタイプのインフラストラクチャへのモデルデプロイを自動化するための標準的なメカニズムを提供します。自動デプロイと自動モニタリングを組み合わせることで、特にチャレンジャーや再トレーニングなどの重要なMLOps機能で、本番環境のリモートモデルにかかる負担を軽減することができます。DataRobotアプリケーションからアクセスするエージェントには、カスタム構成をサポートする各種プラグインが含まれています。
管理エージェントの設定¶
管理エージェントを設定するには、以下に詳述する各種コンポーネントを準備する必要があります。
- 予測環境を登録
- エージェントtarballをダウンロード
- 環境プラグインを選択
- 管理エージェントを設定
- デプロイの作成
予測環境を登録¶
予測環境で管理エージェントを使用すると、予測環境を使用したモデルのデプロイ、置き換え、監視を自動化することができます。管理エージェント設定は、デプロイで使用する予測環境の設定から始めます。続行する前に、予測環境をDataRobotで登録します。
登録されたら、デプロイ > 予測環境に移動します。リストから使用する予測環境を選択し、管理エージェントを使用するトグルボタンをオンにします。
オンにしたら、管理エージェントサービスのアカウントホルダーの電子メールアドレスを指定する必要があります。DataRobotは、アカウントホルダーとして管理サービスアカウントを使用することをお勧めします(設定された予測環境を使用するデプロイに対するアクセス権を持つアカウント)。
エージェントをダウンロード¶
管理エージェントにアクセスするには、MLOpsエージェントtarballをダウンロードして、予測を行うモデルをホストしているリモート環境にインストールします。ユーザーアイコンをクリックし、開発者ツールに移動することで、DataRobotアプリケーションから直接ダウンロードすることができます。外部監視エージェントヘッダーの下で、ダウンロードアイコンをクリックします。完了すると、tarballがブラウザのダウンロードバーに表示されます。
環境プラグインを選択¶
tarballには、リモートモデルのサポートに使用されるさまざまな種類のインフラを提供する設定可能な環境プラグインが含まれています。管理エージェントはデプロイイベント(モデル交換、デプロイの起動など)を、そのイベントに対応して実行するプラグインのプロセスに変換します。インフラを最も適切にサポートするプラグインを選択し、設定します。上級ユーザーであれば、完全にカスタマイズしたプラグインを作成することも、提供されているプラグインを出発点としてプラグインを作成することもできます。
ヒント
tarballには、プラグインのインストールと設定に役立つREADMEファイルが含まれています。
Kubernetesプラグイン¶
Kubernetesユーザーのために、DataRobotは、コードを書くことなくクラスター内のモデルをデプロイして管理できるプラグインを提供しています。 設定情報については、tarballのtools/charts/datarobot-management-agent
フォルダー内のREADMEファイルを参照してください。
Dockerプラグイン¶
管理エージェントは、エージェントtarballに提供されたDockerプラグインを介してポータブル予測サーバーの使用をサポートしています。それにより、1つのDockerコンテナで複数のモデルを扱うことができます。また、このプラグインを使用すると、各デプロイのモデルの場所を示すようにPPSを設定したり、他のプラグインと同様にデプロイを開始、停止および管理したりすることもできます。
Dockerプラグインでは、次のことができます。
- デプロイ用のモデルパッケージをDataRobotから取得する。
- Dockerコンテナ内でDataRobotモデルを起動する。
- Dockerコンテナをシャットダウンし、クリーンアップする。
- イベントを介してステータスを報告する。
- MLOpsエージェントを使用して予測を監視する。
エージェントを設定¶
tarballをダウンロードしてエージェントプラグインを設定した後、エージェントの設定ファイルを編集します。
- DataRobotへのアクセスを提供します(APIキーとDataRobotユーザー名を提供します)。
- 管理エージェントが予測環境と関連するデプロイにアクセスできるように、予測環境名を示します。
- 使用する管理エージェントプラグインを示します。
デプロイの作成¶
予測環境と使用する管理エージェントを設定した後、エージェントが監視するイベントを持つ外部デプロイを作成することができます。エージェントの監視機能をサポートするためには、上記の手順で設定した予測環境をデプロイで使用する必要があります。そのためには、DataRobotは、外部モデルパッケージを登録し、モデルレジストリからデプロイすることを推奨します。
デプロイされると、管理エージェントでデプロイが完全に設定され、デプロイイベントを監視し、そのイベントに対応してアクションを自動化できます。
デプロイイベントの概要¶
管理エージェントは、APIを介してデプロイの正常性とステータスに関する定期的な更新を送信します。これらは、MLOpsイベントとして報告され、サービスの正常性ページに表示されます。
DataRobotでは、管理エージェントが設定されたら、外部デプロイのデプロイイベントを監視し、操作することができます。1つの場所から、以下の操作を実行できます。
アクション | ユースケースの例: |
---|---|
デプロイ関連のイベントを記録し、維持する | デプロイアクション、正常性の変更、状態の変更などを記録する |
すべての関連イベントを表示する | デプロイイベントの監査 |
イベントをフィルターして検索する | すべてのモデル変更を表示する |
データを抽出する | レポートとオフライン保存 |
特定のインシデントの通知を受け取る | 障害発生時にSlackのメッセージを受け取る |
リテンションポリシーを強制する | 90日間の保持が保証されるが、古いイベントは削除されることがある |
デプロイイベントの概要を表示するには、インベントリからデプロイを選択し、サービスの正常性タブに移動します。すべてのイベントは、最近の管理エージェントのアクティビティセクションで記録されます。
最新のイベントはリストの一番上に表示されます。各イベントには、発生した日時、説明、およびステータスを示すアイコンが表示されます。
アイコン | 説明 |
---|---|
![]() |
必要なアクションはありません。 |
![]() |
懸念がありますが、早急のアクションは必要ありません。監視を継続してください |
![]() |
早急なアクションが必要です。 |
![]() |
不明 |
![]() |
デプロイアクションの詳細を示します(デプロイが開始された、など) |
管理エージェントから最後に報告されたサービスの正常性ステータスが優先されることに注意してください。たとえば、データドリフトが緑でデプロイに成功したにもかかわらず、管理エージェントが不良ステータス (赤で失敗) を送信した場合は、その状態を反映するようにリストが更新されます。
イベント行を選択すると、右サイドパネルに詳細が表示されます。