MLOps(V9.0)¶
次の表は、新機能の一覧です。
一般提供¶
カスタム指標の作成¶
一般提供機能になりました。デプロイのカスタム指標タブでは、データのエクスポートタブから収集したデータ(または他のカスタム指標で計算したデータ)を使用して、最大25個のカスタムビジネスまたはパフォーマンス指標を計算および監視することができます。 指標を追加してデータをアップロードすると、設定可能なダッシュボードによって指標の経時変化が可視化され、その情報を監視およびエクスポートできるようになります。 この機能により、組織固有の指標を実装して、DataRobotに組み込まれている[サービスの正常性] (service-health)、データドリフト、精度の各指標によって提供されるインサイトを拡張できます。
備考
カスタム指標機能の最初のリリースでは、行数とファイルサイズに制限が適用されています。 詳細については、機能説明のアップロード方法に関する注意事項を参照してください。
詳しくはカスタム指標タブのドキュメントをご覧ください。
デプロイデータのエクスポート¶
一般提供機能になりました。デプロイの[データエクスポート]タブでは、保存済みのトレーニングデータ、予測データ、実測値データをエクスポートして、カスタム指標タブまたはDataRobot外部でカスタムビジネスまたはパフォーマンス指標を計算および監視することができます。 指定したモデルと時間範囲について、利用可能なデプロイデータをエクスポートできます。 デプロイデータをエクスポートするには、デプロイが予測データを保存していることを確認して、必要な時間範囲のデータを生成し、そのデータを表示またはダウンロードします。
備考
デプロイデータのエクスポート機能の最初のリリースでは、行数制限があります。 詳細については、機能説明のデータに関する注意事項を参照してください。
詳しくはデータエクスポートタブのドキュメントをご覧ください。
管理エージェント¶
一般提供機能になりました。MLOps管理エージェントは、あらゆるタイプの環境やインフラストラクチャにおいてモデルデプロイを自動化するための標準的なメカニズムを提供します。 管理エージェントは、DataRobotでトレーニングされたモデルや、外部インフラストラクチャでオープンソースツールを使ってトレーニングされたモデルをサポートします。 DataRobotアプリケーションからアクセスされるエージェントには、カスタム設定をサポートするサンプルプラグインが付属しています。 管理エージェントを使用してモデルのデプロイと監視を自動化し、機械学習パイプラインの正常性と信頼性を確保します。 このリリースでは、デプロイステータスのレポート、デプロイの再起動、管理エージェントのデプロイを強制的に削除するオプションなど、管理エージェントの操作性が向上しています。
エージェントのインストール、設定、および操作の詳細については、MLOps管理エージェントのドキュメントを参照してください。
デプロイデータ処理の監視¶
一般提供機能になりました。使用状況タブでは、データドリフトタブと精度タブの予測データ処理についてレポートします。 デプロイされたモデルのデータドリフトと精度を監視することは、そのモデルが有効であり続けるために重要なタスクです。しかし、大量の予測データを処理する必要があり、遅延や速度制限の影響を受けることがあります。 使用状況タブの情報は、組織がこれらのデータ処理の問題を特定するのに役立ちます。 予測追跡チャートは、過去24時間または7日間の予測処理状況を示す棒グラフであり、処理済みの予測行、レート制限された予測行、および関連付けIDがない予測行の数を追跡します。
ページの右側には、予測値の処理(チャンピオン)と実測値の処理(実測値処理の遅延は、デプロイ内の全モデルが対象)の処理遅延が表示されます。
詳しくは使用状況タブのドキュメントをご覧ください。
デプロイログの表示¶
新しいMLOpsログタブでは、重要なデプロイイベントを確認できます。 これらのイベントによって、デプロイの問題を診断したり、デプロイが現在の状態になるまでの操作の記録を提供したりすることができます。 各イベントには、タイプとステータスがあります。 イベントログは、イベントタイプ、イベントステータス、または発生時刻でフィルターできます。また、「イベントの詳細」パネルでイベントの詳細を確認できます。
MLOpsログにアクセスするには:
-
デプロイのサービスの正常性ページで、ページ下部の最近のアクティビティセクションまでスクロールします。
-
最近のアクティビティセクションで、MLOpsログをクリックします。
-
MLOpsログで、ログフィルターを設定します。
-
左側のパネルには、MLOpsログリストに、選択したフィルターが適用されたデプロイイベントが表示されます。 イベントごとに、イベント名とステータスアイコン、タイムスタンプ、およびイベントメッセージのプレビューを含むサマリーを確認できます。
-
調べたいイベントをクリックし、右側のイベントの詳細パネルを確認します。
詳細については、サービスの正常性タブのMLOpsログを表示のドキュメントを参照してください。
デプロイ統計のクリア¶
一般提供機能になりました。モデルバージョンや日付範囲ごとに監視データをクリアすることができます。 組織内でデプロイ承認ワークフローを有効にしている場合、デプロイから監視データを消去するには、事前に承認が必要です。 この機能により、誤って送信された監視データや、モデルをデプロイする際の結合テストの段階で送信された監視データをデプロイから削除することができます。
インベントリから、統計情報をリセットするデプロイを選択します。 アクションメニューをクリックし、統計をクリアを選択します。
リセットの条件を設定して、デプロイ統計をクリアウィンドウでの設定を完了します。
設定が完了したら、統計をクリアをクリックします。 DataRobotは、指定された日付範囲の監視データをデプロイからクリアします。
詳細については、デプロイ統計のクリアに関するドキュメントを参照してください。
データドリフトタブでのドリルダウン¶
現在、データドリフトタブで一般提供されている新しいドリルダウン可視化機能では、デプロイされたモデルのトレーニングデータセットと、本番環境での予測生成に使用されるデータセットの間の、時間経過に伴う分布の差異が追跡されます。 トレーニングデータセットで確立されたベースラインからのドリフトは、PSI(Population Stability Index)を用いて測定されます。 モデルが新しいデータで予測を続けると、追跡対象の特徴量ごとにドリフト状況の経時変化がヒートマップとして視覚化されます。 このヒートマップは、データドリフトを特定し、デプロイ内の特徴量間でドリフトを比較して、相関性のあるドリフトの傾向を確認するのに役立ちます。
さらに、ヒートマップから1つ以上の特徴量を選択して、特徴量ドリフトの比較チャートを表示できます。このチャートでは、基準期間と比較期間の間で特徴量のデータ分布の変化を比較して、ドリフトを視覚化できます。 この情報は、データ品質の問題、特徴量構成の変化、ターゲット特徴量のコンテキストの変化など、デプロイされたモデルでのデータドリフトの原因を特定するのに役立ちます。
詳細については、データドリフトタブでのドリルダウンのドキュメントを参照してください。
時間経過に伴うドリフトの可視化¶
デプロイのデータドリフトダッシュボードでは、時間経過に伴うドリフトチャートにより、デプロイされたモデルのトレーニングデータセットと、本番環境での予測生成に使用されるデータセットの間の、時間経過に伴う分布の差異が視覚化されます。 トレーニングデータセットで確立されたベースラインからのドリフトは、PSI(Population Stability Index)を用いて測定されます。 モデルが新しいデータで予測を続けると、追跡対象の特徴量ごとにPSIの経時変化が視覚化されるので、データドリフトの傾向を把握することができます。
データドリフトはモデルの予測能力を低下させる可能性があるため、ある特徴量がいつドリフトし始めたかを見極め、(モデルが新しいデータで予測を続ける中で)そのドリフトがどのように変化するかを監視することは、問題の深刻度を推測するのに役立ちます。 これにより、デプロイ内の特徴量間でデータドリフトの傾向を比較し、特定の特徴量間で相関するドリフト傾向を特定することができます。 さらに、このチャートによって季節的な影響(時間認識モデルでは重要)を特定することができます。 この情報は、データ品質の問題、特徴量構成の変化、ターゲット特徴量のコンテキストの変化など、デプロイされたモデルでのデータドリフトの原因を特定するのに役立ちます。 以下の例では、PSIが時間の経過とともに一貫して増加しており、選択した特徴量のデータドリフトが悪化していることを示しています。
詳細については、時間経過に伴うドリフトチャートのドキュメントを参照してください。
ワードクラウドとしてのテキスト特徴量のドリフトを可視化¶
特徴量の詳細チャートは、トレーニング期間とスコアリング期間での特徴量のデータ分布の違いをプロットしたもので、トレーニングデータで特徴量値が示すレコードの割合とスコアリングデータでのレコードの割合を棒グラフで比較できます。 テキスト特徴量については、特徴量ドリフトの棒グラフがワードクラウドに置き換わりました。これにより、データ分布がトークンごとに可視化され、個々のトークンが特徴量のデータドリフトにどれだけ関与しているかが明らかになります。
テキスト特徴量の特徴量ドリフトワードクラウドにアクセスするには、ドリフト対応デプロイのデータドリフトタブを開いてください。 サマリータブの特徴量の詳細チャートで、ドロップダウンリストからテキスト特徴量を選択します。
備考
エクスポートボタンの横にある設定アイコン()をクリックして、テキスト特徴量をワードクラウドとして表示チェックボックスをオフにすると、特徴量ドリフトのワードクラウドを無効にして標準チャートを表示できます。
詳細については、特徴量の詳細チャートのテキスト特徴量のドキュメントを参照してください。
デプロイ作成ワークフローの再設計¶
一般提供機能になりました。デプロイ作成ワークフローが刷新され、より整理された直感的なインターフェイスを提供します。 新しいデプロイを作成する場所(リーダーボード、モデルレジストリ、デプロイインベントリ)やアーティファクトのタイプ(DataRobotモデル、カスタム推論モデル、リモートモード)に関係なく、この新しいワークフローに移動します。 新たな設計では、提供したデータに基づいて、現在のデプロイの機能がわかりやすくまとめられています。設定と機能を論理的にグループ化して、ユーザーが機能を有効にしたときにすぐに確認したり、必須フィールドへの入力や必要な設定が行われていない場合にガイダンスを提供したりします。 新しいサイドバーには、デプロイレビューポリシーについての情報、デプロイへの課金の詳細(組織の設定による)、デプロイ情報ドキュメントへのリンクに加えて、デプロイでの予測に使用されているモデルに関する詳細が表示されます。
詳しくはデプロイの設定のドキュメントをご覧ください。
デプロイインベントリでの作成日による並べ替え¶
デプロイページのデプロイインベントリは、作成日順(新しい作成日列に従って、日付が新しい順)に並べ替えられるようになりました。 別の列のタイトルをクリックすると、代わりにその指標で並べ替えることができます。 ソート列のヘッダーの横に青い矢印が表示され、昇順か降順かが示されます。
備考
デプロイインベントリを並べ替えると、ブラウザーのローカルストレージデータをクリアするまで、最後に選択した並べ替えがローカル設定に保持されます。 そのため、通常、デプロイインベントリは最後に選択した列で並べ替えられます。
詳しくはデプロイインベントリのドキュメントをご覧ください。
「概要」タブにモデルIDとデプロイIDを追加¶
概要タブのコンテンツセクションには、デプロイのモデルおよび環境固有の情報が一覧表示され、次のIDが含まれるようになりました。
- モデルID:デプロイの現行モデルのID番号をコピーします。
- デプロイID:現在のデプロイのID番号をコピーします。
さらに、作成日とデプロイ日、モデル置換イベントなど、デプロイのモデル関連イベントを履歴 > ログで確認できます。 このログから、以前にデプロイされたモデルのモデルIDをコピーすることができます。
詳しくは「概要」タブのドキュメントをご覧ください。
多クラスモデルや外部モデルに対するチャレンジャーモデルのインサイト¶
一般提供機能になりました。多クラスモデルと外部モデルで、チャレンジャーモデルのインサイトを計算することができます。
-
多クラス分類プロジェクトは、精度比較のみをサポートします。
-
外部モデル(プロジェクトの種類を問わず)には、チャレンジャーモデルとの比較にデータセットが必要です。
外部モデルとチャレンジャーを比較するには、実測値と予測結果の両方を含むデータセットを提供する必要があります。 比較用のデータセットをアップロードする際に、予測結果を含む列を指定することができます。
外部モデルチャレンジャー用に比較データセットを追加するには、モデル比較の生成プロセスに従い、モデル比較タブで、予測列識別子を持つ比較データセットをアップロードします。 指定する予測データセットに、予測列で識別された場所にある外部モデルによって生成された予測結果が含まれていることを確認します。
詳細については、モデル比較の表示に関するドキュメントを参照してください。
チャレンジャーモデルのバッチ予測ジョブ履歴の表示¶
チャレンジャーモデルのエラー表示と操作性を向上させるため、デプロイ > チャレンジャータブからチャレンジャーの予測ジョブ履歴にアクセスできるようになりました。 1つまたは複数のチャレンジャーモデルを追加し、予測を再実行したら、ジョブ履歴をクリックします。
デプロイ > 予測ジョブページが開き、ジョブ履歴にアクセスしたデプロイのチャレンジャージョブが表示されるようにフィルターされます。 このフィルターは、予測ジョブページから直接適用することもできます。
詳細については、チャレンジャージョブの履歴表示に関するドキュメントを参照してください。
Null補完に対応していないモデルでコンプライアンスドキュメントの生成を有効にする¶
デフォルトのコンプライアンスドキュメントの自動生成テンプレートで感度分析セクションを生成するには、カスタムモデルがNull値補完(NaN値の補完)をサポートしている必要があります。サポートしていない場合、コンプライアンスドキュメントの生成は失敗します。 カスタムモデルがNull補完に対応していない場合、専用のテンプレートを使用してコンプライアンスドキュメントを生成できます。 レポートテンプレートドロップダウンリストで、コンプライアンスドキュメントの自動生成(Null値を補完しないモデルが対象)を選択します。 このテンプレートは、感度分析レポートを含まず、カスタムモデルでのみ利用可能です。 詳細については、コンプライアンスドキュメントの生成に関する情報を参照してください。
備考
このテンプレートオプションがお使いのDataRobotのバージョンでは使用できない場合、連続値モデルのカスタムテンプレート、または二値分類モデルのカスタムテンプレートをダウンロードできます。
カスタムモデル環境数の上限管理¶
実行環境数に上限を設定することで、管理者は、ユーザーがカスタムモデルワークショップに追加できるカスタムモデル環境の数を制御できます。 また、実行環境のバージョン数に上限を設定することで、管理者は、ユーザーが実行環境のそれぞれに追加できるバージョンの数を制御できます。 次のように制限します。
-
ユーザーに直接適用:ユーザーの権限で設定します。 グループおよび組織の権限で設定された上限値よりも優先されます(ユーザーに対する上限値の方が低い場合)。
-
ユーザーグループから継承:ユーザーが所属するグループの権限で設定します。 組織の権限で設定された上限値よりも優先されます(ユーザーグループに対する上限値の方が低い場合)。
-
組織から継承:ユーザーが所属する組織の権限で設定します。
環境数または環境バージョン数の上限が組織またはグループに対して定義されている場合、その組織またはグループ内のユーザーは定義されている上限を継承します。 ただし、下位レベルでこれらの上限をより具体的に定義している場合は、そちらが優先されます。 たとえば、環境数の上限を組織で5、グループで4、ユーザーで3に設定した場合、個々のユーザーに対する最終的な上限は3です。カスタムモデル実行環境の追加について詳しくは、カスタムモデル環境のドキュメントを参照してください。
どのユーザーも、環境数と環境バージョン数の上限設定を確認できます。 カスタムモデル > 環境タブの新しい環境を追加ボタンと新しいバージョンボタンの横に、追加した環境(または環境バージョン)の数と、上限設定に基づき追加できる環境(または環境バージョン)の数を示すバッジが表示されます。
このバッジには、以下のステータスカテゴリーがあります。
バッジ | 説明 |
---|---|
環境数(またはバージョン数)は上限の75%未満です。 | |
環境数(またはバージョン数)は上限の75%以上です。 | |
環境数(またはバージョン数)は上限に達しています。 |
詳細については、ユーザーの実行環境数の上限管理のドキュメント(またはグループの実行環境数の上限管理のドキュメント)を参照してください。 セルフマネージドAIプラットフォームをお使いの場合は、組織での実行環境数の上限管理もご覧ください。
予測APIのcURLスクリプトコード¶
デプロイの予測 > 予測APIタブにある[予測APIスクリプトコード]セクションに、リアルタイム予測用のcURLスクリプトコードスニペットが追加されました。 cURLは、さまざまなネットワークプロトコルを使用してデータを転送するコマンドラインツールであり、ほとんどのLinuxディストリビューションとmacOSにおいてデフォルトで使用可能です。
予測APIのcURLスクリプトコードの詳細については、リアルタイム予測スニペットのドキュメントを参照してください。
PythonとJavaのスコアリングコードスニペット¶
一般提供機能になりました。DataRobotでは、PythonとJavaによるスコアリングコードの使用が可能です。 基になるスコアリングコードはJavaをベースとしていますが、DataRobotがサポートするさまざまな予測手法を用いた予測をPython APIで行うためのDataRobot Prediction Libraryを提供することになりました。 ライブラリは予測を行うための共通のインターフェイスを提供するので、ベースとなる実装を簡単に交換できます。 リーダーボードのモデル、またはスコアリングコードに対応するデプロイモデルから、PythonおよびJavaのスコアリングコードにアクセスします。
時系列プロジェクトのスコアリングコード¶
一般提供機能になりました。Javaベースのスコアリングコードパッケージで時系列モデルをエクスポートすることができます。 スコアリングコードは、DataRobotアプリケーションの外でDataRobotモデルを利用するための、ポータブルかつ低レイテンシーな手法です。
モデルの時系列スコアリングコードは、以下の場所からダウンロードすることができます。
-
リーダーボードからダウンロード(リーダーボード > 予測 > ポータブル予測)
-
デプロイからダウンロード(デプロイ > 予測 > ポータブル予測)
セグメントモデリングでは、複数系列プロジェクトのセグメントに対して個別のモデルを構築することができます。 そして、DataRobotはこれらのモデルを統合し、統合モデルを作成します。 完成した統合モデルのスコアリングコードを生成することができます。
スコアリングコードを生成してダウンロードするには、統合モデルの各セグメントチャンピオンにスコアリングコードが必要です。
統合されたモデルの各セグメントチャンピオンにスコアリングコードがあることを確認したら、リーダーボードからスコアリングコードをダウンロードできますが、統合モデルをデプロイしてデプロイからスコアリングコードをダウンロードすることも可能です。
時系列モデルでは、ダウンロードするスコアリングコードJARに予測間隔を含めることができるようになりました。 予測間隔を含むスコアリングコードは、リーダーボードからまたはデプロイからダウンロードできます。
ダウンロードした時系列スコアリングコードを用いて、コマンドラインからデータのスコアリングを行うことができます。 このリリースから、時系列のスコアリングコードに効率的なバッチ処理が導入され、より大規模なデータセットのスコアリングが可能になりました。 詳細については、CLIでのスコアリングのための時系列パラメーターのドキュメントを参照してください。
時系列のスコアリングコードの詳細については、時系列プロジェクトのスコアリングコードを参照してください。
時系列セグメントモデリングのデプロイ¶
セグメントモデリングの価値を最大限に活用するために、他の時系列モデルをデプロイする場合と同様に、統合されたモデルをデプロイできます。 含まれているプロジェクトごとにチャンピオンモデルを選択した後、統合モデルをデプロイし、複数のセグメントに対して「1つのモデル」デプロイを作成できます。ただし、デプロイされた統合モデル内の各セグメントでは、引き続きセグメントチャンピオンモデルがデプロイで(バックグラウンドで)実行されています。 デプロイを作成すると、精度監視、予測間隔、チャレンジャーモデル、および再トレーニングにDataRobot MLOpsを使用できます。
備考
時系列セグメントモデリングのデプロイでは、データドリフトの監視には対応していません。 詳細については、機能に関する注意事項を参照してください。
セグメントモデリングのワークフローを完了し、オートパイロットが終了すると、モデルタブに1つのモデルが表示されます。 このモデルが完成した統合モデルです。 デプロイするには、統合されたモデル、予測 > デプロイ、モデルをデプロイの順にクリックします。
統合モデルをデプロイした後、デプロイされた統合モデルのクローンを作成し、クローンが作成されたモデルを修正することで、セグメントのチャンピオンを変更できます。 この処理は自動的に行われ、デプロイされた統合モデル内でセグメントのチャンピオンを変更しようとすると発生します。 クローンが作成され、修正可能なモデルが、アクティブな統合モデルになります。 このプロセスにより、デプロイされたモデルの安定性を確保しながら、同じセグメントプロジェクト内で変更をテストすることが可能になります。
備考
プロジェクトのリーダーボードでアクティブな統合モデル(バッジ付き)になれる統合モデルは1つだけです。
統合されたモデルがデプロイされると、予測APIは有効というラベルが設定されます。 このモデルを修正するには、アクティブでデプロイ済みの統合モデルをクリックし、セグメントタブで修正したいセグメントをクリックします。
次に、セグメントチャンピオンを再割り当てし、表示されるダイアログボックスではい、新しい統合モデルを作成しますをクリックします。
セグメントのリーダーボードで、アクティブな統合モデルにアクセスして修正できるようになりました。
詳細については、統合されたモデルのデプロイのドキュメントを参照してください。
エージェントのイベントログ¶
一般提供機能になりました。デプロイのサービスの正常性タブの最近のアクティビティで、管理イベント(デプロイアクションなど)と監視イベント(スプーラーチャネルおよびレート制限イベントなど)を表示できます。 監視イベントは、MLOpsエージェントの問題を迅速に診断するのに役立ちます。 たとえば、スプーラーチャネルのエラーイベントは、スプーラー設定の問題を診断し修正するのに役立ちます。 レート制限実施イベントでは、APIリクエストのレート制限を超えたために、サービス正常性の統計、データドリフト値、または精度値が更新されていないかどうかを確認できます。
監視イベントを表示するには、エージェント設定ファイル(conf\mlops.agent.conf.yaml
)でpredictionEnvironmentID
を指定する必要があります。 MLOpsエージェントのインストールと設定がまだの場合は、インストールと設定のガイドを参照してください。
監視エージェントのイベントログの有効化と読み出しについて詳しくは、エージェントのイベントログのドキュメントを参照してください。
MLOpsライブラリによる大規模監視¶
大規模な監視をサポートするために、MLOpsライブラリは、クライアント側で元のデータから統計情報を計算する方法を提供します。 そして、DataRobot MLOpsサービスに元の特徴量と予測値を報告する代わりに、クライアントは特徴量と予測データを含まない匿名化された統計情報を報告することができます。 クライアント側で計算された予測データの統計情報を報告することは、元データの報告と比較して、特に大規模な場合(数十億行の特徴量と予測値)に最適な方法です。 また、クライアント側の集計では、特徴量値の集計を送信するだけなので、実際の特徴量値を公開したくない環境に適しています。 大規模監視機能は、Java Software Development Kit(SDK)、MLOps Spark Utils Library、およびPythonで利用可能です。
備考
チャレンジャーモデルの使用をサポートするには、元の特徴量を送信する必要があります。 大規模なデータセットの場合、元の特徴量と予測データの少量のサンプルをレポートすることで、チャレンジャーやレポートに対応できます。その後、残りのデータを集約形式で送信することが可能です。
詳細については、大規模監視の有効化のユースケースを参照してください。
Javaアプリケーションで必要なエージェントスプーラーを動的にロード¶
サードパーティーの監視エージェントスプーラーをJavaアプリケーションに動的にロードすることで、未使用のコードを削除し、セキュリティを向上できます。 この機能は、必要に応じて、Amazon SQS、RabbitMQ、Google Cloud Pub/Sub、およびApache Kafkaスプーラー用に別々のJARファイルをロードすることで使用できます。 ネイティブにサポートされているファイルシステムスプーラーは、引き続きJARファイルをロードせずに設定できます。 以前は、datarobot-mlops
とmlops-agent
のパッケージに、すべてのスプーラータイプがデフォルトで含まれていました。
MLOps Javaアプリケーションでサードパーティのスプーラーを使用するには、datarobot-mlops
と一緒に、必要なスプーラーをPOM(Project Object Model)ファイルに依存関係として含める必要があります。
<properties>
<mlops.version>8.3.0</mlops.version>
</properties>
<dependency>
<groupId>com.datarobot</groupId>
<artifactId>datarobot-mlops</artifactId>
<version>${mlops.version}</version>
</dependency>
<dependency>
<groupId>com.datarobot</groupId>
<artifactId>spooler-sqs</artifactId>
<version>${mlops.version}</version>
</dependency>
スプーラーJARファイルは、 MLOpsエージェントのtarballに含まれています。 これらは DataRobot MLOpsエージェントのMaven公開リポジトリで、ダウンロード可能なJARファイルとして個別に入手することもできます。
実行可能なエージェントJARファイルでサードパーティのスプーラーを使用するには、スプーラーへのパスをクラスパスに追加します。
java ... -cp path/to/mlops-agent-8.3.0.jar:path/to/spooler-kafka-8.3.0.jar com.datarobot.mlops.agent.Agent
例として提供されているstart-agent.sh
スクリプトは、このタスクを自動実行し、lib
ディレクトリにあるスプーラーJARファイルをクラスパスに追加します。 スプーラーJARファイルが別のディレクトリにある場合は、MLOPS_SPOOLER_JAR_PATH
環境変数を設定してください。
詳細については、Javaアプリケーションで必要なスプーラーを動的にロードのドキュメントを参照してください。
Azure Event Hubsのスプーラー用のApache Kafka環境変数¶
MLOPS_KAFKA_CONFIG_LOCATION
環境変数が削除され、Apache Kafkaスプーラー設定用の新しい環境変数に置き換えられました。 これらの新しい環境変数により、個別の設定ファイルが不要になり、スプーラータイプとしてのAzure Event Hubsのサポートが簡素化されます。
Apache Kafkaスプーラーの設定の詳細については、Apache Kafka環境変数のリファレンスを参照してください。
Apache Kafkaスプーラータイプを活用してMicrosoft Azure Event Hubsスプーラーを使用する方法については、Azure Event Hubsスプーラー設定リファレンスを参照してください。
MLOpsのJavaライブラリとエージェントを一般公開¶
MLOpsのJavaライブラリとエージェントを、公開されているMavenリポジトリから、groupId
にcom.datarobot
、artifactId
にdatarobot-mlops
(ライブラリ)およびmlops-agent
(エージェント)を指定してダウンロードできるようになりました。 また、MavenリポジトリでDataRobot MLOps LibraryとDataRobot MLOps Agentのアーティファクトにアクセスすると、すべてのバージョンを確認でき、JARファイルをダウンロードしてインストールすることが可能です。
プレビュー¶
監視ジョブ定義の作成¶
プレビュー版の機能です。監視ジョブの定義により、DataRobotの外部で特徴量データと予測を実行・保存しているデプロイを監視し、デプロイと外部データソースをより密接に連携させることができます。 たとえば、Snowflakeに接続して、関連するSnowflakeテーブルから元データを取得し、監視目的でDataRobotにデータを送信する監視ジョブを作成することができます。
この連携により、batchPredictionJobDefinitions
とbatchPredictions
の既存の予測APIルートの機能が拡張され、batch_job_type:monitoring
プロパティが追加されました。 この新しいプロパティによって、監視ジョブを作成できます。 予測APIに加え、DataRobot UIを通じて、監視ジョブの定義を作成することができます。 その後、他のジョブ定義と同様に、監視ジョブの定義を確認および管理できます。
必要な機能フラグ:監視ジョブの定義
詳細については、予測監視ジョブのドキュメントを参照してください。
Snowflakeでスコアリングコードのデプロイと置換を自動化¶
現在、プレビュー機能として提供されており、DataRobotが管理するSnowflakeの予測環境を作成し、SnowflakeにDataRobotのスコアリングコードをデプロイすることができます。 DataRobotによる管理オプションを有効にすると、Snowflakeに外部デプロイされたモデルは、スコアリングコードの自動置換を含むMLOps管理機能を利用できます。
Snowflakeの予測環境を作成したら、モデルレジストリからその環境にスコアリングコード対応モデルをデプロイできます。
必要な機能フラグ:Snowflakeでのスコアリングコードの自動デプロイと置換を有効にする
プレビュー機能のドキュメントをご覧ください。
カスタムモデルのランタイムパラメーターを定義¶
プレビュー版の機能です。モデルのメタデータを通じてカスタムモデルにランタイムパラメーターを追加でき、カスタムモデルのコードが再利用しやすくなりました ランタイムパラメーターを定義するには、model-metadata.yaml
に以下の runtimeParameterDefinitions
を追加します。
キー | 値 |
---|---|
fieldName |
ランタイムパラメーターの名前 |
type |
ランタイムパラメーターに含まれるデータタイプ:string またはcredential |
defaultValue |
(オプション)ランタイムパラメーターのデフォルト文字列値(credentialタイプはデフォルト値をサポートしません) |
description |
(オプション)ランタイムパラメーターの目的または内容の説明 |
カスタムモデルの作成時に、runtimeParameterDefinitions
を含むmodel-metadata.yaml
ファイルをDataRobotに追加すると、そのカスタムモデルのアセンブルタブにランタイムパラメーターセクションが表示されます。
詳しくはドキュメントをご覧ください。
外部モデルのカスタムモデルプロキシを作成¶
プレビュー版の機能です。外部でホストされているモデルのプロキシとして、カスタムモデルを作成できます。 外部モデルのプロキシとしてカスタムモデルを作成するには、新しいプロキシモデルをカスタムモデルワークショップに追加します。 プロキシモデルには、外部モデルと接続するために(custom.py
で)作成したプロキシコードが含まれており、DataRobotの外部のインフラストラクチャで動作するモデルでコンプライアンスドキュメント、チャレンジャー分析、[カスタムモデルテスト] (custom-model-test)などの機能を利用できます。 プロキシモデルでは、カスタムモデルのランタイムパラメーターを使用することもできます。
必要な機能フラグ: プロキシモデルを有効にする
プレビュー機能のドキュメントをご覧ください。
カスタムモデルのためのGitHub Actions¶
カスタムモデルのアクションは、GitHub CI/CDのワークフローを通じて、DataRobotでカスタム推論モデルとその関連デプロイを管理します。 これらのワークフローでは、モデルやデプロイを作成または削除したり、設定を変更したりできます。 YAMLファイルで定義されたメタデータにより、カスタムモデルのアクションによるモデルとデプロイの制御が可能になります。 このアクションのほとんどのYAMLファイルは、カスタムモデルのリポジトリ内の任意のフォルダーに配置できます。 YAMLは、これらのワークフローで使用されるエンティティが含まれているかどうかを判断するために、検索、収集、スキーマに対するテストが行われます。 詳細については、custom-models-actionリポジトリを参照してください ドキュメントで提供されている クイックスタートの例では、 datarobot-user-modelリポジトリの Python Scikit-Learnモデルテンプレートを使用します。
詳細については、Custom Models Actionを参照してください。
ワークフローを設定し、DataRobotでモデルとデプロイを作成した後、モデルのバージョン情報とパッケージ情報、およびデプロイの概要からコミット情報にアクセスできます。
必要な機能フラグ:カスタムモデルのGitHub CI/CDを有効にする
パブリックプレビュー機能のドキュメントをご覧ください。
カスタムモデルやタスクのためのリモートリポジトリファイルブラウザー¶
プレビュー版の機能です。リモートリポジトリ内のフォルダーやファイルを参照して、カスタムモデルまたはタスクに追加するファイルを選択できます。 カスタムモデルワークショップにモデルを追加したり、タスクを追加したりすると、Bitbucket、GitHub、GitHub Enterprise、S3、GitLab、GitLab Enterpriseなどのさまざまなリポジトリから、そのモデルやタスクにファイルを追加できます。 DataRobotにリポジトリを追加した後、リポジトリからファイルをプルして、カスタムモデルやモデルに含めることができます。
リモートリポジトリからプルする場合、GitHubリポジトリからプルするダイアログボックスで、カスタムモデルにプルしたいファイルやフォルダーのチェックボックスを選択することができます。
また、すべて選択をクリックすると、リポジトリ内のすべてのファイルを選択できます。1つまたは複数のファイルを選択した後、すべての選択を解除をクリックすると、選択したファイルがクリアされます。
備考
この例ではGitHubを使用していますが、各リポジトリタイプで手順は同じです。
必要な機能フラグ:ファイルブラウザーで、リモートリポジトリからモデルやタスクのファイルを取得できるようにする
詳しくはドキュメントをご覧ください。
サービスの正常性と精度の履歴を表示¶
プレビュー版の機能です。デプロイのサービスの正常性と精度を分析する際に、履歴タブを表示することで、現在および過去にデプロイしたモデルのパフォーマンスについて重要な情報を得ることができます。 このタブを使用すると、サービス正常性と精度の分析での操作性が向上し、最大5つのモデルを1つの場所で同じスケールで表示できるため、モデルのパフォーマンスを直接比較することが容易になりました。
デプロイのサービスの正常性 > 履歴タブでは、現在デプロイされているモデルを含む、最近デプロイされた最大5つのモデルのサービス正常性の履歴を表すビジュアライゼーションにアクセスできます。 この履歴は、モデルのサービス正常性で追跡される各指標で利用でき、適切なプロビジョニングに不可欠なボトルネックの特定と容量の評価に役立ちます。
デプロイの精度 > 履歴タブでは、現在デプロイされているモデルを含む、最近デプロイされた最大5つのモデルの精度履歴を表すビジュアライゼーションにアクセスでき、その精度を直接比較することができます。 これらの精度のインサイトは、問題のタイプとそれに関連する最適化指標に基づいてレンダリングされます。
必要な機能フラグ:デプロイ履歴を有効にする
プレビュー機能のドキュメントをご覧ください。
モデルパッケージアーティファクトの作成ワークフロー¶
プレビュー機能で利用できるようになった、改善されたモデルパッケージアーティファクトの作成ワークフローにより、モデルレジストリ内のモデルとそれに関連付けられたモデルパッケージとの間のつながりが表示され、モデルデプロイまでの道のりが明確になりました。 この新しいアプローチを使用すると、モデルのデプロイ時に、モデルパッケージの詳細を提供し、モデルパッケージをモデルレジストリに追加して開始できます。 モデルパッケージを作成してビルドを完了させたら、 デプロイ情報を追加してデプロイできます。
-
リーダーボードから、予測の生成に使用するモデルを選択し、予測 > デプロイをクリックします。 ベストプラクティスに従い、最初にデプロイのためのモデルを準備することを推奨します。 このプロセスでは特徴量のインパクトを実行し、削減した特徴量リストでモデルを再トレーニングして、さらに大きなサンプルサイズでトレーニングします。次に、サンプル全体(日付/時刻でパーティション分割されたプロジェクトの最新データ)でトレーニングします。
-
モデルをデプロイタブで、必要なモデルパッケージ情報を提供し、登録してデプロイをクリックします。
-
モデルの構築を許可します。 モデルのサイズによっては、ビルドステータスが反映されるまでに数分かかる場合があります。 デプロイする前に、モデルパッケージが準備完了のステータスになっている必要があります。
-
モデルパッケージリストで、デプロイするモデルパッケージを見つけて、デプロイをクリックします。
-
モデルレジストリ > モデルパッケージに移動します。
-
デプロイするモデルパッケージのアクションメニューをクリックし、デプロイをクリックします。
スターテス列には、モデルパッケージのビルドステータスが表示されます。
N/Aのステータスを持っているモデルパッケージをデプロイすると、ビルドプロセスが開始されます。
ヒント
モデルレジストリからモデルパッケージを開き、パッケージ情報 タブからデプロイすることもできます。
詳細については、モデルレジストリのドキュメントを参照してください。
モデルパッケージのモデルログ¶
モデルパッケージのモデルログには、ベースモデルの操作に関する情報が表示されます。 この情報は、エラーの特定と修正に役立ちます。 たとえば、コンプライアンスドキュメントの生成では、DataRobotが多くのジョブを実行する必要があり、その中には順次実行されるものと並行して実行されるものがあります。 これらのジョブは失敗することがあり、ログを確認することで失敗の原因を特定できます(たとえば、モデルがNull値を扱わないために「特徴量ごとの作用」ジョブが失敗した場合など)。
重要
モデルレジストリでは、モデルパッケージのモデルログタブはベースモデルの操作 のみ 報告し、モデルパッケージの操作(モデルパッケージのデプロイ時間など)は報告しません。
モデルレジストリで、モデルパッケージにアクセスし、モデルログタブをクリックします。
情報 | 説明 | |
---|---|---|
1 | 日付 / 時刻 | モデルログイベントが記録された日時。 |
2 | ステータス | ログエントリーで報告されるステータス
|
3 | メッセージ | 操作成功(INFO)の説明、または操作失敗の理由(ERROR)。 この情報は、エラーの根本原因のトラブルシューティングに役立ちます。 |
エラーの修正が必要なログエントリーが見つからない場合、現在のビューに表示されていない古いログエントリーの可能性があります。 古いログを読み込むをクリックして、モデルログビューを展開します。
ヒント
モデルログの上部で古いログエントリーを探してください。それらは既存のログ履歴の先頭に追加されます。
必要な機能フラグ:モデルパッケージでモデルログを有効にする
プレビュー機能のドキュメントをご覧ください。
TTSモデルとLSTMモデルでのバッチ予測¶
時系列予測では、従来の時系列モデル(TTS)や長・短期記憶モデル(LSTM)(自己回帰(AR)や移動平均(MA)の手法を用いたシーケンスモデル)が一般的です。 ARモデルもMAモデルも、予測を行うためには、通常、過去の予測の完全な履歴を必要とします。 それに対して、他の時系列モデルでの予測に必要なのは、特徴量派生後の1行のみです。 これまで、バッチ予測では、履歴が各バッチの最大サイズを超える場合、有効な 特徴量派生ウィンドウ(FDW)を超えて履歴データを受け入れることができませんでしたが、シーケンスモデルではFDWを超える完全な履歴データが必要でした。 これらの要件により、シーケンスモデルはバッチ予測とは相容れないものとなりました。 このプレビュー機能を有効にすると、それらの制限が解除されるため、TTSおよびLSTMモデルでのバッチ予測が可能になります。
時系列のオートパイロットには、まだTTSモデルやLSTMモデルのブループリントが含まれていません。しかし、モデルリポジトリにあるモデルブループリントにアクセスすることができます。
TTSおよびLSTMモデルでバッチ予測を可能にするために、次のことが行われました。
-
バッチ予測を更新して、最大バッチサイズ (50MBまたは約100万行の履歴データと同等) までの履歴データを受け入れるようにしました。
-
TTSモデルを更新し、(完全な履歴が提供されない場合)不完全な履歴での再フィッティングを可能にしました。
予測時に十分な予測履歴を提供しない場合、予測の矛盾が発生する可能性があります。 TTSおよびLSTMモデルで精度を維持する方法については、予測精度に関する注意事項を参照してください。
この機能を有効にすると、デプロイされたTTSまたはLSTMモデルの予測 > 予測を作成タブと予測 > ジョブ定義タブにアクセスできます。
必要な機能フラグ:TTSとLSTMの時系列モデルのバッチ予測を有効にする
プレビュー機能のドキュメントをご覧ください。
時系列モデルパッケージの予測間隔¶
プレビュー版の機能です。モデルパッケージ生成時に、モデルの時系列予測間隔(1~100)の計算を有効にすることができます。 モデルパッケージ生成時に、モデルの時系列予測間隔(1~100)の計算を有効にすることができます。 DataRobotの時系列モデルをリモート予測環境で実行するには、モデルのデプロイまたはリーダーボードからモデルパッケージ(.mlpkgファイル)をダウンロードします。 どちらの場所でも、モデルパッケージの生成時に予測間隔の計算を選択できるようになりました。そして、DataRobotの外でポータブル予測サーバー(PPS)を使って予測ジョブを実行できます。
デプロイから予測間隔を含むモデルパッケージをダウンロードする前に、デプロイがモデルパッケージのダウンロードをサポートしていることを確認します。 デプロイには、DataRobotの構築環境と外部予測環境が必要です。これは、デプロイインベントリのガバナンスレンズを使用して確認することができます。
予測間隔を含むモデルパッケージをデプロイ(外部デプロイ)からダウンロードするには、予測 > ポータブル予測タブを使用します。
予測間隔を含むモデルパッケージをリーダーボードにあるモデルからダウンロードするには、予測 > デプロイまたは予測 > ポータブル予測タブを使用できます。
必要な機能フラグ:.mlpkgのすべての時系列間隔の計算を有効にする
詳しくはドキュメントをご覧ください。
記載されている製品名および会社名は、各社の商標または登録商標です。 製品名または会社名の使用は、それらとの提携やそれらによる推奨を意味するものではありません。