予測のリファレンス¶
DataRobotは、DataRobot UIやAPIを含むさまざまな予測の作成方法(Python、R、RESTなど)をサポートしています。 使用する予測方法は、予測データのサイズ、デプロイ前にモデルを検証しているのか、本番環境で使用して監視しているのか、すぐに低レイテンシー予測が必要なのか、またはバッチ予測ジョブをスケジュールしたいのかによって異なります。 このページには、予測を行う前に参照すべき注意事項、制限事項、その他の有用な情報が掲載されています。
ファイルサイズ制限¶
セルフマネージドAIプラットフォームの制限
予測ファイルのサイズ制限は、セルフマネージドAIプラットフォームのインストール環境によって異なり、上限を設定できます。
予測方法 | 詳細 | ファイルサイズ制限 |
---|---|---|
リーダーボードでの予測 | 1GB | |
バッチ予測(UI) | To make batch predictions using the UI, deploy a model and navigate to the deployment's Make Predictions tab (requires MLOps). | 5GB |
バッチ予測(API) | The Batch Prediction API is optimized for high-throughput and contains production grade connectivity options that allow you to not only push data through the API, but also connect to the AI catalog, cloud storage, databases, or data warehouses (requires MLOps). | 無制限 |
予測API(リアルタイム) 専用の予測環境(DPE) |
To make real-time predictions on a deployed model, use the Prediction API. | 50MB |
予測API(リアルタイム) DataRobotサーバーレス予測環境 |
デプロイ済みのモデルでリアル予測を行うには、予測APIを使用します。 | 10MB |
予測モニタリング | While the Batch Prediction API isn't limited to a specific file size, prediction monitoring is still subject to an hourly rate limit. | 毎時100MB |
モデルの正常性の監視¶
上記の予測方法のいずれかを使用する場合、DataRobotを使用すると、モデルをデプロイし、選択した期間の予測の出力結果とパフォーマンスを監視できます。
モデル管理プロセスにおいて重要なことは、モデルが劣化し始めた時期を特定し、迅速に対処することです。 トレーニングが完了すると、モデルはユーザーが提供する新しいデータを予測できるようになります。 ただし、新しい都市へのビジネスの拡大、新しい製品の市場参入、ポリシーやプロセスの変化など、予測データは時間とともに変化します。 This can result in data drift, the term used to describe when newer data moves away from the original training data, which can result in poor or unreliable prediction performance over time.
MLOpsデプロイダッシュボードを使用して、モデルのパフォーマンス指標(予測の応答時間、モデルの状態、精度、データドリフト分析など)を分析します。 モデルが劣化した場合の一般的な対処方法は、新しいモデルを再トレーニングすることです。 デプロイでは、モデルを再デプロイせずに置き換えることができるので、コードを変更する必要がないだけでなく、DataRobotは特定のユースケースで使用されたモデルの履歴全体を追跡して表すことができます。
一般的な間違いを回避する¶
データセットのガイドラインのセクションでは、DataRobotのデータセット要件に関する重要な情報が記載されています。 さらに、以下の項目も考慮に入れてください。
-
トレーニング不足のモデル。 予測に関する最も一般的な間違いは、初期トレーニングセット以降の再トレーニングを行っていないモデルを予測に使用することです。 ベストプラクティスとして、次のワークフローが推奨されます。
- 検定セットに基づいて最良のモデルを選択します。
- 最良のモデルを再トレーニングします(検定セットを含む)。
- ホールドアウトのロックを解除し、ホールドアウトを使用して、再トレーニングしたモデルのパフォーマンスが予期したとおりのものであることを検証します。
- これは、DataRobotで「デプロイ推奨」として選択されたモデルを使用する場合は適用されません。DataRobotは、 推奨モデルの3つのすべてのステップを自動化し、データの100%をトレーニングします。
-
ファイルエンコーディングの問題。 予測エラーを回避するために、データの形式を適切に設定してください。 たとえば、引用符で囲まれていない改行文字およびカンマがCSVファイルに含まれていると、問題が発生することがあります。 JSONはCSVよりも標準化されているので、大量のテキストを含むデータの場合はJSONを使用することが推奨されます。 JSONよりもCSVの方が処理は高速ですが、適切な形式設定が行われている場合に限られます。
-
不十分なコア。 予測を行う場合、スレッドまたはプロセスの数を予測ワーカーコアの数と同じか、それよりも少なくして、同期リクエストを行います。 一般的に、同時予測の数は、専用の予測サーバー上の予測ワーカーコアの数を超えないように注意してください。 予測コアの数が不明な場合は、DataRobotサポートに問い合わせてください。
注意
予測を実行するとき、データセットに書き込まれた元のPositiveクラス(フロントエンドのユーザー指定オプション)または予測セットとして提供されるPositiveクラスとして表現されるPositiveクラスを選択できます。 現在、これに関するDataRobotの内部ルールは明白ではないので、Positiveクラスとしてint(1)
ではなくstr("1.0")
が返されるなどの自動化の問題が発生することがあります。 この問題は、将来のリリースにおいて内部ルールセットを標準化することによって修正される予定です。
予測速度¶
-
モデルのスコアリング速度。 スコアリング時間はモデルごとに異なり、「リアルタイム」スコアリングには速度が不十分なモデルもあります。 モデルを使用して予測を行う前に、選択したモデルがニーズに対して十分な速度であることを確認してください。 Use the Speed vs. Accuracy tab to display model scoring time.
-
モデルキャッシュの理解。 インメモリーモデルキャッシュが搭載されているので、専用の予測サーバーではスコアリングがすばやく行われます。 結果として、モデルを最初に取得する必要があるので、新しいモデルを使用した最初のいくつかのリクエストの処理は遅くなることがあります。
-
予測の説明付きの予測の計算。 XEMP予測の説明付きの予測の計算は、予測の計算だけを行う場合よりも大幅に多くの計算が必要になります。 実際の速度はモデルに応じて異なりますが、長い実行時間を想定する必要があります。 使用する特徴量の数を減らすか、アンサンブルとテキスト特徴量を回避すると速度が向上することがあります。 計算コストの増加は、SHAPベースの予測の説明には適用されません。