Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

予測のリファレンス

DataRobotは、DataRobot UIやAPIを含むさまざまな予測の作成方法(Python、R、RESTなど)をサポートしています。 使用する予測方法は、予測データのサイズ、デプロイ前にモデルを検証しているのか、本番環境で使用して監視しているのか、すぐに低レイテンシー予測が必要なのか、またはバッチ予測ジョブをスケジュールしたいのかによって異なります。 このページには、予測を行う前に参照すべき注意事項、制限事項、その他の有用な情報が掲載されています。

ファイルサイズ制限

備考

予測ファイルのサイズ制限は、セルフマネージドAIプラットフォームのインストール環境によって異なり、上限を設定できます。

予測方法 詳細 ファイルサイズ制限
リーダーボードでの予測 UIを使用してデプロイされていないモデルで予測を行うには、リーダーボードでモデルを展開し、予測 > 予測を実施を選択します。 ローカルファイル、URL、データソース、またはAIカタログから予測をアップロードします。 モデリング予測API(「V2予測API」とも呼ばれる)を使用して予測をアップロードすることもできます。このAPIを使用して、小さなデータセットでモデリングワーカーによって予測をテストします。 予測は、お使いのDataRobotパッケージに応じて、ユーザー1人100リクエスト(1時間あたり)に制限できます。 1GB
バッチ予測(UI) UIを使用してバッチ予測を行うには、モデルをデプロイし、デプロイの 予測を作成タブに移動します(MLOpsが必要)。 5GB
バッチ予測(API) バッチ予測APIは、高スループットに最適化され、本番グレード接続オプションが含まれています。この本番グレード接続オプションによって、APIを通してデータをプッシュするだけでなく、AIカタログ、クラウドストレージ、データベース、またはデータウェアハウス(MLOpsが必要)に接続できます。 無制限
予測API(リアルタイム) デプロイ済みのモデルでリアル予測を行うには、予測APIを使用します。 50MB
予測モニタリング バッチ予測APIは特定のファイルサイズに制限されることはありませんが、予測監視には引き続き1時間あたりのレート制限が適用されます。 毎時100MB

モデルの正常性の監視

上記の予測方法のいずれかを使用する場合、DataRobotを使用すると、モデルをデプロイし、選択した期間の予測の出力結果とパフォーマンスを監視できます。

モデル管理プロセスにおいて重要なことは、モデルが劣化し始めた時期を特定し、迅速に対処することです。 トレーニングが完了すると、モデルはユーザーが提供する新しいデータを予測できるようになります。 ただし、新しい都市へのビジネスの拡大、新しい製品の市場参入、ポリシーやプロセスの変化など、予測データは時間とともに変化します。 これはデータドリフトという結果につながります。これは、新しいデータが元のトレーニングデータから乖離する時期を表すために使用される用語で、時間の経過とともに予測パフォーマンスが低下するか、信頼性が低下する可能性があります。

MLOpsデプロイダッシュボードを使用して、モデルのパフォーマンス指標(予測の応答時間、モデルの状態、精度、データドリフト分析など)を分析します。 モデルが劣化した場合の一般的な対処方法は、新しいモデルを再トレーニングすることです。 デプロイでは、モデルを再デプロイせずに置き換えることができるので、コードを変更する必要がないだけでなく、DataRobotは特定のユースケースで使用されたモデルの履歴全体を追跡して表すことができます。

一般的な間違いを回避する

データセットのガイドラインのセクションでは、DataRobotのデータセット要件に関する重要な情報が記載されています。 さらに、以下の項目も考慮に入れてください。

  1. トレーニング不足のモデル。 予測に関する最も一般的な間違いは、初期トレーニングセット以降の再トレーニングを行っていないモデルを予測に使用することです。 ベストプラクティスとして、次のワークフローが推奨されます。

    • 検定セットに基づいて最良のモデルを選択します。
    • 最良のモデルを再トレーニングします(検定セットを含む)。
    • ホールドアウトのロックを解除し、ホールドアウトを使用して、再トレーニングしたモデルのパフォーマンスが予期したとおりのものであることを検証します。
    • これは、DataRobotで「デプロイ推奨」として選択されたモデルを使用する場合は適用されません。DataRobotは、 推奨モデルの3つのすべてのステップを自動化し、データの100%をトレーニングします。
  2. ファイルエンコーディングの問題。 予測エラーを回避するために、データの形式を適切に設定してください。 たとえば、引用符で囲まれていない改行文字およびカンマがCSVファイルに含まれていると、問題が発生することがあります。 JSONはCSVよりも標準化されているので、大量のテキストを含むデータの場合はJSONを使用することが推奨されます。 JSONよりもCSVの方が処理は高速ですが、適切な形式設定が行われている場合に限られます。

  3. 不十分なコア。 予測を行う場合、スレッドまたはプロセスの数を予測ワーカーコアの数と同じか、それよりも少なくして、同期リクエストを行います。 一般的に、同時予測の数は、専用の予測サーバー上の予測ワーカーコアの数を超えないように注意してください。 予測コアの数が不明な場合は、DataRobotサポートに問い合わせてください。

注意

予測を実行するとき、データセットに書き込まれた元のPositiveクラス(フロントエンドのユーザー指定オプション)または予測セットとして提供されるPositiveクラスとして表現されるPositiveクラスを選択できます。 現在、これに関するDataRobotの内部ルールは明白ではないので、Positiveクラスとしてint(1)ではなくstr("1.0")が返されるなどの自動化の問題が発生することがあります。 この問題は、将来のリリースにおいて内部ルールセットを標準化することによって修正される予定です。

予測速度

  1. モデルのスコアリング速度。 スコアリング時間はモデルごとに異なり、「リアルタイム」スコアリングには速度が不十分なモデルもあります。 モデルを使用して予測を行う前に、選択したモデルがニーズに対して十分な速度であることを確認してください。 モデルのスコアリング時間を表示するには、速度対精度タブを使用します。

  2. モデルキャッシュの理解。 インメモリーモデルキャッシュが搭載されているので、専用の予測サーバーではスコアリングがすばやく行われます。 結果として、モデルを最初に取得する必要があるので、新しいモデルを使用した最初のいくつかのリクエストの処理は遅くなることがあります。

  3. 予測の説明付きの予測の計算。 XEMP予測の説明付きの予測の計算は、予測の計算だけを行う場合よりも大幅に多くの計算が必要になります。 実際の速度はモデルに応じて異なりますが、長い実行時間を想定する必要があります。 使用する特徴量の数を減らすか、アンサンブルとテキスト特徴量を回避すると速度が向上することがあります。 計算コストの増加は、SHAPベースの予測の説明には適用されません


更新しました February 6, 2024