Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

UI予測オプション

DataRobotでは、UIからさまざまな方法で予測を作成できます(少なくともUIから起動)。以下の表で各方法について説明します。

方法 状況 注意
予測の作成 アプリ内予測が必要な場合 次のいずれかを実行します:
  • コーディングなしで新規データセット(デフォルトで最大1GB)の予測を行う
  • 元のデータセットでアウトオブサンプルの予測を作成します(大きなファイルのホールドアウトおよび検証パーティションを含む)。
デプロイ 専用予測サーバーを設置する コードサンプルは以下から取得できます。
  • 予測APIによるリアルタイムスコアリング
  • Pythonバッチスコアリングによるほぼリアルタイム(一度に複数の行を連続してスコアリング)またはバッチケース(複数の行のデータをスケジュールで決められたようにスコアリング)
DataRobot Prime アプリ外で予測を取得する 選択したモデルの近似モデルであるスコアリングコードを生成することで、予測のための「ビジネスルール」を記述するシンプルなバージョンを作成します。
ダウンロード アプリ外で予測の正確な再現を取得する 次のいずれかの方法を選択します。
  • 低レイテンシーのオフライン予測に簡単にデプロイできるモデルに、正確で、検定済みJavaスコアリングコードをエクスポートします。
  • スタンドアロン予測APIで予測システムに適した分離型の安定した環境を作成します。
モデルの移行 堅牢さを強化するためにモデルをスタンドアロン予測サーバーに移行する場合 ダウンロードタブでエクスポートし、予測の管理を使用してインポートします。
Hadoopにデプロイ Hadoop上で実行する DataRobotに接続されているHDFS内に存在するデータのスコアリングを行います。

または、同じインターフェイスを使用してモデリングと予測を行う場合は、DataRobot API予測機能を使用できます。より詳細なモデルの調査に使用するツールの一部は、DataRobot GUIでのみ利用可能です。

注意

予測を実行する際、Positiveクラスには、DataRobotが選択できる複数の表現があり、データセットに書かれている元のPositiveクラス、フロントエンドでユーザーが指定したもの、予測セットで提供されているPositiveクラスの中から選択することができます。現在、これに関するDataRobotの内部ルールは明白ではないので、Positiveクラスとしてint(1)ではなくstr("1.0")が返されるなどの自動化の問題が発生することがあります。この問題は、将来のリリースにおいて内部ルールセットを標準化することによって修正される予定です。

一般的な間違いを回避する

データセットのガイドラインのセクションでは、DataRobotのデータセット要件に関する重要な情報が記載されています。さらに、以下の項目も考慮に入れてください。

  1. トレーニング不足のモデル。予測に関する最も一般的な間違いは、初期トレーニングセット以降の再トレーニングを行っていないモデルを予測に使用することです。

    • 検定セットに基づいて最良のモデルを選択します。
    • 最良のモデルを再トレーニングします(検定セットを含む)。
    • ホールドアウトのロックを解除し、ホールドアウトを使用して、再トレーニングしたモデルのパフォーマンスが予期したとおりのものであることを確認します。
    • これは、DataRobotで「デプロイ推奨」として選択されたモデルを使用する場合は適用されません。DataRobotは、 推奨モデルの3つのすべてのステップを自動化し、データの100%をトレーニングします。
  2. ファイルエンコーディングの問題。予測エラーを回避するために、データの形式を適切に設定してください。たとえば、引用符で囲まれていない改行文字およびカンマがCSVファイルに含まれていると問題が発生することがあります。JSONはCSVよりも標準化されているので、大量のテキストを含むデータの場合形式はJSONを使用することが推奨されます。JSONよりもCSVの方が処理は高速ですが、適切な形式設定が行われている場合に限られます。

  3. 不十分なコア。予測を行う場合、スレッドまたはプロセスの数を予測ワーカーコアの数と同じか、それよりも少なくして、同期リクエストを行います。一般的に、同時予測の数は、専用の予測サーバー上の予測ワーカーコアの数を超えないように注意してください。予測コアの数が不明な場合は、DataRobotサポートに問い合わせてください。

予測速度に関する備考

  1. モデルのスコアリング速度。スコアリング時間はモデルごとに異なり、「リアルタイム」スコアリングには速度が不十分なモデルもあります。モデルを使用して予測を行う前に、選択したモデルがニーズに対して十分な速度であることを確認してください。モデルのスコアリング時間を表示するには、速度対精度タブを使用します。

  2. モデルキャッシュの理解。インメモリーモデルキャッシュが搭載されているので、専用の予測サーバーコアではスコアリングがすばやく行われます。結果として、モデルを最初に取得する必要があるので、新しいモデルを使用した最初のいくつかのリクエストの処理は遅くなることがあります。

  3. 予測の説明付きの予測の計算。予測の説明付きの予測の計算は、予測の計算だけを行う場合よりも大幅に多くの計算が必要になります。実際の速度はモデルに応じて異なりますが、長い実行時間を想定する必要があります。使用する特徴量の数を減らすか、アンサンブルとテキスト特徴量を回避すると、速度が向上することがあります。


更新しました February 22, 2022
Back to top