1回限りのバッチ予測を行う¶
デプロイ > 予測を作成タブを使用して、バッチ予測を作成してデプロイ済みモデルによってデータセットを効率的にスコアリングします。
備考
デプロイする前のモデルの予測の場合、リーダーボードから選択し、予測 > 予測を作成に移動します。
バッチ予測とは、大規模なデータセットで予測を作成する方法で、入力データを渡すと各行の予測結果が得られます。 DataRobotは、これらの予測を出力ファイルに書き出します。 以下を行うこともできます。
-
予測データのソースと宛先を指定し、予測が実行される時期を決定することで、バッチ予測ジョブをスケジュールします。
-
バッチ予測APIを使って予測します。
予測ソースの選択¶
デプロイされたモデルでバッチ予測を行うには、デプロイの予測 > 予測を作成タブに移動し、予測ソースをアップロードします。
-
ファイルをクリックして、予測ソースグループボックスにドラッグします。
-
ファイルを選択をクリックして、ローカルファイルまたはAIカタログ**に保存されているデータセットをアップロードします。
備考
予測データセットをアップロードすると、完全にアップロードされた後にAIカタログに自動的に保存されます。 アップロードが完了する前にページから移動しないようにしてください。そうしないと、データセットがカタログに保存されません。 アップロードした後まだデータセットが処理中の場合、使用可能になる前にDataRobotがEDAを実行します。
デプロイでの予測の作成¶
このセクションでは、予測を作成タブを使用して、標準的なデプロイと時系列デプロイでバッチ予測を行う方法を説明します。
フィールド名 | 説明 | |
---|---|---|
![]() |
予測ソース | ローカルファイルをアップロードするか、AIカタログからデータセットをインポートして、予測ソースを選択します。 |
![]() |
時系列オプション | 時系列予測の方法を指定および設定します。 |
![]() |
予測オプション | 予測オプションを設定します。 |
![]() |
予測を計算およびダウンロード | データをスコアリングし、予測をダウンロードします。 |
![]() |
最近の予測 | 最近のバッチ予測を表示し、結果をダウンロードします。 予測のダウンロードは48時間有効です。 |
時系列オプションの設定¶
時系列のバッチ予測でのデータセットの要件
DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。
- 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
- 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートします。
- DataRobotがサポートする系列の数には制限はありません。 制限に記載されているように、唯一の制限はジョブのタイムアウトです。
データセットの例については、スコアリングデータセットの要件をご覧ください。
時系列オプションの時系列予測法を設定するには、 予測ポイントまたは予測範囲を選択します。
予測ポイントを使用して、予測を開始する特定の日付を選択します。次に予測ポイントの選択方法を選択します。
-
自動を選択すると、DataRobotはスコアリングデータに基づいて予測ポイントを選択します。
-
手動を選択すると、予測ポイントの日付を選択できます。
一括の過去の予測を行う場合(予測ポイントから将来の行を予測する代わりに)、予測範囲を選択します。 次に、予測範囲を選択します。
-
予測ソースにあるすべての日付を使用:予測は選択した時間範囲内のすべての予測距離を使用します。
-
特定の日付範囲を使用:日付セレクターを使用して特定の日付範囲を設定します。
予測オプションの設定¶
ファイルがアップロードされたら、予測オプションを設定します。 高度なオプションを表示をクリックし、追加のオプションを設定します。(オプション)
要素 | 説明 | |
---|---|---|
![]() |
入力特徴量を含める | 予測値と一緒に入力特徴量を予測結果ファイルに書き込みます。 特定の特徴量を追加するには、入力特徴量を含めるトグルを有効にして、特定の特徴量を選択し、絞り込む特徴量名を入力してから、特徴量を選択します。 データセットのすべての特徴量を含めるには、すべての特徴量を選択します。 追加できるのは元のデータセットに存在する特徴量(列)だけですが、その特徴量は、モデルの構築に使用した特徴量セットの一部である必要はありません。 派生した特徴量は含まれません。 |
![]() |
予測の説明を含める | 予測の出力結果に 予測の説明のための列を追加します。
|
![]() |
予測外れ値警告を含める | 外れ値の予測値に対する警告を含めます(連続値モデルデプロイでのみ使用可能)。 |
![]() |
予測のためのデータのドリフト、精度、公平性の追跡 | データドリフト、精度、公平性を追跡します(デプロイで有効になっている場合)。 |
![]() |
チャンクサイズ | チャンクサイズの選択方法を調整します。 デフォルトでは、チャンクサイズは自動的に計算されます。この設定は、DataRobotの担当者から勧められた場合にのみ変更してください。 詳細については、チャンクサイズとは?を参照してください。 |
![]() |
予測リクエストの同時実行 | 予測リクエストの同時実行数を制限します。 デフォルトでは、予測ジョブは利用可能な予測サーバーコアをすべて使用します。 リアルタイム予測用に処理能力を確保するには、同時予測リクエストの最大数に上限を設けます。 |
![]() |
予測ステータスを含める | 予測のステータスを含む列を追加します。 |
![]() |
デフォルトの予測インスタンスを使用 | 予測インスタンスを変更できます。 トグルをオフにして、予測インスタンスを選択します。 |
予測の説明を有効にできないのはなぜですか?
予測の説明を含めることができない場合、次の理由が考えられます。
-
モデルの検定パーティションに、必要な行数が含まれていません。
-
統合されたモデルで、少なくとも1つのセグメントチャンピオンの検定パーティションに、必要な行数が含まれていません。 予測の説明を有効にするには、モデルパッケージやデプロイを作成する前に、再トレーニングしたチャンピオンを手動で置き換えてください。
チャンクサイズとは?
バッチ予測プロセスでは、データが小さな断片に分割され、それらの断片が1つずつスコアリングされるため、DataRobotは大量のバッチをスコアリングできます。 チャンクサイズの設定では、DataRobotがデータをチャンク化するために使用する方法を決定します。 DataRobotは、全体的に最もパフォーマンスが高いデフォルト設定の自動チャンク化をお勧めしますが、他のオプションも利用できます。
-
固定:DataRobotは、最初に有効なチャンクサイズを識別し、モデルのスコアリングプロセスの残りの部分でそのサイズを引き続き使用します。
-
動的:DataRobotは、モデルのスコアリング速度が許容範囲内である間はチャンクサイズを大きくし、スコアリング速度が低下するとチャンクサイズを小さくします。
-
カスタム:データサイエンティストがチャンクサイズを設定すると、DataRobotは残りのモデルスコアリングプロセスでそのチャンクサイズを使用し続けます。
予測を計算およびダウンロード¶
設定した後、予測を計算およびダウンロードをクリックしてデータのスコアリングを開始します。
スコアリングが完了したら、予測をダウンロードをクリックし、予測ファイルをダウンロードします。
予測ジョブが失敗した場合は、ログを表示をクリックし、実行の詳細を表示してオプションでコピーします。
48時間以内であれば、予測 > 予測を作成ページから予測をダウンロードできます。 デプロイ > 予測ジョブタブで、予測とログを表示およびダウンロードすることもできます。
バッチ予測ジョブのキャンセル
ジョブの実行中にオレンジ色のXをクリックすると、ジョブをキャンセルできます。 キャンセルしたら、矢印をクリックしてジョブのログを表示できます。