Skip to content

予測の作成

予測 > 予測を作成タブを使用して、バッチ予測を作成してデプロイ済みモデルによってデータセットを効率的にスコアリングします。

備考

デプロイ前のモデルで予測を行うには、エクスペリメントのモデルリストからモデルを選択し、モデルのアクション > 予測を作成をクリックします。

バッチ予測とは、大規模なデータセットで予測を行う方法で、入力データを渡すと各行の予測結果が得られます。 DataRobotは、これらの予測を出力ファイルに書き出します。 以下を行うこともできます。

  • 予測データの送信元と送信先を指定し、予測が実行されるタイミングを決定することで、 バッチ予測ジョブをスケジュールします。

  • バッチ予測APIを使って予測します。

予測データセットの選択

デプロイされたモデルでバッチ予測を行うには、デプロイの予測 > 予測を作成タブに移動し、予測ソースをアップロードします。

  • ファイルを予測データセットボックスにドラッグします。

  • ファイルを選択をクリックし、以下のいずれかを選択します。

    アップロード方法 説明
    ローカルファイルをアップロード ローカルファイルシステムからファイルを選択して、データセットをアップロードして予測を行います。
    データレジストリ 以前、データレジストリにアップロードされたファイルを選択します。
    ラングラーレシピ Select a recipe wrangled in Workbench from a Snowflake data connection or Data Registry dataset (preview feature).

    ローカルファイルシステムで、データセットファイルを選択し、開くをクリックします。

    予測データセットをアップロードすると、完全にアップロードされた後にAIカタログに自動的に保存されます。 アップロードが完了する前にページから移動しないようにしてください。そうしないと、データセットがカタログに保存されません。 If the dataset is still processing after the upload, that means DataRobot is running EDA on the dataset before it becomes available for use.

    データセットを選択パネルで、データセットをクリックしてから確認をクリックします。

    本機能の提供について

    データレジストリに保存されたデータセットに対してラングリングとプッシュダウンを実行する機能は、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。 最大20GBのデータセットしかラングリングできないことに注意してください。

    機能フラグ:データレジストリのデータセットでラングリングのプッシュダウンを有効にする

    レシピを選択パネルで、 Snowflakeデータ接続またはデータレジストリから ラングリングされたレシピのチェックボックスを選択してから、選択をクリックします。

    レシピのフィルターとレビュー

    ソースでラングリングレシピのリストをフィルターするには、ソースフィルターをクリックして、Snowflakeまたはデータレジストリを選択します。 レシピを選択する前に詳細について知るには、レシピ行をクリックして基本情報とラングリングSQLクエリーを表示するか、リストからレシピを選択した後に プレビューをクリックします。

時系列データ要件

時系列モデルで予測を作成するには、特定の形式のデータセットが必要です。 形式は時系列プロジェクトの設定に基づきます。 予測データセットに正しい履歴行、予測行、および事前に既知の特徴量が含まれていることを確認します。 さらに、DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。

  • 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
  • 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートして、古い順に表示します。

DataRobotがサポートする系列の数には制限はありません。 The only limit is the job timeout, as mentioned in Limits. For dataset examples, see the requirements for the scoring dataset

デプロイでの予測の作成

このセクションでは、予測を作成タブを使用して、標準的なデプロイと時系列デプロイでバッチ予測を行う方法を説明します。

フィールド名 説明
1 予測データセット Select a prediction dataset by uploading a local file or importing a dataset from the Data Registry.
2 時系列オプション Specify and configure a time series prediction method.
3 予測オプション Configure the prediction options.
4 予測を計算およびダウンロード Score the data and download the predictions.
5 最近の予測をダウンロード

時系列オプションの設定

時系列データ要件

時系列モデルで予測を作成するには、特定の形式のデータセットが必要です。 形式は時系列プロジェクトの設定に基づきます。 予測データセットに正しい履歴行、予測行、および事前に既知の特徴量が含まれていることを確認します。 さらに、DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。

  • 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
  • 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートして、古い順に表示します。

DataRobotがサポートする系列の数には制限はありません。 The only limit is the job timeout, as mentioned in Limits. For dataset examples, see the requirements for the scoring dataset.

時系列オプションを設定するには、時系列予測法予測ポイント設定を定義します。

  • 自動的に設定:DataRobotは、スコアリングデータに基づいて、予測ポイントを自動的に設定します(通常は、可能な限り最新の日付タイムスタンプが、有効な予測ポイントです)。

  • 手動で設定:日付セレクターを使用して開始および終了の日付を手動で指定し、特定の日付範囲を設定します。

さらに、高度なオプションを表示をクリックし、事前に既知の列の欠損値を無視するを有効にすると、指定されたソースデータセットの事前に既知の列で欠損値があっても、予測を行うことができます。ただし、これは計算された予測に悪影響を及ぼす可能性があります。

予測オプションの設定

ファイルがアップロードされたら、予測オプションを設定します。 高度なオプションを表示をクリックし、追加のオプションを設定します。(オプション)

要素 説明
1 予測結果に追加の特徴量値を含める
2 予測の説明を含める
3 予測外れ値警告を含める Includes warnings for outlier prediction values (only available for regression model deployments).
4 データ探索のために予測を保存 Tracks data drift, accuracy, fairness, and data exploration (if enabled for the deployment).
5 チャンクサイズ
6 予測リクエストの同時実行
7 予測ステータスを含める 予測のステータスを含む列を追加します。
8 デフォルトの予測インスタンスを使用
9 列名の再マッピング
予測の説明を有効にできないのはなぜですか?

予測の説明を含めることができない場合、次の理由が考えられます。

  • モデルの検定パーティションに、必要な行数が含まれていません。

  • 統合されたモデルで、少なくとも1つのセグメントチャンピオンの検定パーティションに、必要な行数が含まれていません。 予測の説明を有効にするには、モデルパッケージやデプロイを作成する前に、再トレーニングしたチャンピオンを手動で置き換えてください。

チャンクサイズとは?

バッチ予測プロセスでは、データが小さな断片に分割され、それらの断片が1つずつスコアリングされるため、DataRobotは大量のバッチをスコアリングできます。 チャンクサイズの設定では、DataRobotがデータをチャンク化するために使用する方法を決定します。 DataRobotは、全体的に最もパフォーマンスが高いデフォルト設定の自動チャンク化をお勧めしますが、他のオプションも利用できます。

  • 固定:DataRobotは、最初に有効なチャンクサイズを識別し、モデルのスコアリングプロセスの残りの部分でそのサイズを引き続き使用します。

  • 動的:DataRobotは、モデルのスコアリング速度が許容範囲内である間はチャンクサイズを大きくし、スコアリング速度が低下するとチャンクサイズを小さくします。

  • カスタム:データサイエンティストがチャンクサイズを設定すると、DataRobotは残りのモデルスコアリングプロセスでそのチャンクサイズを使用し続けます。

予測を計算およびダウンロード

予測オプションを設定したら、予測を計算およびダウンロードをクリックしてデータのスコアリングを開始し、最近の予測をダウンロードでスコアリング結果を表示します。 完了した予測ジョブに対して、次のアクションを実行できます。

アイコン アクション
時系列予測の場合、予測の視覚化を表示します。
予測ファイルをダウンロードします。
ログにアクセスし、実行の詳細を表示してオプションでコピーします。

48時間以内であれば、予測 > 予測を作成ページから予測をダウンロードできます。

バッチ予測ジョブのキャンセル

ジョブの実行中に停止アイコン をクリックしてキャンセルします。 キャンセルされたジョブまたは失敗したジョブの場合、ログアイコン をクリックして、ジョブのログを表示できます。