Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

予測の作成

エクスペリメントを作成し、モデルをトレーニングしたら、それらのモデルを検証するために、新しいデータ、登録されたデータ、またはトレーニングデータで予測を行うことができます。

ワークベンチエクスペリメントのモデルで予測を行うには:

  1. モデルリストからモデルを選択してから、モデルのアクション 予測を作成をクリックします。

  2. 予測を作成ページで、予測ソースをアップロードするか、ファイルを予測データセットボックスにドラッグするか、またはファイルを選択をクリックして次のいずれかを選択します。

    アップロード方法 説明
    ローカルファイルをアップロード ローカルファイルシステムからファイルを選択して、データセットをアップロードして予測を行います。
    モデルのトレーニングデータを使用 予測データセットとして使用するトレーニングデータの一部を選択します。
    データレジストリ 以前、データレジストリにアップロードされたファイルを選択します。
    ラングラーレシピ Select a recipe wrangled in Workbench from a Snowflake data connection or Data Registry dataset (preview feature).

    ローカルファイルシステムで、データセットファイルを選択し、開くをクリックします。

    予測データセットをアップロードすると、完全にアップロードされた後にAIカタログに自動的に保存されます。 アップロードが完了する前にページから移動しないようにしてください。そうしないと、データセットがカタログに保存されません。 アップロードした後まだデータセットが処理中の場合、使用可能になる前に、データセットに対してDataRobotが EDAを実行中であることを意味します。

    プロジェクトのタイプに応じて、以下のオプションのいずれかを選択します。

    プロジェクトタイプ オプション
    AutoML 以下のトレーニングデータオプションのいずれかを選択します。
    • 検定
    • ホールドアウト
    • すべてのデータ
    OTV/時系列 以下のトレーニングデータオプションのいずれかを選択します。
    • すべてのバックテスト
    • ホールドアウト

    インサンプル予測のリスク

    選択したオプションとモデルがトレーニングされたサンプルサイズによっては、トレーニングデータで予測するとインサンプル予測が生成されることがあります。つまり、モデルはトレーニング中にターゲット値が見えており、その予測は必ずしも十分に一般化できるとは限りません。 DataRobotでは、1つ以上のトレーニング行が予測に使用されていると判断された場合、オーバーフィットのリスク警告が表示されます。 これらの予測は、モデルの精度を評価するために使用すべきではありません。

    データセットを選択パネルで、データセットをクリックしてから確認をクリックします。

    本機能の提供について

    データレジストリに保存されたデータセットに対してラングリングとプッシュダウンを実行する機能は、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。 Note that you can only wrangle datasets up to 20GB.

    機能フラグ:データレジストリのデータセットでラングリングのプッシュダウンを有効にする

    In the Select recipe panel, select the checkbox for a recipe wrangled from a Snowflake data connection or from the Data Registry, and then click Select.

    Filter and review recipes

    To filter the list of wrangled recipes by source, click the Sources filter, and select Snowflake or Data Registry. To learn more about a recipe before selecting it, click the recipe row to view basic information and the wrangling SQL query, or, click Preview after selecting the recipe from the list.

    時系列データ要件

    時系列モデルで予測を作成するには、特定の形式のデータセットが必要です。 形式は時系列プロジェクトの設定に基づきます。 予測データセットに正しい履歴行、予測行、および事前に既知の特徴量が含まれていることを確認します。 さらに、DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。

    • 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
    • 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートして、古い順に表示します。

    DataRobotがサポートする系列の数には制限はありません制限に記載されているように、唯一の制限はジョブのタイムアウトです。 データセットの例については、スコアリングデータセットの要件をご覧ください。

    間違ったデータセットを選択した場合、削除アイコン()をクリックして、予測ソース設定から選択を削除できます。

  3. 次に、予測オプションを設定して(時系列モデルの場合は、時系列オプションを設定することもできます)、予測を計算します。

時系列オプションの設定

時系列オプションの利用について

予測ソースとしてモデルのトレーニングデータを使用を選択した場合、時系列オプションを設定することはできません。

形式が適切な時系列予測データセット予測ソースを設定したら、時系列オプションセクションで時系列固有の設定を行うことができます。 予測ポイントの下で、選択方法を選択し、予測を開始する日付を定義します。

  • 自動的に設定:DataRobotはターゲット値を含む最新の日付を選択し、FDWオフセットを追加します。

  • 手動で設定:指定された予測ソースから、DataRobotが検出した日付範囲内の予測ポイントを選択します(例:「2012-07-05から2014-06-20までの日付を選択」)。

さらに、高度なオプションを表示をクリックし、事前に既知の列の欠損値を無視するを有効にすると、指定されたソースデータセットの事前に既知の列で欠損値があっても、予測を行うことができます。ただし、これは計算された予測に悪影響を及ぼす可能性があります。

予測オプションの設定

予測ソースを設定したら、予測オプションセクションでオプション設定を行うことができます。

設定 説明
予測結果に追加の特徴量値を含める 選択オプションに基づいて、入力特徴量(列)を予測値と一緒に予測結果ファイルに含めます。
  • 指定された特徴量を追加:データセットから選択された特徴量をフィルターして含めます。
  • すべての特徴量を追加:データセットからすべての特徴量を含めます。
元のデータセットに存在する特徴量(列)のみを追加できますが、その特徴量はモデルの構築に使用された特徴量セットの一部である必要はありません。 派生した特徴量は含まれません
予測の説明を含める 予測の出力結果に 予測の説明のための列を追加します。
  • 説明数:デプロイ済みモデルにリクエストする説明の最大数を入力します。 予測リクエストごとに、100の説明をリクエストできます。
  • 予測のしきい値(低):このしきい値を有効化して定義し、設定したしきい値を下回るいずれかのの予測の説明を提供します。
  • 予測のしきい値(高):このしきい値を有効化して定義し、設定したしきい値を上回るいずれかのの予測の説明を提供します。
  • N-gramの説明数:データセットの行ごとに返すテキスト ngramの説明の最大数を有効にして定義します。 デフォルト(および推奨)設定は、すべて(制限なし)です。
予測の説明を有効にできない場合は、 予測の説明を有効にできない理由を参照してください。
クラス 予測の説明が有効な多クラスモデル_の場合、説明の計算に使用するクラスを選択する方法を制御します。
クラスオプションは以下のとおりです。
  • 予測値:予測値に基づいてクラスを選択します。 予測データセットの行ごとに、クラス数の値で設定されたクラス数に対して説明を計算します。
  • 実測:_トレーニングデータセットでの予測について
、既知の値であるクラスから説明を計算します。 各行について、「グラウンドトゥルース」であるクラスを説明します。
  • クラスのリスト:クラスのリストから1つ以上の特定のクラスを選択します。 各行について、 クラスのリストで選択されたクラスのみを説明します。
  • 予測間隔を含める _時系列モデル_の場合、モデルのバックテスト中に測定された残差誤差に基づいて、指定された間隔内にある予測値のみを含めます。

    Prediction intervals in DataRobot serverless prediction environments

    In a DataRobot serverless prediction environment, to make predictions with time-series prediction intervals included, you must include pre-computed prediction intervals when registering the model package. If you don't pre-compute prediction intervals, the deployment resulting from the registered model doesn't support enabling prediction intervals.

    予測の説明を有効にできないのはなぜですか?

    予測の説明を含めることができない場合、次の理由が考えられます。

    • モデルの検定パーティションに、必要な行数が含まれていません。

    • 統合されたモデルで、少なくとも1つのセグメントチャンピオンの検定パーティションに、必要な行数が含まれていません。 予測の説明を有効にするには、モデルパッケージやデプロイを作成する前に、再トレーニングしたチャンピオンを手動で置き換えてください。

    予測を計算およびダウンロード

    予測オプションを設定したら、予測を計算およびダウンロードをクリックしてデータのスコアリングを開始し、最近の予測をダウンロードでスコアリング結果を表示します。

    最近の予測をダウンロードリストから、次のことができます。

    • 予測ジョブの実行中に、閉じるアイコン()をクリックするとジョブを停止できます。

    • 予測ジョブが成功した場合は、ダウンロードアイコン()をクリックして予測ファイルをダウンロードするか、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。

      備考

      予測値は、予測計算時から48時間ダウンロード可能です。

    • 予測ジョブが失敗した場合は、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。


    更新しました 2024年12月6日