予測の作成¶
エクスペリメントを作成し、モデルをトレーニングしたら、それらのモデルを検証するために、新しいデータ、登録されたデータ、またはトレーニングデータで予測を行うことができます。
ワークベンチエクスペリメントのモデルで予測を行うには:
-
モデルリストからモデルを選択してから、モデルアクション 予測を作成をクリックします。
-
On the Make Predictions page, upload a Prediction source, drag a file into the Prediction dataset box, or click Choose file and select one of the following:
アップロード方法 説明 ローカルファイルをアップロード Select a file from your local filesystem to upload that dataset for predictions. モデルのトレーニングデータを使用 Select a portion of the training data to use as a prediction dataset. データレジストリ Select a file previously uploaded to the data registry. ラングラー(プレビュー) If you have enabled the wrangler batch predictions preview feature, select a file wrangled in Workbench. In your local filesystem, select a dataset file, and then click Open.
予測データセットをアップロードすると、完全にアップロードされた後にAIカタログに自動的に保存されます。 アップロードが完了する前にページから移動しないようにしてください。そうしないと、データセットがカタログに保存されません。 アップロードした後まだデータセットが処理中の場合、使用可能になる前に、データセットに対してDataRobotが EDAを実行中であることを意味します。
プロジェクトのタイプに応じて、以下のオプションのいずれかを選択します。
プロジェクトタイプ オプション AutoML 以下のトレーニングデータオプションのいずれかを選択します。 - 検定
- ホールドアウト
- すべてのデータ
OTV/時系列 以下のトレーニングデータオプションのいずれかを選択します。 - すべてのバックテスト
- ホールドアウト
インサンプル予測のリスク
選択したオプションとモデルがトレーニングされたサンプルサイズによっては、トレーニングデータで予測するとインサンプル予測が生成されることがあります。つまり、モデルはトレーニング中にターゲット値が見えており、その予測は必ずしも十分に一般化できるとは限りません。 DataRobotでは、1つ以上のトレーニング行が予測に使用されていると判断された場合、オーバーフィットのリスク警告が表示されます。 これらの予測は、モデルの精度を評価するために使用すべきではありません。
In the Select a dataset panel, click a dataset, and then click Confirm.
本機能の提供について
Wrangler Recipes for Batch Prediction Jobs are off by default and only support data wrangled from a Snowflake data connection. この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:バッチ予測ジョブでラングラーレシピを有効にする、ワークベンチでのレシピ管理を有効にする
In the Select a recipe panel, click a dataset wrangled from a Snowflake data connection, and then click Confirm.
時系列データ要件
時系列モデルで予測を作成するには、特定の形式のデータセットが必要です。 形式は時系列プロジェクトの設定に基づきます。 予測データセットに正しい履歴行、予測行、および事前に既知の特徴量が含まれていることを確認します。 さらに、DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。
- 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
- 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートして、古い順に表示します。
DataRobotがサポートする系列の数には制限はありません。 制限に記載されているように、唯一の制限はジョブのタイムアウトです。 データセットの例については、スコアリングデータセットの要件をご覧ください。
If you select the wrong dataset, you can remove your selection from the Prediction source setting by clicking the delete icon ().
-
次に、予測オプションを設定して(時系列モデルの場合は、時系列オプションを設定することもできます)、予測を計算します。
時系列オプションの設定¶
時系列オプションの利用について
予測ソースとしてモデルのトレーニングデータを使用を選択した場合、時系列オプションを設定することはできません。
形式が適切な時系列予測データセットで予測ソースを設定したら、時系列オプションセクションで時系列固有の設定を行うことができます。 予測ポイントの下で、選択方法を選択し、予測を開始する日付を定義します。
-
自動的に設定:DataRobotはターゲット値を含む最新の日付を選択し、FDWオフセットを追加します。
-
手動で設定:指定された予測ソースから、DataRobotが検出した日付範囲内の予測ポイントを選択します(例:「
2012-07-05
から2014-06-20
までの日付を選択」)。
さらに、高度なオプションを表示をクリックし、事前に既知の列の欠損値を無視するを有効にすると、指定されたソースデータセットの事前に既知の列で欠損値があっても、予測を行うことができます。ただし、これは計算された予測に悪影響を及ぼす可能性があります。
予測オプションの設定¶
予測ソースを設定したら、予測オプションセクションでオプション設定を行うことができます。
設定 | 説明 |
---|---|
予測結果に追加の特徴量値を含める | 選択オプションに基づいて、入力特徴量(列)を予測値と一緒に予測結果ファイルに含めます。
|
予測間隔を含める | _時系列モデル_の場合、モデルのバックテスト中に測定された残差誤差に基づいて、指定された間隔内にある予測値のみを含めます。 |
備考
追加できるのは元のデータセットに存在する特徴量(列)だけですが、その特徴量は、モデルの構築に使用した特徴量セットの一部である必要はありません。 派生した特徴量は含まれません。
予測を計算およびダウンロード¶
予測オプションを設定したら、予測を計算およびダウンロードをクリックしてデータのスコアリングを開始し、最近の予測をダウンロードでスコアリング結果を表示します。
最近の予測をダウンロードリストから、次のことができます。
-
予測ジョブの実行中に、閉じるアイコン()をクリックするとジョブを停止できます。
-
予測ジョブが成功した場合は、ダウンロードアイコン()をクリックして予測ファイルをダウンロードするか、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。
備考
予測値は、予測計算時から48時間ダウンロード可能です。
-
予測ジョブが失敗した場合は、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。