予測の作成¶
エクスペリメントを作成し、モデルをトレーニングしたら、それらのモデルを検証するために、新しいデータ、登録されたデータ、またはトレーニングデータで予測を行うことができます。
ワークベンチエクスペリメントのモデルで予測を行うには:
-
モデルリストからモデルを選択してから、モデルアクション 予測を作成をクリックします。
-
予測を作成ページで、予測ソースをアップロードするか、ファイルを予測データセットボックスにドラッグするか、またはファイルを選択をクリックして次のいずれかを選択します。
アップロード方法 説明 ローカルファイルをアップロード ローカルファイルシステムからファイルを選択して、データセットをアップロードして予測を行います。 モデルのトレーニングデータを使用 予測データセットとして使用するトレーニングデータの一部を選択します。 データレジストリ 以前、データレジストリにアップロードされたファイルを選択します。 ラングラー(プレビュー) プレビュー機能であるラングラーバッチ予測を有効にした場合、ワークベンチで ラングリングされたファイルを選択します。 ローカルファイルシステムで、データセットファイルを選択し、開くをクリックします。
予測データセットをアップロードすると、完全にアップロードされた後にAIカタログに自動的に保存されます。 アップロードが完了する前にページから移動しないようにしてください。そうしないと、データセットがカタログに保存されません。 アップロードした後まだデータセットが処理中の場合、使用可能になる前に、データセットに対してDataRobotが EDAを実行中であることを意味します。
プロジェクトのタイプに応じて、以下のオプションのいずれかを選択します。
プロジェクトタイプ オプション AutoML 以下のトレーニングデータオプションのいずれかを選択します。 - 検定
- ホールドアウト
- すべてのデータ
OTV/時系列 以下のトレーニングデータオプションのいずれかを選択します。 - すべてのバックテスト
- ホールドアウト
インサンプル予測のリスク
選択したオプションとモデルがトレーニングされたサンプルサイズによっては、トレーニングデータで予測するとインサンプル予測が生成されることがあります。つまり、モデルはトレーニング中にターゲット値が見えており、その予測は必ずしも十分に一般化できるとは限りません。 DataRobotでは、1つ以上のトレーニング行が予測に使用されていると判断された場合、オーバーフィットのリスク警告が表示されます。 これらの予測は、モデルの精度を評価するために使用すべきではありません。
データセットを選択パネルで、データセットをクリックしてから確認をクリックします。
Wrangler data connection
Wrangler recipes for batch prediction jobs only support data wrangled from a Snowflake data connection.
レシピを選択パネルで、 Snowflakeのデータ接続から ラングリングされたデータセットをクリックし、確認をクリックします。
時系列データ要件
時系列モデルで予測を作成するには、特定の形式のデータセットが必要です。 形式は時系列プロジェクトの設定に基づきます。 予測データセットに正しい履歴行、予測行、および事前に既知の特徴量が含まれていることを確認します。 さらに、DataRobotが時系列データを確実に処理できるようにするには、次の要件を満たすようにデータセットを設定してください。
- 予測行をタイムスタンプでソートします。最も古い行が最初に表示されます。
- 複数系列では、予測行を系列IDでソートし、さらにタイムスタンプでソートして、古い順に表示します。
DataRobotがサポートする系列の数には制限はありません。 制限に記載されているように、唯一の制限はジョブのタイムアウトです。 データセットの例については、スコアリングデータセットの要件をご覧ください。
間違ったデータセットを選択した場合、削除アイコン()をクリックして、予測ソース設定から選択を削除できます。
-
次に、予測オプションを設定して(時系列モデルの場合は、時系列オプションを設定することもできます)、予測を計算します。
時系列オプションの設定¶
時系列オプションの利用について
予測ソースとしてモデルのトレーニングデータを使用を選択した場合、時系列オプションを設定することはできません。
形式が適切な時系列予測データセットで予測ソースを設定したら、時系列オプションセクションで時系列固有の設定を行うことができます。 予測ポイントの下で、選択方法を選択し、予測を開始する日付を定義します。
-
自動的に設定:DataRobotはターゲット値を含む最新の日付を選択し、FDWオフセットを追加します。
-
手動で設定:指定された予測ソースから、DataRobotが検出した日付範囲内の予測ポイントを選択します(例:「
2012-07-05
から2014-06-20
までの日付を選択」)。
さらに、高度なオプションを表示をクリックし、事前に既知の列の欠損値を無視するを有効にすると、指定されたソースデータセットの事前に既知の列で欠損値があっても、予測を行うことができます。ただし、これは計算された予測に悪影響を及ぼす可能性があります。
予測オプションの設定¶
予測ソースを設定したら、予測オプションセクションでオプション設定を行うことができます。
設定 | 説明 |
---|---|
予測結果に追加の特徴量値を含める | 選択オプションに基づいて、入力特徴量(列)を予測値と一緒に予測結果ファイルに含めます。
|
予測の説明を含める | 予測の出力結果に 予測の説明のための列を追加します。
|
クラス | 予測の説明が有効な多クラスモデル_の場合、説明の計算に使用するクラスを選択する方法を制御します。 クラスオプションは以下のとおりです。
|
予測間隔を含める | _時系列モデル_の場合、モデルのバックテスト中に測定された残差誤差に基づいて、指定された間隔内にある予測値のみを含めます。 |
予測の説明を有効にできないのはなぜですか?
予測の説明を含めることができない場合、次の理由が考えられます。
-
モデルの検定パーティションに、必要な行数が含まれていません。
-
統合されたモデルで、少なくとも1つのセグメントチャンピオンの検定パーティションに、必要な行数が含まれていません。 予測の説明を有効にするには、モデルパッケージやデプロイを作成する前に、再トレーニングしたチャンピオンを手動で置き換えてください。
予測を計算およびダウンロード¶
予測オプションを設定したら、予測を計算およびダウンロードをクリックしてデータのスコアリングを開始し、最近の予測をダウンロードでスコアリング結果を表示します。
最近の予測をダウンロードリストから、次のことができます。
-
予測ジョブの実行中に、閉じるアイコン()をクリックするとジョブを停止できます。
-
予測ジョブが成功した場合は、ダウンロードアイコン()をクリックして予測ファイルをダウンロードするか、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。
備考
予測値は、予測計算時から48時間ダウンロード可能です。
-
予測ジョブが失敗した場合は、ログアイコン()をクリックして実行の詳細を表示し、必要に応じてコピーします。