Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

Predictions on test and training data

Use the Make Predictions tab to make predictions and assess model performance prior to deployment. You can make predictions on an external test dataset (i.e., external holdout) or you can make predictions on training data (i.e., validation and/or holdout).

Make predictions on an external test dataset

モデルのパフォーマンスをよりよく評価するために、プロジェクトデータを準備してモデルをトレーニングした後、任意の数の追加のテストデータセットをアップロードできます。 外部テストデータセットは次の1つです。

  • 実測値(ターゲットの値)が含まれます。

  • 元のデータセットの一部 ではない (その部分についてはトレーニングしなかった)。

外部テストデータセットを使用すると、精度と予測を比較できます。

外部データセットをアップロードして元のモデルのデータセットパーティションを使用することにより、精度指標やvisualizationを比較でき、デプロイ前に安定したパフォーマンスを確保することができます。 元のプロジェクトデータのパーティションの場合と同様に外部テストセットを選択します。 外部テストセットのサポートは、教師あり時系列を除くすべてのプロジェクトタイプで利用できます。 教師なし(異常検知)の時系列にも対応しています。

To make predictions on an external test set:

  1. 予測データセットをアップロードする場合と同じ方法で新しいテストデータをアップロードします 。 教師あり学習の場合、外部セットには、ターゲット列とトレーニングデータセットに存在するすべての列が含まれている必要があります(ただし、追加の列を追加することができます)。 異常検知プロジェクトのワークフローについては若干異なります。

  2. アップロードされると、データセット名の下に外部テストというラベルが表示されます。 外部テストの実行をクリックすると、予測値が計算され、実際のターゲット値と予測値を比較する統計値が計算されます。 外部テストはキューされ、右のサイドバーにあるワーカーキューに表示されます。

  3. 予測をダウンロードをクリックして、予測結果をCSVファイルに保存します。

    備考

    In a binary classification project, when you click Run external test, the current value of the Prediction Threshold is used for computation of the predicted labels. In the downloaded predictions, the labels correspond to that threshold, even if you updated the threshold between computing and downloading. DataRobot displays the threshold that was used in the calculation in the dataset listing.

  4. 外部テストのスコアを表示するには、「リーダーボード」メニューから外部テスト列を表示を選択します。

    リーダーボードに外部テスト列が表示されるようになりました。

  5. 外部テスト列から、結果を表示するテストデータを選択するか、外部テストを追加をクリックして予測を作成タブに戻って追加のテストデータを追加します。

    外部テストのスコアでモデルをソートしたり、より多くのモデルのスコアを計算することができるようになっています。

異常検知プロジェクトの実測値の提供

異常検知(非時系列)プロジェクトでは、予測結果と比較する結果を識別する実測値列を設定する必要があります。 これは、予測を行うイベントの精度の尺度を提供します。 予測データセットには、トレーニングセットと同じ列に加えて、少なくとも既知の異常値の1つの列が含まれる必要があります。 既知の異常列を実績値として選択します。

外部テストセットとインサイトの比較

元のプロジェクトデータのパーティションの場合と同様にデータ選択ドロップダウンを展開します。

このオプションは、次のインサイトを使用しているときに使用できます。

以下の点に注意してください。

  • Insights are not computed if an external dataset has fewer than 10 rows; however, metric scores are computed and displayed on the Leaderboard.

  • The ROC Curve insight is disabled if the external dataset only contains single class actuals.

Make predictions on training data

リーズンはあるにしても)あまり一般的ではないケースとして、DataRobotが自動的にインポートする元のトレーニングデータ用に予測をダウンロードすることがあります。 プルダウンから、予測を生成するときに使用するパーティションを選択します。

小さいデータセットの場合、予測の演算処理はスタックされた予測によって行われるので、すべてのパーティションが使用されます。 これらの計算は、大規模なデータセット(デフォルトでは750MB以上)で実行するには「コストがかかりすぎる」ため、トレーニングに使用されていないデータであれば、ホールドアウトパーティションや検証パーティションに基づいて予測が行われます。

ドロップダウンオプション 小さいデータセットの説明 大きいデータセットの説明
すべてのデータ モデルのトレーニングに使用されたか、およびホールドアウトのロックが解除されているかどうかは関係なく、予測は、トレーニング、検定、およびホールドアウトパーティションに対して、スタックされた予測を行って計算されます。 使用できません
検定データとホールドアウト 予測は検定およびホールドアウトパーティションを使用して演算されます。 トレーニングで検定が使用されていた場合、このオプションは無効化されます。 予測は検定およびホールドアウトパーティションを使用して演算されます。 トレーニングで検定が使用された場合、またはホールドアウトパーティションなしでプロジェクトが作成された場合、このオプションは使用できません。
検定 ホールドアウトパーティションなしでプロジェクトが作成されている場合、このオプションは検定とホールドアウトオプションを置き換えます。 ホールドアウトパーティションなしでプロジェクトが作成されている場合、このオプションは検定とホールドアウトオプションを置き換えます。
ホールドアウト 予測はホールドアウトパーティションのみを使用して演算されます。 ホールドアウトがトレーニングで使用されていた場合、このオプションは使用できません(すべてのデータのオプションが有効です)。 予測はホールドアウトパーティションのみを使用して演算されます。 ホールドアウトがトレーニングで使用されていた場合、このデータセットで予測を行うことはできません。

備考

OTVプロジェクトの場合、ホールドアウトパーティションで再トレーニングされたモデルを使用してホールドアウト予測を生成します。 代わりに、ホールドアウトを外部テストデータセットとしてアップロードすると、バックテスト1のモデルを使用して予測を生成します。この場合、外部テストからの予測はホールドアウト予測と一致しません。

予測を計算をクリックして、既存のデータセットで選択したパーティションの予測を生成します。 予測値をダウンロードを選択すると、結果がCSVで保存されます。

備考

エクスポートされた結果のPartitionフィールドには、交差検定パーティションのソースパーティション名またはフォールドナンバーが表示されます。 この値-2は行が「破棄された」ことを示します(TVHでは使用されません)。 ターゲットが欠損している、パーティション列(日付/時刻、グループ、またはパーティション特徴量で分割されたプロジェクト)が欠損している、スマートダウンサンプリングが有効で、ダウンサンプリングの一環としてそれらの行がマジョリティークラスから破棄された、などの理由が考えられます。

スタック予測

何らかの操作を行わない限り、トレーニングデータからの予測は誤って高い精度を見せる傾向があります。 この問題に対処するために、DataRobotでは、スタックされた予測と呼ばれる技法をトレーニングデータセットに対して使用します。

スタックされた予測では、データの様々な複数のサブセット上に複数のモデルを構築します。 行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。 この方法により、各予測は効果的に「アウトオブサンプル」予測になります。 パーティションの詳細な説明については、 データパーティショニングの概要を参照してください。

ダウンロードされた予測値のサンプルを見てみましょう。


DataRobotでは、ホールドアウトパーティションが明示されます。 検定パーティションには0としてラベルが設定されます。

予測にトレーニングデータを使用する理由とは?

一般的ではありませんが、元のトレーニングデータセットで予測を作成する場合があります。 最も一般的に、大規模データセットでの使用が考えられます。 大規模データセットに対してスタックされた予測を実行すると演算コストが高くなりすぎるので、予測の作成タブで検定パーティションおよびホールドアウトパーティションのデータを使用して予測をダウンロードすることができます(トレーニングで使用されていない場合)。

いくつかの使用例を以下に示します。

ソフトウェア開発者は、平均値ではなく、予測の完全な分布を把握する必要があります。 データセットは大規模なので、スタックされた予測は使用できません。 R APIを使用して毎週モデリングを行うことにより、ホールドアウトおよび検定の予測をローカルマシンにダウンロードしてRに読み込み、必要なレポートを生成します。

データサイエンティストは、社内の指標を使用した場合と全く同じモデルのスコアリングがDataRobotで再現できることを確認する必要があります。 モデリング中にホールドアウトを指定してデータのパーティショニングを行います。 モデリングが完了した後、ホールドアウトのロックを解除して上位モデルを選択し、ホールドアウトセットの予測を演算してダウンロードします。 その後、その簡単な演習の予測と以前の複数月にわたる長期プロジェクトの結果を比較します。


更新しました March 9, 2023
Back to top