Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデル予測を作成する前に

このセクションでは、まだ展開されていないモデルに使用されるリーダーボード作成タブについて説明します。

備考

デプロイされたモデルの予測を行うには、デプロイメントにある予測を行うタブを使用します。

このセクションでは以下の説明も含まれます:

ヒント

時系列予測を行う場合、予測を作成タブの動作は、従来のモデリングとは若干異なります。予測の使用方法についてはこのページを引き続き参照し、時系列モデリング固有の詳細については、時系列に関するドキュメントを参照してください。

予測のワークフロー

新規データセットで予測を生成するには、下記の手順に従ってください。外部データセットでの予測の作成、または独自のトレーニングデータを使用した予測の作成の詳細については、以下を参照してください。

ヒント

特定のアップロード方法がクラスターで無効化されている場合があります。使用できない方法の取込みオプションはグレー表示されます(詳細については、システム管理者に問い合わせてください)。

予測を作成タブに表示される内容は、プロジェクトの種類に応じて若干異なります。二値分類プロジェクトには、連続値プロジェクトには適用できない予測しきい値設定が含まれます。

新しいモデルに関する予測を作成する

  1. リーダーボードで、予測を行いたいモデルを選択し、予測> 予測を作るをクリックします。

  2. そのモデルに対して実行するテストデータをアップロードします。画面上にファイルをドラッグ&ドロップするか、ファイルを選択をクリックすると、ローカルファイルのアップロード(ブラウズ)、URLの指定、設定済みのデータソースの選択(または新規作成)、AIカタログからのデータセットの選択ができます。データソースオプションを選択すると、データベースのログイン認証情報を求めるプロンプトが表示されます。

    ヒント

    上記の例では、二値分類プロジェクトのデータをインポートしています。連続値プロジェクトでは、予測しきい値(正のクラスへの割り当てのカットオフを決定する値)を設定する必要はないので、フィールドは表示されません。

  3. ファイルをアップロードしたら、選択したデータセットの予測を計算をクリックします。予測の計算ボタンが表示され、右のサイドバーにあるワーカーキューに表示されます。

  4. 予測が完了したら、ダウンロードに含める特徴量 (0/5)の下のフィールドをクリックして、予測データセットに最大5列まで追加することができます。列名の最初の数文字を入力します。名前が自動完入し、選択できます。さらに、列を追加してフィールドをクリックして、最初の数文字を入力し、、選択を入力し、選択できます。

    備考

    • 元のデータセットに存在している場合にのみ列を追加できます。列が、モデルを構築に使用される特徴量セットに含まれている必要はありません。
    • ダウンロードに含める特徴量(0/5)機能は、APIからは使用できません。

  5. 予測をダウンロードをクリックして、予測結果をCSVファイルに保存します。追加のデータセットに対する予測をアップロードして実行するには、ファイルを選択ドロップダウンメニューを使用します。予測データセットを削除するには、ゴミアイコンをクリックします。

外部データセットの予測の作成

モデルのパフォーマンスをよりよく評価するために、プロジェクトデータを準備してモデルをトレーニングした後、任意の数の追加のテストデータセットをアップロードできます。外部テストデータセットは次の1つです:

  • 実測値(ターゲットの値)が含まれます。
  • 元のデータセットの一部 ではない(その部分についてはトレーニングしなかった)。

外部テストデータセットを使用すると、精度と予測を比較できます。

外部データセットをアップロードして元のモデルのデータセットパーティションを使用することにより、デプロイ前に安定したパフォーマンスを確保するために指標スコアと可視化を比較できます。外部テストセットを、オリジナルのプロジェクトデータのパーティションのように選択することができます。外部テストセットのサポートは、教師あり時系列を除くすべてのプロジェクトタイプで利用できます。教師なし(異常検知)の時系列にも対応しています。

外部データセットに関する予測を作成するには:

  1. 予測データセットをアップロードする場合と同じ方法で新しいテストデータをアップロードします。教師あり学習の場合、外部セットには、ターゲット列とトレーニングデータセットに存在するすべての列が含まれている必要があります(ただし、追加の列を追加することができます)。異常検知プロジェクトのワークフローについては若干異なります。

  2. アップロードされると、データセット名の下に外部テストというラベルが表示されます。外部テストの実行をクリックすると、予測値が計算され、実際のターゲット値と予測値を比較する統計値が計算されます。外部テストはキューされ、右のサイドバーにあるワーカーキューに表示されます。

  3. 予測をダウンロードをクリックして、予測結果をCSVファイルに保存します。

  4. 外部テストのスコアを表示するには、「リーダーボード」メニューから外部テスト列を表示を選択します。

    リーダーボードに外部テスト列が表示されるようになりました。

  5. 外部テスト列から、結果を表示するテストデータを選択するか、外部テストを追加をクリックして予測を作成タブに戻って追加のテストデータを追加します。

    外部テストのスコアでモデルをソートしたり、より多くのモデルのスコアを計算することができるようになっています。

異常検知プロジェクトの実測値の提供

異常検知(非時系列)プロジェクトでは、予測結果と比較する結果を識別する実測値列を設定する必要があります。これは、予測を行うイベントの精度の尺度を提供します。予測データセットには、トレーニングセットと同じ列に加えて、少なくとも既知の異常値の1つの列が含まれる必要があります。既知の異常列を実測値として選択します。

外部テストセットとインサイトの比較

元のプロジェクトデータのパーティションの場合と同様にデータ選択ドロップダウンを展開します。

このオプションは、次のインサイトを使用しているときに使用できます。

以下の点に注意してください。

  • データセットの行数が10未満の場合、インサイトは計算されませんが、指標スコアが計算され、リーダーボードに表示されます。
  • ROC曲線は、クラスが1つしかない二値分類プロジェクトでは無効化されます。

トレーニングデータを予測する

リーズンはあるにしても)あまり一般的ではないケースとして、DataRobotが自動的にインポートする元のトレーニングデータ用に予測をダウンロードすることがあります。プルダウンから、予測を生成するときに使用するパーティションを選択します。

小さいデータセットの場合、予測の演算処理はスタックされた予測によって行われるので、すべてのパーティションが使用されます。これらの計算は、大規模なデータセット(デフォルトでは750MB以上)で実行するには「コストがかかりすぎる」ため、トレーニングに使用されていないデータであれば、ホールドアウトパーティションや検証パーティションに基づいて予測が行われます。

ドロップダウンオプション 小さいデータセットの説明 大きいデータセットの説明
すべてのデータ モデルのトレーニングに使用されたか、およびホールドアウトのロックが解除されているかどうかは関係なく、予測は、トレーニング、検定、およびホールドアウトパーティションに対して、スタックされた予測を行って計算されます。 利用できません
検定データとホールドアウト 予測は検定およびホールドアウトパーティションを使用して演算されます。トレーニングで検定が使用されていた場合、このオプションは無効化されます。 予測は検定およびホールドアウトパーティションを使用して演算されます。トレーニングで検定が使用された場合、またはホールドアウトパーティションなしでプロジェクトが作成された場合、このオプションは使用できません。
検定 ホールドアウトパーティションなしでプロジェクトが作成されている場合、このオプションは検定とホールドアウトオプションを置き換えます。 ホールドアウトパーティションなしでプロジェクトが作成されている場合、このオプションは検定とホールドアウトオプションを置き換えます。
ホールドアウト 予測はホールドアウトパーティションのみを使用して演算されます。ホールドアウトがトレーニングで使用されていた場合、このオプションは使用できません(すべてのデータのオプションが有効です)。 予測はホールドアウトパーティションのみを使用して演算されます。ホールドアウトがトレーニングで使用されていた場合、このデータセットで予測を行うことはできません。

備考

OTVプロジェクトの場合、ホールドアウトパーティションに関するモデルを使用してホールドアウト予測が生成されます。代わりにホールドアウトを外部テストデータセットとしてアップロードすると、バックテスト1のモデルを使って予測が生成されます。この場合、外部テストの予測とホールドアウトの予測は一致しません。

予測を計算をクリックして、既存のデータセットで選択したパーティションの予測を生成します。予値をダウンロードを選択すると、結果がCSVで保存されます。

備考

エクスポートされた結果のフィーPartitionルドには、クロスバリデーションパーティションのソースパーティション名またはフォールドナンバーが表示されます。値-2は、行が「廃棄」(TVHでは使用されない)を示します。これは、ターゲットが見つからない、パーティション列(日付/時刻、グループ、またはパーティション機能で分割されたプロジェクト)が見つからない、スマートダウンサンプリングが有効で、ダウンサンプリングの一環としてそれらの行がマジョリティークラスから破棄された、などの理由が考えられます。

スタックされた予測

何らかの操作を行わない限り、トレーニングデータからの予測は誤って高い精度を見せる傾向があります。、この問題に対処するために、DataRobotでは、スタックされた予測と呼ばれる技法をトレーニングデータセットに対して使用します。

スタックされた予測では、データの様々な複数のサブセット上に複数のモデルを構築します。行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。この方法により、各予測は効果的に「アウトオブサンプル」予測になります。パーティションおよびスタックされた予測の詳細な説明については、データパーティショニングの概要を参照してください。

ダウンロードされた予測の例を考えて見ます。

DataRobotでは、ホールドアウトパーティションが明示されます。検定パーティションには0としてラベルが設定されます。

予測にトレーニングデータを使用する理由とは?

一般的ではありませんが、元のトレーニングデータセットで予測を作成する場合があります。最も一般的に、大規模データセットでの使用が考えられます。大規模データセットに対してスタックされた予測を実行すると演算コストが高くなりすぎるので、予測の作成タブで検定パーティションおよびホールドアウトパーティションのデータを使用して予測をダウンロードすることができます(トレーニングで使用されていない場合)。

いくつかの使用例を以下に示します。

ソフトウェア開発者は、平均値ではなく、予測の完全な分布を把握する必要があります。データセットは大規模なので、スタックされた予測は使用できません。R APIを使用して毎週モデリングを行うことにより、ホールドアウトおよび検定の予測をローカルマシンにダウンロードしてRに読み込み、必要なレポートを生成します。

ロイス データサイエンティストは、社内の指標を使用した場合と全く同じモデルのスコアリングがDataRobotで再現できることを確認する必要があります。モデリング中にホールドアウトを指定してデータのパーティショニングを行います。モデリングが完了した後、ホールドアウトのロックを解除して上位モデルを選択し、ホールドアウトセットの予測を演算してダウンロードします。その後、その簡単な演習の予測と以前の複数月にわたる長期プロジェクトの結果を比較します。


更新しました April 1, 2022
Back to top