Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

パーティショニングとモデル検定

DataRobotでは、モデル検定に使用する分割手法とパラメーターを選択できます。デフォルトのオプションとして、データのサイズに基づいて「最適」なモデリング法が選択されます。一般的にはデフォルトの選択のままにするのが推奨されますが、高度なオプションリンクを使用して、モデリング方法を変更できます。

パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集める」方法を示します。DataRobotは以下の分割手法をサポートしています(詳細は後で説明します)。

各分割手法の例については、参照ドキュメントを参照してください。

開始画面で時間認識モデルを設定した場合、日付/時刻 以外の 全ての分割手法が無効になります。また、すべてのパーティションタイプでスマートダウンサンプリングがサポートされているわけではありません。

検定タイプの選択には、K分割交差検定とトレーニング/検定/ホールドアウトの2種類があります。検定タイプの選択の詳細については、データパーティショニングの説明を参照してください。

モデル検定の設定

パーティショニングとモデル検定を使用するには、以下の一般的な手順に従います。

  1. ターゲット特徴量(予測したい対象)を選択します。

  2. 特徴量を入力すると、高度なオプションリンクが使用可能になります。選択内容を表示するには、そのリンクをクリックします。

  3. パーティションオプションセクションで、必要に応じて分割手法を選択および設定します。(方法は以下に説明します。)例:

  4. モデリングのオプション(次の設定でモデルを実行)を選択します。該当する場合は、ボックスに入力するか、スライダーを使用して、交差検定の分割数、検定の割合、およびホールドアウトの割合を変更します。例:

使用可能な分割手法の詳細については、下記を参照してください。

パーティショニングの詳細

以下のセクションでは、分割手法に関する詳細な背景情報を提供します。パーティショニングを設定する手順については、上記を参照してください。スタックされた予測の詳細およびDataRobotが検定パーティションを選択する方法については、予測の作成タブの詳細を参照してください。

分割手法

検定タイプのセクションは、検定モデルにデータを使用する方法を説明します。以下のセクションでは、データの分割のオプションを説明します。分割手法と検定型の選択は、ターゲット特徴量やパーティション列に依存することに注意してください。つまり、すべての選択が常に表示されるわけではないということです。

パーティション特徴量および日付/時刻のパーティショニングを除く、全ての分割手法に関するモデル検定タイプの意味を以下の表に示します。ボックスに入力するか、スライダーを使用して交差検定の分割の数、検定の割合、およびホールドアウトの割合を変更します。

モデリングオプション 説明
交差検定 分割数とホールドアウトの割合を指定します。交差検定スコアは、個々のパーティションのスコアの平均値です。
トレーニング-検定-ホールドアウト トレーニング、検定、ホールドアウト分割の割合を指定します。

ランダム分割(ランダム)

ランダム分割では、観測値(行)がトレーニング、検定、およびホールドアウトセットにランダムに割り当てられます。

列ベースの分割(パーティション特徴量)

パーティション特徴量オプションでは、この特徴量の値と検定パーティションの間で1対1のマッピングが作成されます。それぞれの一意の値には独自のパーティションが割り当てられ、その値を含むすべての行がそのパーティションに配置されます。dateはプロジェクトのターゲットとして選択できませんが、パーティション特徴量として選択できます。選択する列または特徴量には、100以下の値が2つ以上必要です。1つの一意の値がある列または特徴量は使用できません。

25個未満の一意の値がある特徴量の場合には、「パーティション特徴量」オプションを使用することをお勧めします。25個以上の一意の値がある特徴量の場合、グループ分割を使用します。

しかし、多くの一意の値を1つの新しい特徴量に手動で再グループ化して、そのデータで「パーティション特徴量」オプションを使用することができます。たとえば、20,000の一意のユーザーIDを含む特徴量がある場合、これらのIDを25の領域にグループ化できます。これらの領域は、1つの新しい特徴量として25の一意の値を表します。これで、新しい特徴量で「パーティション特徴量」オプションを使用できます(これらの領域が20,000のユーザーIDに関連付けられます)。

また、推奨されるモデリング検定タイプは、特徴量に含まれる一意の値の数に応じて異なります。パーティション特徴量に2~3の一意の値が含まれる場合、トレーニング/検定/ホールドアウト分割を使用します。パーティション特徴量に含まれる一意の値の数が10~25程度の場合、交差検定を使用することをお勧めします。

パーティション特徴量のモデリング検定の各タイプは、少し異なる意味を持っています。

モデリングオプション 説明
交差検定 ホールドアウトセットを指定する選択したパーティション列から値を選択します。DataRobotは、検定パーティションの最大数のサンプルと共に分割を使用します(リーダーボードに計算された検定スコアが表示されます)。交差検定スコア(ホールドアウトの一部ではないすべてのパーティション上で評価されます)は、これらの個々のスコアの平均値です。パーティション列に含まれる値が3つよりも少ない場合、ホールドアウトセットは無効化されます。
トレーニング-検定-ホールドアウト トレーニング、検定、ホールドアウトの場合、選択したパーティション列の値を設定します。

グループ分割(グループ)

グループ分割手法では、選択した特徴量に対して同じ単一の値を含むすべての行は同じトレーニングまたはテストセットに含まれることが保証されます。各パーティションにはその特徴量の1つ以上の値を含めることができますが、個々の値はDataRobotによって自動的に一緒にグループ化されます。グループID機能で有用な結果が提供されない場合、エラーメッセージが表示されます。グループ分割のために選択した特徴量が、選択したクロス検定分割の数の3倍未満でカーディナリティがある場合にエラーが発生します。

25個以上の一意の値がある特徴量にはグループ分割オプションを使用することをお勧めします。一意の値の数が25未満の特徴量の場合、パーティション特徴量を使用します。また、グループ分割には、均等に分散する一意の値のセットを使用することをお勧めします。

日付/時刻のパーティショニング

日付/時刻のパーティショニングでは、時間に基づいてパーティションを並べ替えることができます。日付/時刻のパーティショニングは、DataRobotの時間対応モデリング機能の一部です。時間外検定(OTV)として知られるこの手法は、開始画面の上部で設定します。この機能についての詳細は、日付/時刻のパーティショニングを参照してください。

比パーセンテージ保存分割(層化抽出)

観測値(行)は、元のデータと同じ予測ターゲットの値の比率を(できるだけ近くに)保持しつつ、トレーニング、検定、ホールドアウトのセットにランダムに割り当てられます。次の設定でモデルを生成トレーニング-検定-ホールドアウトに設定されている場合、各パーティションには同じ比率が割り当てられます。交差検定に設定されている場合、この比率は、1)各CVフォールド全体、および2)トレーニングパーティションとの比較の両方で保持されます。この選択は、ゼロブースト回帰問題と二値分類問題で利用可能です。


更新しました April 19, 2022
Back to top