パーティション¶
DataRobotでは、モデル検定に使用する分割手法とパラメーターを選択できます。 デフォルトのオプションとして、データのサイズに基づいて「最適」なモデリング法が選択されます。 一般的にはデフォルトの選択のままにするのが推奨されますが、高度なオプションリンクを使用して、モデリング方法を変更できます。
パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 DataRobotは以下の分割手法をサポートしています(詳細は後で説明します)。
各分割手法の例については、参照ドキュメントを参照してください。
備考
開始画面で時間認識モデルを設定した場合、日付/時刻以外の全ての分割手法が無効になります。 また、すべてのパーティションタイプでスマートダウンサンプリングがサポートされているわけではありません。
検定には、K分割交差検定とトレーニング/検定/ホールドアウトの2種類の検定があります。 検定タイプの選択の詳細については、データパーティショニングの説明を参照してください。
モデル検定の設定¶
パーティショニングとモデル検定を使用するには、以下の一般的な手順に従います。
-
ターゲット特徴量(予測したい対象)を選択します。
-
特徴量を入力すると、高度なオプションリンクが使用可能になります。 選択内容を表示するには、そのリンクをクリックします。
-
パーティションセクションで、分割手法を選択および設定します。 (方法の詳細については下記を参照してください。) 例:
-
(次の設定でモデルを生成で)モデリングのオプションを選択します。 該当する場合は、ボックスに入力するか、スライダーを使用して、交差検定の分割数、検定の割合、およびホールドアウトの割合を変更します。 例:
使用可能な分割手法の詳細については、下記を参照してください。
パーティショニングの詳細¶
以下のセクションでは、分割手法に関する詳細な背景情報を提供します。 パーティショニングを設定する手順については、上記を参照してください。 スタックされた予測に関する情報と、DataRobotが検定パーティションを選択する方法も参照してください。
分割手法¶
検定タイプのセクションでは、データを使用してモデルを検定する方法について説明しています。以下のセクションでは、データをパーティション化するためのオプションについて説明します。 分割手法と検定タイプの選択は、ターゲット特徴量およびパーティション列に依存します。 つまり、すべての選択が常に表示されるわけでは無いということです。
パーティション特徴量および日付/時刻のパーティショニングを除く、全ての分割手法に関するモデル検定タイプの意味を以下の表に示します。 ボックスに入力するか、スライダーを使用して交差検定の分割の数、検定の割合、およびホールドアウトの割合を変更します。
モデリングオプション | 説明 |
---|---|
交差検定 | 分割数とホールドアウトの割合を指定します。 交差検定スコアは、個々のパーティションのスコアの平均値です。 |
トレーニング-検定-ホールドアウト | トレーニング、検定、ホールドアウト分割の割合を指定します。 |
ランダム分割(ランダム)¶
ランダム分割では、観測値(行)がトレーニング、検定、およびホールドアウトセットにランダムに割り当てられます。
列ベースの分割(パーティション特徴量)¶
パーティション特徴量オプションでは、この特徴量の値と検定パーティションの間で1対1のマッピングが作成されます。 それぞれの一意の値には独自のパーティションが割り当てられ、その値を含むすべての行がそのパーティションに配置されます。 date
はプロジェクトのターゲットとして選択できませんが、パーティション特徴量として選択できます。 選択する列または特徴量には、100以下の値が2つ以上必要です。1つの一意の値がある列または特徴量は使用できません。
25個以上の一意の値がある特徴量には「パーティション特徴量」オプションを使用することをお勧めします。 25個以上の一意の値がある特徴量の場合、グループ分割を使用します。
しかし、多くの一意の値を1つの新しい特徴量に手動で再グループ化して、そのデータで「パーティション特徴量」オプションを使用することができます。 たとえば、20,000の一意のユーザーIDを含む特徴量がある場合、これらのIDを25の領域にグループ化できます。 これらの領域は、1つの新しい特徴量として25の一意の値を表します。 これで、新しい特徴量で「パーティション特徴量」オプションを使用できます(これらの領域が20,000のユーザーIDに関連付けられます)。
また、推奨されるモデリング検定タイプは、特徴量に含まれる一意の値の数に応じて異なります。 パーティション特徴量に2~3の一意の値が含まれる場合、トレーニング/検定/ホールドアウト分割を使用します。 パーティション特徴量に含まれる一意の値の数が10~25程度の場合、交差検定を使用することをお勧めします。
パーティション特徴量のモデリング検定には、非常に異なる意味があります。
モデリングオプション | 説明 |
---|---|
交差検定 | ホールドアウトセットを指定する選択したパーティション列の値を設定します。 DataRobotでは、サンプルの数が最も多い分割が検定パーティション(リーダーボード内の計算された検定スコア)に使用されます。 交差検定スコア(ホールドアウトの一部ではないすべてのパーティション上で評価されます)は、これらの個々のスコアの平均値です。 パーティション列に含まれる値が3つよりも少ない場合、ホールドアウトセットは無効化されます。 |
トレーニング-検定-ホールドアウト | トレーニング、検定、ホールドアウトの場合、選択したパーティション列の値を設定します。 |
グループ分割(グループ)¶
グループ分割手法では、選択した特徴量に対して同じ単一の値を含むすべての行は同じトレーニングまたはテストセットに含まれることが保証されます。 各パーティションには特徴量の1つ以上の値を含めることができますが、個々の値はDataRobotによって自動的に一緒にグループ化されます。 グループID機能で情報的な結果が提供されない場合、エラーメッセージが表示されます。 グループ分割のために選択した特徴量が、選択した交差検定の分割数の3倍未満でカーディナリティがある場合にエラーが発生します。
25個以上の一意の値がある特徴量には「グループ分割」オプションを使用することをお勧めします。 一意の値の数が25未満の特徴量の場合、パーティション特徴量を使用します。 また、グループ分割には、均等に分散する一意の値のセットを使用することをお勧めします。
日付/時刻のパーティション¶
日付/時刻のパーティショニングでは、時間に基づいてパーティションを並べ替えることができます。日付/時刻のパーティショニングは、DataRobotの時間対応モデリング機能の一部です。 時間外検定(OTV)モデリングまた 時系列のセクションで、日付/時刻パーティションの詳細な説明を参照してください。
比パーセンテージ保存分割(層化抽出)¶
観測値データ(行)は、トレーニングデータ、検定、ホールドアウトセットにランダムに割り当てられ、元のデータと同じ(可能な限り近い)予測ターゲット値の比率が保持されます。 次の設定でモデルを生成が供試-検定-ホールドアウトに設定されている場合、各パーティションには同じ比率が割り当てられます。 交差検定に設定されている場合、比率は、1)各CVフォールド全体、および2)トレーニングパーティションとの両方で保持されます。 この選択は、ゼロブースト回帰問題と二値分類問題のために利用可能です。