早期ターゲットの選択¶
大きいデータセットのデータ取込みプロセスは、小さいセットに使用するプロセスと異なる場合があります。 (プロジェクトでEDA1を完了することで同様の処理を使用できます。) DataRobotがより大規模なセットに最適化すると、「高速(または予備)EDA」、次のようなEDA1プロセスのサブセットが起動します:
- データセットのインポートが開始されます。
- DataRobotが高速EDAの必要性を検出し、高速EDAを開始します。
- 高速EDAが完了すると、早期ターゲット選択を行うことのできる時間ウィンドウが表示されます。 このウィンドウは、高速EDAが完了してからEDA1が完了するまでの間のみ有効です。 したがって、小さいデータセット(200MB未満)の場合、ウィンドウは小さすぎてメリットがないことがあります。
- 早期ターゲット選択が有効化されている場合、完全なEDA1が実行されてデータがパーティション分割され、早期ターゲット選択のプロジェクト条件を使用してEDA2が開始されます。 早期ターゲット選択が有効化されていない場合、標準の取込みプロセスが再開します(ターゲットおよびオプションを選択して開始を選択します)。
ヒント
大きいデータセットで作業する場合、GLM、ENET、およびPLSアンサンブルモデルを作成することはできません。 中央値および平均アンサンブルは使用可能です。 また、高速EDAは、データセットの列が多すぎる場合や取込み中に使用するRAMが多すぎる場合などではEDAが無効化されます。
高速EDAの応用¶
高速EDAを使用できるのは、5MBよりも大きく、列数が10,000列未満のデータセットを使用する場合、およびデータの読み込みを開始したときに10秒が経過して取込み処理の進捗状況が75%未満である場合です。 取込み処理はDataRobotの内部処理なので、ステータスバーには異なるように表示されることがあります。 高速EDAでは、予備EDA1結果を表示し、アップロードが開始して間もなくの時点および取込み中にデータを確認できます。 高速EDAが完了した後、DataRobotではEDA1が完全に完了するまで演算処理が続けられます。
高速EDAでは以下のことが可能になるので、大きなデータセットで特に便利です。
- 取込み中にデータを確認できます。 これは大規模データセットで作業する場合に特に便利です。 たとえば、10GBのファイルの取込みに15分かかる場合でも、高速EDAでは、はるかにすばやくデータ情報を表示できます。
- 早期ターゲット選択(下記参照)を使用して、アップロード処理の早い段階でターゲット特徴量の設定と高度なオプションの設定を行うことができます。
備考
高速EDAは、ランダムサンプリングではなくデータセットの最初のX行で計算されます。
高速EDAと早期ターゲット選択¶
高速EDAは早期ターゲット選択の前処理と考えることができます。 ターゲットを選択すると、プロジェクトオプション(パーティショニング、ダウンサンプリング、ワーカーの数など)が高速EDAデータに基づくデフォルト値に設定されます。 オプションを変更して保存した後、完全なEDA1の完了時にプロジェクトが自動的に開始するよう設定できます。何度も取込みの完了を確認する必要がなくなるので、非常に大きなデータセットの場合に時間を節約できます。 設定や取込みに何らかのエラーが発生した場合、エラーに関するメッセージがEメールで通知されます(システムで設定されている場合)。 ターゲットと詳細オプションを設定した後、プロジェクトの選択内容はブラウザーを閉じてもDataRobotに保存されます。
高速EDAの完了時に以下の要素を設定できます。
以下の操作はEDA1が完了するまで行わないでください。
早期ターゲット選択の適用¶
早期ターゲット選択を使用するには、開始画面の右側にあるサイドバーに表示される処理ステータスに注意します。 高速EDAは取込みプロセスの一部ですが、データセットが小さすぎて早期ターゲット選択のメリットがない場合、これらの選択を変更することができず、EDA1が完了します。 早期ターゲット選択をプロジェクトで使用できる場合、開始画面に早期ターゲット選択がオプションであることが示されます。
早期ターゲット選択を使うには:
-
DataRobotにデータセットをインポートします。
-
高速EDAが完了すると(完全なEDA1プロセスが始まる前)、ターゲット特徴量を入力することができます。 データを下にスクロールすると、予備結果に使用されたデータのおおよその量を示す黄色の情報メッセージがあります。
備考
この情報メッセージはEDA1が完了すると消えます。
-
ターゲット特徴量を入力します。 データページに自動開始トグルが表示されます。
-
高度なオプションを表示リンクをクリックして、追加パラメーターを設定します。
-
モデル構築プロセスを自動的に開始するには、オートスタートに切り替えてモデリングモードを選択します。
完全なEDA1が完了すると、ユーザーが設定した条件を使用してモデル構築プロセスが開始されます。
詳しい情報...¶
大きいデータセットで作業する場合、一部の動作が異なることがあります。
検定およびホールドアウトへのトレーニング¶
モデルをトレーニングする際、検定またはホールドアウトセットにトレーニングした場合、これらのスコアはリーダーボードでN/A
を示します。
大きいデータセットの場合、モデルを検定/ホールドアウトにトレーニングすると内部の交差検定が無効になります。 800MBを超える場合、DataRobotでは、デフォルトの検定手法としてTVHが使用されます。 この理由は、検定/ホールドアウト行がトレーニングモデルに使用されるので、スコアは、未処理のデータにおけるモデルパフォーマンスの正確な表現ではない可能性が高い(したがってN/A
)からです。
N/A
を示すモデルに関する追加の考慮事項:
- これらのモデルは、 学習曲線および速度対精度タブに表示されません。
- リフトチャート、および 特徴量ごとの作用タブは使用できません。
- 予測を作成タブを使用して予測を計算できません。
- DataRobot Primeは実行できません。
モデルサンプルサイズの変更¶
モデルサンプルサイズは、リーダーボードまたはリポジトリのいずれかから変更できます。 また、アンサンブルモデルのサンプルサイズを変更することはできません。 アンサンブルのサンプルサイズを変更する場合は、以下の手順に従います。
- 各構成モデルを新しいサンプルサイズで再トレーニングします。
- 構成モデルから新しいアンサンブルを作成します。
メッセージの理解¶
DataRobotでは、早期ターゲット選択で表示および使用される暫定データの解釈に役立つ通知が提供されます。 例:
ターゲットを設定した後、(二値分類やゼロブースト回帰の問題で)スマートダウンサンプリング設定を使用することができます。 この機能に関する通知は、DataRobotがモデリングで使用するデータのサブセットを行数で示します。 高度なオプションの値は変更することができます。
データセットの通知は、データセットでターゲット特徴量が欠損している行の数(モデル構築/予測から除外される行の数)を示します。
さらに、DataRobotがデータセットのサブセットのパーティショニング設定の基準として暫定演算を使用する場合、オートスタートはパーティショニングエラーを返します。 パーティショニング列のカーディナリティが指定範囲外にある場合、オートスタートはエラーを返します。