フローズン実行¶
サンプルデータでモデルのパフォーマンスチューニングをするため、DataRobotは多くのパラメーターの組み合わせを体系立てて適用し、最適なモデルの探索を徐々に絞り込みます。 しかしながら多くのパラメーターの組み合わせを試すことはコストがかかります。 サンプルサイズが増えるにつれ、各モデルに最適なハイパーパラメーター設定を見つけるためのグリッド検索に必要な時間は飛躍的に増加します。
DataRobotの「フローズン実行」機能は、初期の小さなサンプルサイズに基づく実行によって得られたパラメーター設定を「固定」することで、この問題を解決します。 より小さなサンプルに基づくパラメーター設定であっても、同じデータのより大きなサンプルに対して機能する傾向があるため、DataRobotは初期段階の実験をうまく活用しています。 初期段階で成功したパラメーター設定を活用し、トレーニングを実施したかのように新しいモデルへ投入することで、モデルの精度やパフォーマンスが大きく損なわれることなく、時間、RAMおよびCPUリソースを節約できます。 このようにリソースを節約することは、巨大なデータセットを扱う場合やリソースに制限のあるシステムで作業する場合においては特に重要です。
大規模データセット(1.5GB以上)でコストのかかる実行を避けるため、各リーダーボードモデルに対しては「フローズン実行」でサンプル割合だけを変更させた実行が可能です。 スマートダウンサンプリングを使用している場合、サブサンプリング後にデータセットのサイズにしきい値が適用されます。
フローズン実行の開始¶
パラメーターのフローズン実行は、以前に決定されたパラメーターに依存するため、リーダーボード上の既存モデルからのみ起動することができます。 フローズン実行機能を使うには以下の手順に従います。
-
オートパイロットを実行するか、手動モードでモデルを構築します。 妥当な時間(ご利用のシステムリソースとデータセットによります)で完了するサンプルサイズを使用しますが、パラメーター最適化検索が適切なパラメーター値を識別できないほど小さいサイズは避けます。
-
モデルの構築が完了したら、モデルのリーダーボードを開きます。
-
より多くのデータを用いてモデルを再実行したい場合は、表示されたサンプルサイズの横にあるプラス記号をクリックします。
-
新しいサンプルサイズを設定し、スノーフレークアイコンをクリックします。
次のいずれかの方法を使用して、サンプルサイズを更新します。
- 割合値(パーセントフィールド)または行数(行数フィールド)を入力します。
- スライダーを使用して、視覚的なインジケーターに基づいて値を設定します。
- 実行先ボックスをクリックして、トレーニングおよびその他の重要な値に使用されるデフォルトの割合にすばやくアクセスします。
備考
行数が多いプロジェクトでモデルを再トレーニングするようにサンプルサイズを設定する場合、DataRobotは、パーセンテージの代わりに整数行数または検証にスナップオプションを使用して、サンプルサイズを要求することをお勧めします。 これは、パーセンテージが可能な限り多くの行数にマッピングされ、そのうちの1つだけが「検証できる」実際のサンプルサイズであるためです。たとえば、199,408行のプロジェクトがあり、64%のサンプルサイズを要求した場合、126,625行から128,618行までの任意の数の行がデータの「64%」にマッピングされます。 整数の行数または「スナップ先」オプションを使用すると、モデルで使用するデータの行数に関するあいまいさを回避できます。
サンプルサイズを更新すると、すべての値が調整されます。
-
新しいサンプルサイズで実行をクリックして、新しく設定したサンプルサイズで選択したモデルのパラメーター設定を使用して、モデルの構築を開始します。
フローズン実行されたリーダーボード上のモデルは、スノーフレークアイコンで示され、パラメーターを取得するために使用されるサンプルデータの割合(%)が、そのアイコンの隣に表示されます。
フローズン実行モデルの比較¶
モデルの作成が完了したら、その処理速度とリソースを改善することが精度変化に伴う潜在的コスト増に値するかどうかを判断する必要があります。 新しいモデルは、リーダーボードに表示されます。
- スノーフレーク(1):このアイコンおよび割合(%)は、モデルが、モデルの64%サンプルサイズバージョンの“固定”パラメーター設定に基づいていることを示します。
- サンプルサイズ(2):サンプルサイズとは、いつものように、モデルを作成する際に使用されたトレーニングデータセットの割合(%)を示します。 この例では、50%に再トレーニングされた64%のモデルを示します。
以下を比較します。
モデル間の精度を比較するには、測定したい値に指標を設定し、検定スコアを確認します。
新たに作成したモデルをクリックし、モデル情報をクリックします。 結果のページには、コア使用、RAM、作成時間およびその他の統計情報を示したリソース使用状況のサマリーと共に、サンプルとモデルファイルのサイズの詳細も表示されます。
これらの画面の情報を、速度と精度の要件という両方の観点から比較してください。
モデル情報タブ(スマートダウンサンプリングプロジェクト)の下にあるサンプルサイズタイルの行数(「行」)は、ダウンサンプリング後の行数を示します。 しかし、トレーニングデータおよびテストデータのサイズには、ダウンサンプリング前の行数がリストされます。