モデルリポジトリ¶
リポジトリは、選択したプロジェクトで使用できるモデリングブループリントのライブラリです。 これらのブループリントは、モデル自体ではなく、モデルの構築に使用されるアルゴリズム(前処理のステップ、選択された推定量、および一部のモデルでは後処理も)を示しています。 リポジトリにリストされているモデルは、必ずしもビルドされているとは限りませんが、任意のモデリングモードでビルドできます。 手動モードでプロジェクトを作成し、特定のブループリントを選択して実行するには、リポジトリから目的のブループリントにアクセスします。
モデリングモードとしてオートパイロットを選択すると、DataRobotは、精度と実行時間のバランスが良いモデルのサンプルを実行します。 改善の可能性がある一方で実行時間が長くなる可能性のあるブループリント(たとえば、多くのディープラーニングモデル)は、リポジトリから入手できますが、オートパイロットの一部として実行されるわけではありません。
オートパイロットを実行し、データで最も上手く実行されるブループリント(アルゴリズム)を把握し、リポジトリ内のすべてのバリエーションのアルゴリズムを実行することをおすすめします。 包括モードは、リポジトリからすべてのモデルを最大サンプルサイズで実行します。これは、非常に時間がかかる可能性があります。
リポジトリから次の操作を行うことができます。
- 検索を実行して、タイプ別に表示されるモデルのリストを絞り込む。
- プレビューを使用してモデルのブループリントまたはコードを表示する。
- 新しいパラメーターを使用してモデル実行を開始する。
- 選択したすべてに適用される新しいパラメーターを使用して、バッチ実行を開始する。
リポジトリの検索¶
以下で説明するモデルタイプの1つを簡単に見つけたり、モデルタイプで並べ替えるには、次の検索機能を使用します。
検索ボックス内をクリックして、モデル/ブループリントファミリー、ブループリント名、またはバッジ名を入力します。 入力すると、検索条件を満たすブループリントにリストが自動的に絞り込まれます。 完全なモデルリストに戻るには、検索ボックスの文字をすべて消去します。
DataRobotモデル¶
DataRobotモデルは、大量の並列処理を使用して構築されており、主にオープンソースアルゴリズムをベースにした何千もの選択肢をトレーニングし、評価しています(オープンソースには最良のアルゴリズムがいくつかあります)。 DataRobotは、アルゴリズム、前処理のステップ、特徴量の変換、チューニングパラメーターの数百万の可能な組み合わせを探索して、データセットと予測ターゲットに最適なモデルを提供します。 可能な限り最良のモデルを生成するのは、この前処理とチューニングです。 DataRobotモデルにはDataRobotアイコンが表示されます。
DataRobotモデルのリスト
検索用語datarobot model
を使用して、リポジトリ(またはリーダーボード)からDataRobotモデルのリストを表示できます。
新しいモデルの作成¶
リポジトリから新しいモデルを作成するには:
-
名前の横にあるチェックボックスをオンにして、実行するブループリントを選択します。
-
選択した後、有効になったダイアログボックスでフィールドを変更します。
要素 説明 1 使用する特徴量セット ドロップダウンメニューから新しい特徴量セットを選択します。 オプションには、初期設定のセットとユーザーが作成したセットがあります。 2 サンプルサイズ サンプルサイズを変更し、デフォルトでオートパイロットが実行したサンプルサイズよりも大きくまたは小さくします。 サンプルサイズを増やす場合は、データを検証できるようにする値を設定する必要があります。 3 CVの実行 交差検定で使用される分割数を設定します。 -
パラメーター設定を確認した後、タスクを実行をクリックし、新しいモデルの実行を開始します。
バッチ処理実行の開始¶
バッチ処理実行機能により、パラメーターを設定し、選択したモデルのグループに適用することができます。 バッチ実行を開始するには、実行するブループリントの名前の横にあるボックスをクリックするか、ブループリント名と説明の横にあるボックスをクリックしてすべてのモデルを選択します。
選択したすべてのモデルの選択を解除するには、ブループリント名と説明の横にあるマイナス記号(-)をクリックします。
バッチに含まれるいずれかのモデルが同じサンプルサイズと特徴量セットを使用して既に構築されている場合、少なくとも1つのパラメーターに変更を加える必要があります(実行オプションを参照してください)。 新しいモデルだけを含むバッチの場合、この操作は必要ありません。 タスクを実行をクリックして、構築を開始します。
サンプルサイズに関する備考¶
リポジトリからモデルを追加するときに使用できるサンプルサイズは、データセットのサイズによって異なります。 デフォルトのサンプルサイズは、オートパイロットの最終ステージで使用したサイズが反映されています(ただし、この値は任意の有効なサイズに変更できます)。 DataRobotは、データ量を64%または500MBのいずれか小さい方に制限します。
サイズを計算するとき、DataRobotは最初に最終ステージになるもの(64%または500MBのいずれか小さい方)を計算し、 選択したモードに従ってモデル化します。 フルオートパイロットの場合、それはそのデータの1/4、1/2、およびすべてになります。 したがって、500MB未満のデータセットでは、オートパイロットステージは64%/4、64%/2、最終的に64%になります。 (代替のパーティショニングの結果については、以下の計算を参照してください。)
データセットが500MBより大きい場合、ランダムサンプリングを使用して最初に500MBのしきい値に削減されます。 次に、DataRobotは500MBに対応するパーセンテージを計算し、1/4、1/2、および計算されたすべてのパーセンテージのステージを作成します。 たとえば、500MBがデータの40%である場合、DataRobotは10%、20%、および40%のステージを実行します。
データセットのサイズに加えて、選択できる範囲はパーティショニングパラメーターによっても異なります。 たとえば、5分割交差検定(CV)で20%のホールドアウトがある場合、計算は次のようになります。
- 100%のデータから20%のホールドアウトを差し引いたものを取得します。
- 残りの80%から、1/5を使用します。 デフォルトでは、単一の検証分割は
100% - 20% - 80%/5 = 64%
のように計算されます。
カスタムトレーニング/検証/ホールドアウト(TVH)パーティションを設定した場合、次のように計算されることに注意してください。
100% - custom % for holdout - custom % for validation
または、5分割CVでホールドアウト(0%)を含めることを拒否した場合、結果は次のようになります。
100 - 1/5 of full data for validation = 80%
メニューアクション¶
メニューを使用してモデル(ブループリント、またはオープンソースモデルの場合はコード)をプレビューします。
追加機能を使用してモデルを選択し、タスクを実行がクリックされたときに実行されるタスクリストに追加します。