モデルリポジトリ¶
リポジトリは、選択したプロジェクトで使用できるモデリングブループリントのライブラリです。これらのブループリントは、モデル自体ではなく、モデルの構築に使用されるアルゴリズムを表示します。リポジトリに一覧表示されるモデルは、必ずしも構築済みとは限りません。リストには、任意のモデリングモードで構築できるモデルが含まれます。手動モードでプロジェクトを作成し、特定のブループリントを選択して実行するには、リポジトリから目的のブループリントにアクセスします。
モデリングモードとしてオートパイロットを選択すると、DataRobotは、精度と実行時間のバランスが良いモデルのサンプルを実行します。改善の可能性がある一方で実行時間が長くなる可能性のあるブループリント(例えば、多くのディープラーニングモデル)は、リポジトリから入手できますが、オートパイロットの一部として実行されるわけではありません。
オートパイロットを実行し、データで最も上手く実行されるアルゴリズムを把握し、リポジトリ内のすべてのバリエーションのアルゴリズムを実行することをおすすめします。包括モードは、リポジトリからすべてのモデルを最大サンプルサイズで実行します。これは、非常に時間がかかる可能性があります。
リポジトリから次の操作を行うことができます。
- [検索]を使用して、タイプ別に表示されるモデルのリストを絞り込む。
- [プレビュー]を使用してモデルのブループリントまたはコードを表示する。
- 新しいパラメーターでモデル実行を開始する。
- バッチ処理実行を開始すると、新しいパラメーターが設定され、モデル実行用に選択されたモデルにそれらが適用されます。
リポジトリの検索¶
以下で説明するモデルタイプの1つを簡単に見つけたり、モデルタイプで並べ替えるには、次の検索機能を使用します。
検索ボックス内をクリックして、モデルタイプ、モデル名、またはバッジ名を入力します。入力すると、検索条件を満たすモデルにリストが自動的に絞り込まれます。完全なモデルリストに戻るには、検索ボックスの文字をすべて消去します。
モデルタイプ¶
リポジトリには以下の内容が含まれます。
- DataRobotモデル
- オープンソースモデル
すべてのモデル(カスタムモデルおよびDataRobotで作成したモデル)は、同じ交差検定のフレームワーク内に適合されるので、カスタムモデルをリーダーボード内の他のモデルに対してランク付けできます。モデルブループリントのエンドツーエンド・フィッティング処理を見ることができます。
備考
廃止されたJupyterノートブック機能を使用して以前のリリースで作成(または共有)された既存のブループリントは引き続き利用可能で、[自分のタスク]または[共有]バッジで検索して見つけることができます。新規のJupyterユーザーモデルを作成することや、既存のJupyterユーザーモデルを編集することはできません。
DataRobotモデル¶
DataRobotモデルは、大量の並列処理を使用して構築されており、主にオープンソースアルゴリズムをベースにした何千もの選択肢をトレーニングし、評価しています(オープンソースには最良のアルゴリズムがいくつかあります)。DataRobotは、アルゴリズム、前処理のステップ、特徴量、変換、チューニングパラメーターの数百万の可能な組み合わせを探索して、データセットと予測ターゲットに最適なモデルを提供します。可能な限り最良のモデルを生成するのは、この前処理とチューニングです。DataRobotモデルにはDataRobotアイコンが表示されます。
DataRobotモデルのリスト
検索用語datarobot model
を使用して、リポジトリ(またはリーダーボード)からDataRobotモデルのリストを表示できます:
オープンソースモデル¶
DataRobotでは、オープンソースの既存の実装に機能を追加することが多いため、DataRobotで実行されるバージョンは、標準的なオープンソースインストールで利用可能なバージョンとは異なる場合があります。しかし、オートパイロット中、変更されていないオープンソースモデルがいくつか構築されます。
オープンソースモデルのリスト
リポジトリまたはリーダーボードから文字列"open source"を検索して、オープンソースモデルのリストを表示できます。DataRobotは、モデル名の下にバッジが含まれているオープンソースモデルを示します。
連続値の問題¶
次のモデルは連続値問題のリポジトリで使用可能です。
- Spark ML線形回帰
- Spark MLランダムフォレストRegressor
- H2O GLM Regressor
- H2OディープラーニングRegressor
- H2O Gradient Boosted Regressor
- H2OランダムフォレストRegressor
以下のモデルは、連続値のオートパイロットの一部として実行される可能性があります。
- Spark MLランダムフォレストRegressor
- H2OランダムフォレストRegressor
二項分類問題¶
次のモデルは、二値分類問題のリポジトリで使用可能です。
- Spark ML Logistic Regression
- Spark MLランダムフォレストClassifier
- H2O GLM Classifier
- H2Oディープラーニング Classifier
- H2O Gradient Boosted Classifier
- H2OランダムフォレストClassifier
以下のモデルは、二値分類問題のオートパイロットの一部として実行される可能性があります。
- Spark MLランダムフォレストClassifier
- H2OランダムフォレストClassifier
備考
これらのモデルは、DataRobot 4.0以降向けに作成されたプロジェクトでのみ実行可能です。下位互換性はありません。
新しいモデルの作成¶
リポジトリから新しいモデルを作成するには
-
モデル名の横にあるチェックボックスをオンにするか、対応するドロップダウンから追加ボタンを選択して、実行するモデルを選択します。
-
選択した後、有効になったダイアログボックスでフィールドを変更します。
要素 説明 特徴量セット ドロップダウンメニューから新しい特徴量セットを選択します。オプションには、初期設定のセットとユーザーが作成したセットがあります。 サンプルサイズ サンプルサイズを変更し、デフォルトでオートパイロットが実行するサンプルサイズよりも大きくまたは小さくします。初期設定でフルオートパイロットが実行されたサンプルサイズを入力しないように気をつけてください。 CVの実行 交差検定で使用される分割数を設定します。 -
パラメーター設定を確認した後、タスクを実行をクリックし、新しいモデルの実行を開始します。
バッチ処理実行の開始¶
バッチ処理実行機能により、モデル実行パラメーターを設定し、選択された個々のモデルに適用することができます。バッチ実行を開始するには、実行するモデルの名前の横にあるボックスをクリックするか、ブループリント名と説明の横にあるボックスをクリックしてすべてのモデルを選択します。
選択したすべてのモデルの選択を解除するには、ブループリント名と説明の横にあるマイナス記号(-)をクリックします。
バッチに含まれるいずれかのモデルが同じサンプルサイズと特徴量セットを使用して既に構築されている場合、少なくとも1つのパラメーターに変更を加える必要があります(実行オプションを参照してください)。新しいモデルだけを含むバッチの場合、この操作は必要ありません。タスクを実行をクリックして、構築を開始します。
メニューアクション¶
メニューを使用してモデル(ブループリント、またはオープンソースモデルの場合はコード)をプレビューします。
追加機能を使用してモデルを選択し、タスクを実行をクリックしたときに実行されるようにタスクリストに追加します。