モデルの追加/削除¶
このセクションでは、最初のモデル構築完了後のモデルの取り扱いについて説明します。
リーダーボードからのモデルの追加¶
リーダーボードにデータが入力されたら、 新しいモデルを作成するか既存のモデルを 再トレーニングすることで、追加のモデルを作成できます。 両方の場合において、変更を送信すると、リクエストの進捗状況がワーカーキューに表示されます。
新しいモデルの追加の使用¶
リーダーボードから新しいモデルを作成するには、次の操作を実行します。
-
リーダーボードの一番上にある新しいモデルを追加リンクをクリックします。
-
モデルタイプを選択し、そのタイプのモデルが既に存在する場合は、新しいモデルで 特徴量セット、サンプルサイズ、 交差検定の実行回数のうち少なくとも1つを変更していることを確認します。 モデルを追加をクリックします。
この方法は、 リポジトリのタスクを実行ボタンと同じように機能します。
モデルを再トレーニングする¶
サンプルサイズまたは特徴量セットを変更することで、既存のリーダーボードモデルを再トレーニングできます。
サンプルサイズの変更¶
異なる行数、または異なるパーセンテージのデータを使用するには、レポートされているサンプルサイズの横にあるプラス記号()をクリックします。
新しい値を設定して、新しいサンプルサイズで実行をクリックします。 新しいサンプルサイズを特定のポイント(データセットのサイズによって決定)以上に設定すると、フローズン実行が強制されます。 フローズン実行なしで大きいデータセットのサンプルサイズを増やすには、リポジトリから新しいモデルを作成します。 この方法では多くのRAMが使用されるため、システムパフォーマンスに影響することがあります。
備考
行数が多いプロジェクトでモデルを再トレーニングするようにサンプルサイズを設定する場合、DataRobotは、パーセンテージの代わりに整数行数または検証にスナップオプションを使用して、サンプルサイズを要求することをお勧めします。 これは、パーセンテージが可能な限り多くの行数にマッピングされ、そのうちの1つだけが「検証できる」実際のサンプルサイズであるためです。たとえば、プロジェクトに199,408行があり、64%のサンプルサイズを要求した場合、126,625行から128,618行までの任意の数の行がデータの64%にマップされます。 整数の行数または「スナップ先」オプションを使用すると、モデルで使用するデータの行数に関するあいまいさを回避できます。
特徴量セットを変更¶
特定のモデルの特徴量セットを変更するには、特徴量セットアイコン()をクリックし、新しいセットを選択します。 新しい特徴量セットでオートパイロットを再実行して、すべてのモデルを再構築することもできます。
アンサンブルモデル¶
アンサンブルでは、複数モデルの予測を結合できるため、モデルを単独で実行するよりも結果が改善する場合が多くなります。 最上位モデルからアンサンブルを作成の詳細オプションが有効になっている場合、DataRobotはオートパイロットの一部として アンサンブルモデルを自動的に作成できます。 この設定はデフォルトで無効になっています。
アンサンブルモデルを作成する目的
- より精度の高いモデルの作成。
- 複数のブループリントの使用。
- 群衆の知恵(Wisdom of Crowds)の活用。
アンサンブルモデルを作成する前に、以下について考慮する必要があります。
- 異なるアルゴリズムに基づいて、高い精度で2〜8つのモデルを組み合わせることができます。
- アンサンブルによって、多くの場合精度は高まりますが、作成とスコアリングにかかる時間も増えます。
- 最終的なモデルが複雑になるため、アンサンブルモデルの解釈と説明はより困難になります。 解釈タブのインサイトをご覧になれば、モデルの解釈について理解を深めることができます。
- SHAPベースの予測の説明では、アンサンブルをサポートしていません。
DataRobotは、非時間認識プロジェクトで以下のアンサンブル方法をサポートします。 プロジェクトのデータセットによっては、DataRobotは上記のブレンダーのサブセットのみを実行する場合があります。
アンサンブル | プロジェクトタイプ | 備考 |
---|---|---|
平均アンサンブル(AVG) | 連続値、二値分類、多クラス | N/A |
中央値アンサンブル(MED) | 連続値、二値分類、多クラス | N/A |
部分最小二乗法アンサンブル(PLS) | 連続値、二値分類 | サイズの大きいデータセットでは使用できません* |
Generalized Linear Modelアンサンブル(GLM) | 連続値、二値分類 | サイズの大きいデータセットでは使用できません* |
Elastic Netアンサンブル(ENET) | 連続値、二値分類、多クラス | サイズの大きいデータセットでは使用できません* |
平均絶対誤差最小化加重平均アンサンブル(MAE) | 連続値 | プロジェクト指標としてMAEを使用するプロジェクトでのみ使用できます。大きいデータセットでは使用できません* |
L1ペナルティを含む平均絶対誤差最小化加重平均アンサンブル(MAE1) | 連続値 | プロジェクト指標としてMAEを使用するプロジェクトでのみ使用できます。大きいデータセットでは使用できません* |
Random Forest Blend (RF) | 多クラス | 使用非推奨 |
Light Gradient Boosting Machine Blend (LGBM) | 連続値、二値分類、多クラス | 使用非推奨 |
* 800MBを超えるデータセットは、スリム実行プロジェクトになります。つまり、スタックされた予測のないモデルがプロジェクトに含まれます。
単一モデルアンサンブル
単一モデルアンサンブルの手順は「校正」手順と類似しています。 校正とは、予測された確率値の分布と動作をトレーニングデータで観測された確率値の分布と動作に近似するように、DataRobotがモデルを改善する試みです。
GLM、ENET、PLSのアンサンブルは、切片および係数を学習します。 つまり、「すべての予測に数値を加算」し、「すべての予測に数値を乗算」します。単純な加算または乗算によって、モデルの結果が若干改善することがあります。 トレーニングが必要なアンサンブル(AVGとMEDを除くすべて)は、スタッキングを使用してアウトオブサンプルの予測を保証します(そして誤解を招きかねないほど高い精度を回避します)。 LGBMまたはTFモデル全体が単一の予測入力に適合し、そこから単一予測の複雑な非線形変換を学習できます。 AVGおよびMEDのアンサンブルの場合は、単一モデルのアンサンブルの作成は、親モデルの完全な複製となるため、有用ではありません。
時間認識プロジェクトのアンサンブルについては、以下を参照してください。
各ターゲットポイントに対し、平均および中央値アンサンブルは、選択された個々のモデルの予測値の平均や中央値を計算します。 GLM、Elastic Net、PLSアンサンブルは、既存のモデルの上にある第二のレイヤーと言うことができます。 選択されたモデルの予測を予測変数として使用し、同時に個々のモデルと同じターゲットを維持します。
アンサンブルモデルの作成¶
アンサンブルモデルを作成するには以下の手順で行います。
-
モデルのリーダーボード左側にあるチェックボックスを使用し、2つ以上のモデルを選択します。 (追加の校正手段としてアンサンブルを使用するには、上記の単一モデルアンサンブルに関する備考を参照してください。)
-
リーダーボードの左上にあるモデルメニューアイコンをクリックし、アンサンブルの下にリスト表示されているアンサンブルオプションの1つを選択します。 (メニュー項目の上にカーソルを合わせると、アンサンブルオプションの説明が表示されます。
-
新しいジョブがワーカーキューに表示され、同時にアンサンブルモデルが処理されます。 名前は、アンサンブルを作成するために選択したアンサンブルタイプおよびモデルを示します。
処理が完了すると、新しいアンサンブルモデルがリーダーボードのリストに表示されます。
時間認識プロジェクトのアンサンブル¶
時間認識モデルではスタックされた予測が使用されないので、別のアンサンブルが使用されます。
アンサンブル(コード) | プロジェクトタイプ | 説明 |
---|---|---|
平均アンサンブル(AVG) | OTV、時系列 | 異なるモデル間の予測の平均値 |
中央値アンサンブル(MED) | OTV、時系列 | 異なるモデル間の予測の中央値 |
予測距離での平均アンサンブル(FD_AVG) | 時系列 | 選択したモデルから、上位3モデルの予測距離ごとの平均値が提供されます。 2つ以上の予測距離を含むプロジェクトでのみ使用できます。予測距離によってアンサンブルを行うには、少なくとも4つのモデルを選択する必要があります。 |
予測距離でのENETアンサンブル(FD_ENET) | 時系列 | 予測を計算する予測距離ごとのElastic Netモデル。2つ以上の予測距離を含むプロジェクトでのみ使用できます |
一部のモデルで短期的な予測(将来のいくつかのステップ)が優れている一方で、長期的な予測(将来のさらに先のステップ)が優れているモデルも存在します。時系列プロジェクトでは、予測距離アンサンブルオプションが追加されます。 予測距離アンサンブルでは、個々の予測距離に最適なブループリントを使用するために、予測距離ごとに別のモデルがアンサンブルされます。
以下の点に注意してください。
-
予測距離が1に等しい場合、予測距離アンサンブルは無効化されます。
-
予測距離での平均アンサンブルを使用する場合、4つ以上のモデルを選択する必要があります。 選択したモデルの数が4未満の場合、予測距離ベースの予測ではなく、モデル予測の平均が取得されます。
選択したモデルを追加¶
モデルが作成され、リーダーボードに表示された後、選択したモデルはそのままで、別の設定を使用することができます。 別の特徴量セットやサンプルサイズを使用して実行することや、一次分割または最大5次分割までの交差検定を選択することができます。
選択したモデル(複数可)を実行するには以下の手順で行います。
備考
選択したモデルを追加を使用して、アンサンブルモデルの設定を変更することはできません。
-
リーダーボードで、モデル名の左側にあるチェックボックスを使用して、1つまたは複数のモデルを選択します(複数可)。
-
メニューから、モデル処理 > 選択したモデルを追加を選択します。
-
リーダーボードのボックスを使用して特徴量セット、サンプルサイズ、および交差検定(CV)の実行回数を指定します。
-
選択したモデルと指定されたパラメーターを再トレーニングするには、単一のモデルを実行をクリックします。 DataRobotでモデルが処理される間、ワーカーキューに新しいジョブが表示されます。
モデルの削除¶
以下の手順を使用して、リーダーボードに一覧表示されているモデルを削除できます。 この方法でモデルを削除すると、モデルはリーダーボードから削除されますが、基盤となるプロジェクトデータベースからは削除されません。 そのため、モデルは引き続き親プロジェクトコンポーネント(アンサンブルモデルやワードクラウドなど)で使用できます。
モデルを削除するには:
-
モデルのリーダーボード左側にあるチェックボックスを使用して、1つまたは複数のモデルを選択します。
-
メニューから、モデル処理 > 選択したモデルを削除を選択します。
-
削除をクリックしてモデルの削除を確定します。