Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

Eureqaモデル

Eureqaモデルタブは、Eureqa一般化加法モデル(Eureqa GAM)、Eureqa連続値、およびEureqa分類モデルのモデルブループリントへのアクセスを提供します。 これらのブループリントは、独自のEureqa機械学習アルゴリズムを使用して、予測精度と複雑さのバランスをとるモデルを構築します。

Eureqaモデリングアルゴリズムは、ノイズに対して堅牢で柔軟性が高く、さまざまなデータセットで適切に機能します。 一般的に、Eureqaでは、データに適したエクスポート可能な式で容易に解釈できるシンプルなモデルが検索されます。

Eureqa GAMブループリント(Eureqa/XGBoostハイブリッド)は、連続値プロジェクトと分類プロジェクトの両方で使用できます。

DataRobotでEureqaブループリントを実行すると、Eureqaアルゴリズムで数百万の対象モデルが試行され、データに最も適した(さまざまな複雑さの)いくつかのモデルが選択されます。 Eureqaモデルタブでは、これらのモデルの検査と比較を行い、複雑さと予測精度のバランスの要件を最適に満たすモデルを選択できます。

You can select one or more Eureqa GAM models to add to the Leaderboard for later deployment. Additionally, the ability to recreate Eureqa models enables you to fully reproduce their predictions outside of DataRobot. This is helpful for meeting requirements in regulated industries as well as for simplifying the steps to embed models in production software. Recreating a Eureqa model is as simple as copying and pasting the model expression to the target database or production environment. (Also, for GAM models only, parameters can be exported to recreate models.)

その他の重要情報については、関連する注意事項を参照してください。

Eureqaモデルのメリット

Eureqaモデルを使用する利点は多数あります。

  • 人に判読可能かつ解釈可能な分析式を返してくれるので、専門家によるレビューも容易です。

  • モデル構築の過程で複雑さを減らすことを余儀なくされているため、特徴量選択が非常に得意です。 たとえば、データにターゲット特徴量を予測するために20個の異なる列が使用されている場合、シンプルな式の検索は、最強の予測実行のみを使用する式を生成します。

  • 小規模なデータセットにうまく対応するため、大量のデータを生成しない物理実験のデータを収集する科学研究者に人気があります。

  • ドメイン知識に統合する簡単な方法を提供します。 モデリングしているシステムの基本的な関係性がわかっていれば、Eureqaに「ヒント」(たとえば、熱伝導の公式や特定の地域での住宅価格の仕組みなど)を与えて、ビルディングブロックや学習の出発点とすることができます。 Eureqaは、そこから機械学習修正を構築します。

Eureqaモデルの構築

Eureqaモデルは、クイックではなく完全なオートパイロットで実行されますが、モデルリポジトリからいつでもアクセスできます。 (モデリングモードとプロジェクトタイプに基づいてモデルが利用可能になる時期についてはリファレンスを参照してください。) さらに、「オートパイロットにEureqaモデルを含めない」フラグを使用して、オートパイロットの一部としてモデルを実行できないようにすることができます(管理者に問い合わせてください)。

クイックモードを実行したときにEureqaモデルが構築されていない場合、または手動モードを選択した場合は、リポジトリからモデルを作成できます。 包括的モードの場合、すべてのEureqaモデルがオートパイロット中に作成されます。 Eureqaブループリントを実行すると、その名前のモデルが作成されます。

ブループリントを実行するには:

  1. データセットをアップロードしてターゲットを選択してモデリングモードを選択し、[開始]をクリックしてモデル構築プロセスを開始します。 手動モードを使用してプロジェクトを開始した場合、次のメッセージが表示されます。

  2. メッセージの[リポジトリ]をクリックするか、メニューの[リポジトリ]を選択して、Eureqaブループリントを追加します。 (オートパイロットモードではEureqa一般化加法モデルが自動的に作成され、リーダーボードから使用できるようになります。)

  3. リポジトリの検索ボックスにeureqaと入力して表示をフィルターします。 ドロップダウンから、作成する各Eureqaモデルの追加をクリックします。

  4. 準備ができたらタスクを実行をクリックします。

モデルの処理が開始されます。進捗状況は、ワーカーキューのステータスで確認できます。 構築処理が完了したら、リーダーボードでモデルが使用可能になります。

Eureqaモデルタブ

Eureqaモデルの詳細を表示するには、リーダーボードでモデル()を選択し、Eureqaモデルタブを選択します。

ディスプレイ要素 説明
Eureqaモデルのサマリー Displays the Leaderboard model’s Eureqa complexity, Eureqa error, and model expression.
小数の四捨五入処理 Sets the number of decimal places to display for rounding in Eureqa constants.
Models by Error vs Complexity chart Plots model error against model complexity.
選択されたモデルの詳細 Displays the mathematical expression and plot for the selected model.
Export link Exports the Leaderboard model's preprocessing and parameter information to CSV (for GAM only).

タブのグラフおよびその他のUI要素は、DataRobotで追加の候補モデルが作成および選択されるにしたがって定期的に更新されます。

Eureqaモデルのサマリー

この上部セクションに表示されるモデルサマリー情報は、リーダーボードモデルの情報を表します。 これには、複雑さと誤差のスコアに加えて、モデルの数学的表現(モデル式)とモデルエクスポートへのアクセスが含まれます。(GAMのみ)

備考

Eureqaモデルのカスタマイズを行って以前の解(prior_solutions)を設定する場合などは、モデル式のコンテンツを統合の右側にコピーします。 また、ターゲット式文字列(target_expression_string)にモデル式を使用する場合、元の特徴量名をTargetで置き換えてください。 たとえば、上のスクリーンショットでは、ターゲット式は次のようになります。
Target = High Cardinality and Text features Modeling +1.23938372292399sqrt(perc_alumni) + 0.031847155305945Top25perclog(Enroll) + 0.000123426619061881Outstatelog(Accept) - 23.3747552223482 - 0.00203437584904968Personal

The complexity score reports the complexity of this model, as represented in the Models by Error vs. Complexity chart. The "Eureqa error" value provides a mechanism for comparing Eureqa models. Once you have selected the best-suited model, you can move that model to the Leaderboard to compare it against other DataRobot models. The model expression denotes the mathematical functions representing the model. The Export link opens a dialog for downloading model preprocessing and parameter data. See this note on data partitioning and error metrics.

小数の四捨五入処理

To improve readability, DatRobot shows constants to two decimal points of precision by default. You can change the precision displayed from the Rounding dropdown. Changes to the display do not affect the underlying model.

デフォルトの表示:

すべてのポイントが表示された状態:

エラーと複雑さの比較によるモデル

Eureqaモデルの左側のパネルには、モデルの複雑さに対するプロットモデルエラーが表示されます。 結果として表示されるグラフ(パレート効率性)は、Eureqaによって作成された別のモデルを表します。 各ポイントの色の範囲は、最もシンプルで最低精度のモデルを表す赤から最も複雑で正確なモデルを表す青までの範囲です。

The location of the Leaderboard entry—the “current model”—is indicated on the graph (). Hover over any other point to display a tooltip reporting the model’s Eureqa complexity and Eureqa error. Clicking a model (point) updates the Selected Model Detail graph on the right with details for that model.

選択されたモデルの詳細グラフ

選択されたモデルの詳細グラフでは、選択したモデルの複雑性とエラースコアに加えて、モデルの数式的表現がレポートされます。

Clicking a model (point) on the Models by Error vs. Complexity graph updates the Selected Model Detail graph. Additionally, selecting a different model activates the Move to Leaderboard button. Once you click the button, DataRobot creates a new, additional Leaderboard entry for the selected model. Because DataRobot already built the model, no new computations are needed.

グラフに表示される部分の内容は、連続値問題で作業しているか分類問題で作業しているかに応じて異なります。

連続値プロジェクトの場合

The Selected Model Detail graph for regression problems displays a scatter plot fit to data for the selected model. Similar to the Lift Chart, the orange points in the Selected Model Detail graph show the target value across the data; the blue line graphs model predictions. 別のモデルの出力を表示するには、エラーと複雑さの比較によるモデルグラフで新しいモデル(別のポイント)を選択します。

グラフは次のように解釈します。

コンポーネント 説明
Complexity values, error values, and model expression for the selected model.
Action to send the selected model to the Leaderboard. Because all available Eureqa models are built when first run, there is no additional processing necessary.
Tooltip displaying target and model values.
Dropdown to control row ordering along the X-axis.

並べ替え基準ドロップダウンには、以下を始めとするいくつかのオプションがあります。

- Row (default): rows are ordered in the same order as the original data
- Data Values: rows are ordered by the target values
- Model Values: rows are ordered by the model predictions

分類プロジェクトの場合

The Selected Model Detail graph for classification problems displays a distribution histogram—a confusion matrix—for the selected model. That is, it shows the percentage of model predictions that fall into each of n buckets, spaced evenly across the range of model predictions. For more information about understanding a confusion matrix, see a general description in the ROC Curve details.

ヒストグラムには、選択されたモデルに適用されるすべての予測値が表示されます。 のモデルの出力を表示するには、エラーと複雑さの比較によるモデルグラフで新しいモデル(別のポイント)を選択します。

グラフは次のように解釈します。

コンポーネント 説明
Complexity values, error values, and model expression for the selected model.
Action to send the selected model to the Leaderboard. Because all available Eureqa models are built when first run, there is no additional processing necessary.
Tooltip describing the content of the bucket, including total values, range of values, and breakdown of true/false counts.
Order by value for the rows along the X-axis. By default, rows are ordered by model predictions.

ヒストグラムには、プロットを4つの領域に分割する垂直のしきい線(上の例の0.5)が表示されます。 プロットの上の部分にはターゲット値が1であったすべての行が表示され、下の部分にはターゲット値が0であったすべての行が含まれます。しきい線の左側のすべての予測は False (陰性)予測で、左下は正しい予測を表し、左上は間違った予測を表します。 しきい線の右側の値は、Trueと予測された値です。 ヒストグラムの数は、トレーニングデータセット全体で計算されます。

モデルパラメーターのエクスポート

備考

エクスポートボタンを使用してGAMモデルを再作成できますが、モデル式をコピーしてターゲット環境(SQLクエリー、Python、Javaなど)に直接コピーすることによってGAMまたは非GAMのEureqaモデルを再作成することもできます。

The Export button opens a window allowing you to download the Eureqa preprocessing and parameter table for the selected Leaderboard entry. This export provides all the information necessary to recreate the GAM model outside of DataRobot. Interpret the output in the same way as you would the export available from the Coefficients tab (with GAM-specific information here), with the following differences:

  • 出力の最初のセクションは、Eureqaモデル式を示します。 これは、Eureqaモデルタブの上部に表示される数学方程式で、Target=…で始まります。

  • 2番目のセクションは、モデルで使用された各特徴量のDataRobotの前処理を表示します。これには、1つまたは2つの入力変換(標準化など)のパラメーターが含まれます。 Eureqaモデルでは、テキストおよび高カーディナリティ特徴量がない場合、Coefficientフィールドは0に設定されます。 「係数」は、列の線形にフィットした係数を示すために線形モデルにおいて使用されます。

  • Eureqaモデルパラメーターは.csv形式でのみエクスポートできます(.pngおよび.zipオプションは選択できません)。

詳しい情報…

従来のDataRobotのモデル構築では、データは、トレーニング、検定、およびホールドアウトのセットに分割されます。 対照的に、Eureqaでは、トレーニングDataRobot分割が使用されますが、Eureqaエラーを計算するために、独自の内部トレーニング/検定分割ロジックを使用して、そのセットがさらに分割されます。

モデルの可用性

次の表は、AutoMLおよび時系列プロジェクトのEureqaモデルがオートパイロットおよびリポジトリで使用できる条件を示しています。

備考

オートパイロットの一部としてEureqaモデルを実行することは、「オートパイロットにEureqaモデルを含めない」フラグで制御できます。無効にする場合は管理者に依頼してください。

Eureqaモデルタイプ オートパイロット リポジトリ
AutoMLプロジェクト
リグレッサー/分類器
  • 数値またはカテゴリ特徴量が必要
  • 最大データセットサイズ100,000行
  • オフセットとエクスポージャーが設定されていません
  • 数値またはカテゴリ特徴量が必要
  • データセットサイズの制限なし
  • オフセットとエクスポージャーが設定されていません
GAM
  • 最大データセットサイズ1GB
  • オフセットとエクスポージャーが設定されていません
  • 最大データセットサイズ1GB
  • オフセットとエクスポージャーが設定されていません
時系列プロジェクト
リグレッサー/分類器
  • 行数が100,000未満かつ
  • カテゴリ特徴量のユニークな値の数が1,000未満
制限なし
GAM
  • 行数が100,000未満または
  • ユニークなカテゴリ特徴量の数が1,000未満
制限なし
予測距離モデリングを使用したEureqa N/A
  • 予測距離の数が15未満
  • 最大100,000行またはカテゴリ特徴量のユニークな値の数が1,000未満

生成回数

次の表は、選択したブループリントに基づいて実行された生成回数を示しています。 生成値はブループリント名に反映されます。

Eureqaモデルタイプ オートパイロット生成 リポジトリの生成
AutoMLプロジェクト *
リグレッサー/分類器 250 40、250、または3000
GAM 動的* 40、動的*、または10,000
時系列プロジェクト
リグレッサー/分類器 250 40または3000
GAM 250 40、250、動的*
予測距離モデリングを使用したEureqa(予測距離ごとに1つのモデル) N/A 生成数は、高度なチューニング task_sizeパラメーターにより決定されます。 デフォルトは中規模(1000回の生成)です。

*生成数の動的オプションは、データセットの行数に基づいています。 値は1000~3000回の生成になります。

Eureqaとスタックされた予測

Because it would be too computationally "expensive" to do so, Eureqa blueprints don't support stacked predictions. Most models use stacking to generate predictions on the data that was used to create the project. When you generate Eureqa predictions on the training data, all predictions will come from a single Eureqa model, not from stacking.

したがって、Eureqaエラーはデータのエラーではなく、フィルターされたバージョンのデータのエラーです。 これが、エラー指標が同じときに、レポートされたEureqaエラーがリーダーボードエラーよりも低い理由です。 DataRobotの最適化指標(リーダーボードでのモデルの格付に使用される値)は変更できますが、Eureqaエラー指標を変更することはできません。

以下に、スタッキング予測がないことによる非Eureqaモデリングとの違いを示します。

  • AutoMLでは、予測をトレーニングするブレンダー(GLMやENETなど)は無効になっています。 他のブレンダーは利用できます(AVGやMEDなど)。
  • 検証およびホールドアウトにトレーニングされたEureqaおよびEureqa GAMモデルの検証および交差検定スコアは非表示です。
  • トレーニングデータの予測のダウンロードは無効になっています。

モデルトレーニングプロセス

Eureqaモデルをトレーニングするとき、DataRobotは新しいソリューション検索または再適合のいずれかを実行します。

  • 新しいソリューション検索:Eureqaの進化プロセスは完全な検索を行い、新しいソリューションのセットを探します。 このメカニズムは改良よりも遅くなります。
  • 再適合:Eureqaは、線形要素の係数を再適合します。 つまり、既存のソリューションからターゲット式を取得し、線形要素を抽出し、すべてのトレーニングデータを使用してその係数を再適合させます。

次の表は、Eureqaモデルタイプごとに、検証/バックテストのトレーニング動作とフローズン実行を示します。

モデルタイプ バックテスト/交差検定 フローズン実行
Eureqaリグレッサー/分類子 最初のフォールドでトレーニングされたモデルから既存のソリューションの係数を再適合させます。 親モデルから既存のソリューションの係数を再適合させます。
Eureqa GAM* 最初のフォールドでトレーニングされたモデルから既存のソリューションの係数を再適合させます。 XGBoostハイパーパラメーターを固定し、Eureqaの第2段階モデルの新しいソリューション検索を実行します。
予測距離モデリングを使用したEureqa(予測距離(戦略)ごとに最適なソリューションを選択します) 新しいソリューション検索を実行します。 固定されたEureqaビルディングブロックを使用して新しいソリューション検索を実行します。

* Eureqa GAMは、2つのステージで構成されます。最初のステージはXGBoostで、2番目のステージはXGBoostモデルを近似するEureqaですが、トレーニングデータのサブセットでトレーニングされています。

決定論的モデリング

他のDataRobotモデルと同様に、Eureqaのモデル生成プロセスは決定論的です。同じデータに対して同じ設定引数でEureqaを2回実行した場合、同じモデル(同じエラー、同じ複雑さ、同じモデル式)が得られます。 Eureqa独自のモデル生成プロセスのために、その入力にわずかな変更(1つの行の削除やチューニングパラメーターの若干の変更など)を加えた場合でも、非常に異なるモデル式が返される可能性があります。

備考

同期_移行高度なチューニングパラメーターFalseに設定されている場合、Eureqaのモデル生成プロセスは非決定的になります。 その場合、優れたEureqaモデルがすばやく識別されることがあり(必ずしも保証されるものではありません)、使用可能なCPUが効率的に活用されます。

エラー指標でのチューニング

The metric used by Eureqa for Eureqa GAM (Mean Absolute Error) is a "surrogate" error, as the Eureqa GAM blueprint runs Eureqa on the output of XGBoost. It measures how well Eureqa could reproduce the raw output of XGBoost. For regression, you can change the loss function used in XGBoost in the advanced option but you cannot change the Eureqa error metric. You can also change the DataRobot optimization metric (the value DataRobot uses to rank models on the Leaderboard). This tuning affects the tuning of XGBoost and the default choice of XGBoost loss function, and leads to different results for Eureqa GAM.

高度なチューニングのパラメーター

構築ブロックの変更、ターゲット式のカスタマイズおよびその他のモデルパラメーター(構築ブロックのサポート、誤差指標、行の加重、データ分割など)を変更することによって、Eureqaモデルをチューニングできます。 Eureqaモデルは、式を使用して数学的関係性および変換を表します。

詳細については、Eureqaの高度なチューニングオプションのリファレンスガイドを参照してください。

機能に関する注意事項

The following considerations apply to working with both GAM and general Eureqa models and for working with Eureqa models in time series projects, specifically.

備考

Eureqa model blueprints are deterministic only if the number of cores in the training and validation environments is kept constant. If the configurations differ, the resulting Eureqa blueprints produce different results.

  • 多クラス分類モデリングのサポートはありません。

  • 交差検定はリーダーボードからのみ実行できます(リポジトリからは実行できません)。

  • レガシーEureqa SaaS製品ユーザーの場合、コア数が少ないので精度が相対的に低下することがあります。 (レガシーユーザーは、DataRobot担当者に連絡してこの問題の対処オプションを相談できます。)

  • Eureqa scoring code is available for both AutoMl and time series. When using with time series, Scoring Code is supported for Eureqa regression and Eureqa GAMs only (no classification).

時系列に関する追加の注意事項

  • 時系列のサイズ制限が適用されます。
  • オフセットはサポートされません。

更新しました December 22, 2022
Back to top