Skip to content

エクスペリメントのインサイト

タイル 説明
Opens insights that provide experiment-level information for all models.

Experiment insights are tools that provide contextual information for the model:

  • Use [Learning Curves]{0} to compare model performance across different sample sizes.
  • Use [Speed vs Accuracy]{0} to graph tradeoffs between runtime and predictive accuracy.

学習曲線

Learning Curves help to determine whether it is worthwhile to increase the size of the dataset. 追加データを入手するにはコストがかかる場合がありますが、モデルの精度が向上するのであれば、そうするだけの価値があるかもしれません。 The graph illustrates, for top-performing models, how model performance varies as the sample size changes. A metric dropdown is available to sort the results, independently of the sort setting for the Leaderboard. It charts how well a model group performs when it is computed across multiple sample sizes in the training and validation partitions. このグループ化はグラフ上の線を表し、線上の各点は、そのグループ内の個々のモデルのサンプルサイズとスコアを表しています。

How does DataRobot calculate model selection for display?

The Learning Curves graph uses the metric selected in the dropdown to plot model accuracy—for example, if LogLoss is chosen, the lower the log loss, the higher the accuracy. 各データサイズ実行に関して、パフォーマンスが上位10件のモデルlog lossがプロットされます。 結果として得られる曲線は、一定量のトレーニングデータについて各モデルがどの程度のパフォーマンスに達するかを予測するのに役立ちます。

DataRobot groups models by the blueprint ID and Feature List. したがって、たとえば有用な特徴量という特徴量セットを使用して構築されたそれぞれのRegularized Logistic Regressionモデルは、単一のモデルグループです。 異なる特徴量セットを使用して構築されたRegularized Logistic Regressionモデルは、異なるモデルグループに属します。

初期設定では、DataRobotは以下の要素を表示します。

  • グループ化された上位10モデル。 たとえば、1つまたは複数のモデルが最上位モデルから大きく逸脱している場合、モデルの数は10未満になる可能性があります。 その分岐モデルはグラフの整合性を維持するために一種の外れ値として扱われ、プロットされません。
  • 自動的に決定されたしきい値内にあるスコアを持つアンサンブルモデル(しきい値は有用なデータポイントおよびグラフの可読性を強調します)。

View values

To see the values for a curve point, you can mouse over or click. The corresponding model highlights in the model list.

備考

If you ran comprehensive mode, not all models show all sample sizes in the graph. この理由は、大きいサンプルサイズのデータでDataRobotが再実行する際に、前回の実行で得られた最高のスコアリングモデルのみが次のステージで使用されるからです。 また、特定のモデルのポイント数は、データセットの行数によって異なります。

Filter view

You can filter the Learning Curve display by [metric]{0} or feature list. Select a metric to compare results. For example, the image below shows results for LogLoss and FVE Binomial:

By default, the graph plots using the Informative Features feature list. 特徴量セットドロップダウンメニューを使用してグラフを絞り込んで、ユーザーが作成した(かつそれを対象にモデルを実行した)特定の特徴量セットのモデルを表示することができます。 メニューは、プロジェクトに属する全特徴量セットを一覧表示します。 特徴量セット上でモデルを実行していない場合、オプションは無効な状態で表示されます。

新しいサンプルサイズの計算

Because Quick Autopilot uses one-stage training, the Learning Curves graph will initially populate with only a single point for each of the top 10 performing models. Use the Compute Learning Curves option to increase the display points.

サンプルサイズに関する備考
  • Adding sample sizes causes DataRobot to recompute for the newly entered sizes. 計算はすべてのモデルに対して実行されますが、右側のリストから1つ以上のモデルを選択した場合は、選択したモデルに対してのみ実行されます。 リクエストごとのサイズは5つのサンプルサイズに制限されていますが、グラフには(複数のリクエストを使用して)任意の数のポイントを表示できます。 学習曲線を計算で追加したサンプルサイズは、そのセッションでのみ記憶され、自動入力されます。ページから移動した場合、そのサンプルサイズは維持されません。

  • If you trained on a new sample size [from the Leaderboard]{0}, any atypical size (a size not available from the snap-to choices in the dialog to add a new model) does not automatically display on the Learning Curves graph, although you can add it from the graph.

  • 最初は、サンプルサイズフィールドにはデフォルトのスナップ先サイズ(通常、16%、32%、64%)が入力されています。 フィールドで受け入れられるのサイズはリクエストごとに5つだけなので、追加のカスタムサイズが2つ以上ある場合、すでにプロットされているデフォルト値を削除できます。 (グラフで使用できるかどうかは、プロジェクトの構築に使用したモデリングモードによって異なります。)

To compute new points:

  1. Select which models to compute for from the list on the right side of the window. Selected models highlight in the display. 学習曲線を計算するをクリックし

  2. Add or remove sample sizes, including custom sizes.

  3. 計算するをクリックし

学習曲線の解釈

学習曲線グラフを評価する際、下記を考慮に入れてください。

  • モデルをよく吟味し、サンプルサイズの増加に伴い、急激な変化や、パフォーマンスの低下がないかどうか調べます。 データセットや検定セットが小さいときは、データセットの性質により、大幅な変動が生じることがあります。

  • モデルはトレーニングセットの特定の特性に左右されやすくなるので、サンプルサイズが大きくなるとモデルのパフォーマンスが低下することがあります。

  • 一般的に、バイアスの大きいモデル(線形モデルなど)は、小さなサンプルサイズで、一方、より柔軟でバリアンスの大きいモデルはしばしば、大きなサンプルサイズで、それぞれパフォーマンスが向上することがあります。

  • 変動を前処理することで、モデルの柔軟性が向上することがあります。

速度対精度

予測精度を高めると、しばしば予測実行時間が長くなります。 速度対精度分析プロットは、予測実行時間と予測精度のトレードオフを示し、オーバーヘッドの最も低いモデルを選択するのに役立ちます。 現在選択されている指標を使用した検定スコアに基づいて表示されます。

  • Y軸は、リーダーボード上で現在選択されている指標を一覧表示します。 Use the Metric dropdown to change metric.

  • X軸には、予測を1000回行う際の推定時間がミリ秒単位で表示されます。 合計予測時間にはさまざまな要因が含まれ、実装によって異なります。 グラフ上の任意ポイントまたは右側の凡例内のモデル名にマウスオーバーすると推定時間およびスコアが表示されます。

ヒント

交差検定スコアでソートするなどして、リーダーボードの表示を並べ替えると、速度対精度グラフには、検定スコアに基づく上位10個のモデルがプロットされます。