リーダーボードのリファレンス¶
リーダーボードには、プロジェクト内で構築された各モデルについてのサマリー情報が大量に含まれています。モデルが完成した時点で、DataRobotは、スコアリングおよび構築の情報とともに、リーダーボードに各モデルを一覧表示します。モデルの下に表示されるテキスト部分には、モデルタイプの短い説明のほか、バージョン、無修正のオープンソースコードを使用したものであるかどうかが記述されています。以下に説明するバッジ、タグ、および列を使用して、モデルとスコアリング情報をすばやく識別できます。
タグとインジケーター¶
以下の表にタグと指標の説明を示します。
表示/名前 | 説明 |
---|---|
![]() Pxx ブループリントID |
単一モデルタイプ(バージョン情報を含む)のインスタンスを表すブループリントIDと、特徴量セットを表示します。これらの特性を共有するモデルは、構築に使用されたサンプルの大きさを問わず、同一のブループリントIDを有しています。アンサンブルモデルは、その作成時に使用されたブループリントを示します(BP6+17+20など)。 |
![]() Mxx モデルID |
リーダーボード上の各モデルのユニーク数IDを表示します。モデルIDは、モデルタイプ、特徴量セット、およびサンプルサイズのシングルインスタンスを表します。ブループリントIDが同じ場合にはモデルIDを使用して各モデルを識別してください。 |
![]() デプロイ推奨 |
モデルの精度および複雑さに基づいてDataRobotでデプロイに推奨されるモデルであることを示します。 |
![]() デプロイの準備済み |
モデルに、オートパイロットの推奨段階およびデプロイの準備ができていることを示します。 |
![]() メンテーションチャンピオン |
モデルが複数系列で選択されたセグメントチャンピオンであることを示します。 |
![]() 最も精度が高い |
使用非推奨、v6.1より前に作成されたプロジェクトに適用可能。検定または交差検定の結果に基づいて、このモデルがリーダーボード全体において最も精度の高いモデルであることを示します(ほとんどの場合、アンサンブル)。 |
![]() |
使用非推奨、v6.1より前に作成されたプロジェクトに適用可能。リーダーボードのモデルのうち、設定されている予測速度ガイドラインを満たす最も精度の高いの良いシングルモデルであることを示します。ガイドラインを満たすモデルがない場合、バッジは適用されません。このバッジはOTVでは表示されますが、時系列プロジェクトでは表示されません。 |
![]() ベースライン |
時系列プロジェクトにのみ適用されます。MASE指標を使用して構築されたベースラインモデルを示します。 |
![]() ベータ |
DataRobotの外部で手順の検証および予測の作成を行うために必要な係数のエクスポートおよび変換パラメーターをエクスポートできるモデルを示します。複雑な前処理が必要なブループリントでは、前処理をシンプルな形式(数字用のリジット変換など)でエクスポートできないのでベータタグはありません。また、ブループリントに係数があるがベータタグでマークされていない場合、係数が正確ではないことを示していることにも備考してください(たとえば、丸められている可能性があります)。 |
![]() フローズン実行 |
フローズン実行機能を使用して作成されたモデルであることを示します。バッジは、元のモデルのサンプルパーセントも示します(![]() |
![]() インサイト |
モデルがインサイトページに表示されることを示します。 |
![]() MONO |
モデルが単調制約付きで構築されたか、単調制約をサポートしても単調制約なしで構築されたことを示します。 |
![]() 格付表 |
ダウンロード可能な格付表を含むモデルであることを示します。 |
![]() REF |
モデルがリファレンスモデルであることを示します。リファレンスモデルは何も特別な前処理をしておりません。高度なモデルにより提供されるパフォーマンス向上を測定することに使える基本モデルです。 |
![]() スコアリングコード |
ダウンロード可能なスコアリングコードを含むモデルであることを示します。 |
![]() チューニング済み |
チューニング済みのモデルであることを示します。 |
![]() 実行時間の上限 |
モデルが実行時間の上限実行時間を超えることを示します。 |
モデル推奨計算に関する情報も参照してください。
モデルアイコン¶
タグに加え、DataRobotでは、タイプを示すモデル名の左側にバッジ(アイコン)が表示されます。
:特別にチューニングされたDataRobot実装のモデル
:異常検知モデル
:アンサンブルモデル
:Eureqaモデル
:H2Oモデル
:Pythonモデル
:Rモデル
:Sparkモデル
:TensorFlowモデル
:Vowpal Wabbit (VW) モデル
:XGBoostモデル
:Jupyter Notebookで構築したカスタムモデル(使用非推奨)
モデルの下に表示されるテキスト部分には、モデルタイプの短い説明のほか、バージョン、無修正のオープンソースコードを使用したものであるかどうかが記述されています。
列とツール¶
リーダーボード列では、モデルの「仕様」に関する情報を一目で確認することができます:
下記の表は、リーダーボード列を示します。
列 | 説明 |
---|---|
モデル名と説明 | モデル名(タイプ)に加えて、識別子と説明が表示されます。 |
特徴量セット | モデルの作成に使用される特徴量セットの名前を一覧表示します。特徴量セットラベルをクリックし、一覧内の特徴量のカウント数を取得します。 |
サンプルサイズの割合 | モデルの作成に使用されるサンプルサイズを表示します。サンプルサイズラベルをクリックすると、そのサンプルサイズが表している列の数を確認したり、選択されたサンプルサイズのみに表示を設定したりできます。初期設定では、DataRobotにはプロジェクトの全サンプルサイズ実行が表示されます。 |
検定 | モデルの検定スコアを表示します。最初の交差検定の分割から派生したスコアです。一部のスコアには、サンプル内予測を示す印としてアスタリスクが付けられていることがあります。 |
交差検定 | 実行の場合、交差検定スコアを表示します。データセットが50,000行を超える場合、DataRobotは相互検証を自動的に開始しません。実行リンクをクリックして、手動で交差検定を実行することができます。一部のスコアには、サンプル内予測を示す印としてアスタリスクが付けられていることがあります。データセットが800MBよりも大きい場合、交差検定を行うことはできません。 |
ホールドアウト | モデルのホールドアウトがロック解除されているかどうかを示すロックアイコンを表示します。ロックを解除すると、一部のスコアにアスタリスクが表示されます。これは、スコアの派生にサンプル内予測が使用されたことを示します。 |
指標 | リーダーボードの精度指標を設定(およびその選択内容を表示)します。モデルは、モデル構築プロセスの前に選択された指標でのスコアリング(最高から最低の順)で表示されます。オレンジ色の矢印をクリックすると、最適化指標を変更するプルダウンリストが表示されます。 |
メニュー | モデルの比較、モデルの追加と削除、およびアンサンブルモデルの作成をすばやく行うことができます。 |
検索 | 以下に示すようにモデルを検索します。 |
新しいモデルを追加 | ダイヤログから設定した具体的な条件を基にモデルを追加します。 |
モデルを絞り込む | 星付きのモデルでフィルターします。リーダーボードタグをクリックして選択したタグでフィルターすることもできます。 |
エクスポート | 以下に示すように、リーダーボードの内容をCSVファイルとしてダウンロードできます。 |
クイックリファレンスを目的としたモデルのタグ付け¶
リーダーボードに表示される1つまたは複数のモデルにタグ(星)を付けて、アプリケーションをナビゲートするときにモデルを容易に参照できます。その後、リーダーボードの結果をフィルターして、星付きのモデルだけを表示できます。星タグとバッジフィルター処理を組み合わせて、タグ付きのElastic-Net Classifierモデルだけを表示することなどができます。
モデルに星を付けるには、リーダーボードに表示されるモデルの上にカーソルを置き、空の星印をクリックします。
モデルの選択を解除するには星印を再度クリックします。フィルター処理を行って星付きのモデルだけを表示するには、モデルを絞り込むラベルをクリックして、ドロップダウンからスターを付けたモデルを選択します。
モデルの種類でさらにフィルターするには、結果のモデルバッジをクリックします。(最初にバッジをクリックして、モデルをフィルターすることができます)DataRobotは、アクションバーでフィルター条件をレポートします。
リーダーボードの検索¶
リーダーボードは、検索条件に一致するモデルだけを表示するモデルフィルタリング機能を提供します。検索には3つの方法があります。
-
モデルがタグ付けされたバッジをクリックして、そのタイプに一致するモデルだけを含むリストを再表示します。フィルタータイプはアクションバーに表示されます。
-
検索ボックス内をクリックして入力します。入力するにつれて、リストが自動的にフィルタされ、検索条件に一致する(検索条件を含む)モデルが表示されます。リーダーボード検索では、大文字と小文字が区別されず、下記に絞り込みがかけられます。
検索ボックスへの入力... 検索結果... <model-name>または<model-feature> 検索語に一致する名前や特徴量を持つ全てのモデル。 BIまたはbi 使用可能な前処理情報を含むエクスポート係数を含む全てのモデル。 リファレンス 全てのリファレンスモデル。 インサイト インサイトページに表示される全てのモデル。 チューニング済み 高度なチューニングリンクを使用して作成された全モデル。 <tuned-subtitle>または<tuned-description> 検索語に一致する副タイトルや説明を持つ全てのチューニング済みモデル。 BPxx 供給されたブループリント番号に一致する全てのモデル。検索では「BP」と番号の間にスペースがある場合でもない場合でも入力が受け入れられます。 Mxx 指定したモデル番号に一致する全てのモデル。検索では、「M」と番号の間にスペースがある場合でもない場合でも入力を受け入れます。 -
モデルのフィルタードロップダウンを使用して、星付きのモデルだけを表示できます。
リーダーボードのエクスポート¶
リーダーボードの内容をCSVファイルとしてダウンロードできます。そのためには、操作バーのエクスポートボタンをクリックします。
プレビュー画面が表示されます。
この画面にはリーダーボードのコンテンツ(1)が表示されます。このコンテンツはコピーできます。また、.csvファイル(2)の名前を変更できます。以下の点に注意してください。
- リーダーボードをエクスポートする際に使用できるファイルの種類は.csvだけです。
- ホールドアウトのスコアは、ホールドアウトがロック解除されている場合にのみレポートに含まれます。
コンテンツをエクスポートするには、ダウンロードボタンをクリックします。
アンサンブルモデル¶
アンサンブルモデルは、ブレンダモデルと呼ばれることもあり、2つ以上の予測を組み合わせることによって精度を向上させるモデルです。DataRobotは、オートパイロットの実行後に、上位3つの通常のリーダーボードモデル(PLS、GLM、および平均ブレンダーの場合)と高度なブレンダーの上位8つのモデル(高度な平均、高度なGLM、およびENET)に基づいてブレンダーモデルを自動的に作成します。リーダーボードから手動でアンサンブルモデルを作成することもできます。
アンサンブルモデルの応答時間を改善するために、DataRobotは、オートパイロットによって使用される最大サンプルサイズ(通常64%)でトレーニングされた全モデルの予測を保存し、それらの結果からアンサンブルを作成します。最大サンプルサイズ(従って、最善のパフォーマンスモデルからの予測)のみを保存することには、必要なディスク容量が抑えられるという利点があります。
アスタリスク付きスコア¶
リーダーボードの検定、交差検定、またはホールドアウトスコアにアスタリスクが表示されることがあります。スコアの上にマウスオーバーすると、アスタリスクが付いている理由を説明するツールヒントが表示されます。
備考
アスタリスクが付いたパーティションは、時系列または複数系列プロジェクトに適用されません。
デフォルトでは、DataRobot はデータの最大64%をトレーニングセットに使用します。これは、検定セットやホールドアウトセットのデータを含まない最大のサンプルサイズです(データの16%はセットに、20%はホールドアウトセットに予約されています)。モデルの構築が終了したら、より大きなサンプルサイズ(80%や100%など)で手動でトレーニングできます。64%以上80%未満の場合、モデルは検定セットのデータでトレーニングを行います。80%以上のトレーニングを行う場合、モデルはホールドアウトセットのデータでトレーニングを行います。
結果的に、64%以上のデータでトレーニングするときは、DataRobotは、_検定_スコアをアスタリスク付きで表示し、そのスコアにはサンプル内予測が使用されたことが示されます。80%以上のデータでトレーニングした場合は、_ホールドアウト_スコアにもアスタリスクが表示され、スコアの派生にサンプル内予測が使用されたことを示します。
N/Aスコア¶
リーダーボードの検定、交差検定、またはホールドアウトスコアで、スコアの代わりに「N/A」と表示されることがあります。これは、プロジェクトが検定またはホールドアウトセットにトレーニングされていて、プロジェクトが以下のいずれかの条件に一致する場合に発生します。
- データセットは750MBを超えているため、予測が積み重ねられていないモデルを含む可能性のあるスリムな実行プロジェクトになります。
- これは、日付/時刻パーティションのプロジェクト(OTVおよび時系列)で、そのモデルすべてにスタックされた予測がありません。
- これは、クラスが10以上ある多クラス プロジェクトです。
- これはEureqaプロジェクトです(Eureqaモデルにはスタックされた予測がありません)。