ブループリント¶
予測モデルを構築する過程において、DataRobotは各アルゴリズムの幾つもの異なるバージョンを実行し、データ処理およびパラメーター設定の考えられる組み合わせを何千通りもテストします。 (モデルの多くは、DataRobot独自のアプローチを使用し、データの前処理を行います。) このテストの結果は、ブループリントタブで表示できます。
ブループリントは、前処理のステップ、モデリングアルゴリズム、後処理ステップを含むMLパイプラインです。 オートパイロットの一部として自動的に生成することも、手動/プログラムで生成することもできます。 ブループリントは、アプリケーションの3箇所に含まれます。
- リーダーボードから、トレーニング済みのモデル(このタブ)で利用可能な視覚化として。
- プロジェクトのオートパイロットにより生成された(ただし構築されているとは限らない)すべてのブループリントを含むリポジトリから。
- AIカタログの、ブループリントタブの下。
モデルとブループリント違いとは何ですか?
モデリングアルゴリズムは、モデルをデータに適合させます。 これは、ブループリントの1要素に過ぎません。ブループリントは、前処理のステップ、モデリング、後処理のステップなど、モデルを学習させる際の高レベルのエンドツーエンド手順を表します。
ブループリントを表示する¶
ブループリントのグラフィック表現を表示するには、リーダーボード内でモデルをクリックします。
ブループリントのコンポーネント¶
各ブループリントには、いくつかの重要なセクションがあります。
セクション | 説明 |
---|---|
Data |
受信データ。各タイプ(カテゴリー、数値、テキスト、画像、地理空間など)に分けられます。 |
変換 | データでの変換を実行するタスク(Missing values imputed など)。 データセットにおいては、必要とされる準備や変換のタイプが列ごとに異なります。 たとえば、一部のアルゴリズムは、平均を差し引き、入力データの標準偏差で除算することを勧めていますが、テキスト入力データについてはこの方法は意味がありません。 ブループリントの実行における最初の手順として、グループを成す複数データ型を特定し、別々に処理できるようにします。 |
モデル | 予測を作成、または場合によってはスタックされた予測を後続のモデルに提供するモデル。 |
後処理 | 後処理の手順(Calibration など)。 |
Prediction |
最終予測として送信されるデータ。 |
各ブループリントにはノードとエッジ(接続)があります。 ノードはデータを取り込み、操作を実行し、データを新しい形式で出力します。 エッジは、データの流れを表したものです。
単一ノードが2つのエッジを受信した場合:
これは、ノードが受信している2組の列を表しています(2組の列は水平にスタックされています)。 つまり、受信データの列数は2組の列の合計であり、行数は同じままです。
2つのエッジが単一のノードによって出力された場合は、他のノードに送信された出力データの2つのコピーを表しています。 ブループリント内の他のノードは、他の種類のデータ変換またはモデルです。
ブループリントノードをクリックして、モデルドキュメントへのアクセスなどの追加情報を表示します。
ブループリントコントロール¶
ブループリントキャンバスから、次の操作ができます。
- クリック、保留、およびドラッグして、キャンバスの周りにブループリントを移動します。
- 後で編集、再利用、共有するために、ブループリントをAIカタログに追加します。
- ブループリントをコピーおよび編集します。