Composable MLクイックスタート¶
Composable MLは、カスタムMLアルゴリズムを構築し、他の組み込み機能(リーダーボードやMLOpsなど)と一緒に使用して、エンドツーエンドフローを合理化し、生産性を向上させる高い柔軟性を実現します。 このクイックスタートは、独自のユースケースに適用できるように、Composable MLのテストと学習を示す例を提供します。
次のセクションでは、カスタムアルゴリズムを使用してブループリントを構築します。 具体的には、以下のことを行います。
- プロジェクトを作成し、ブループリントエディターを開く
- 欠損値補完タスクをビルトイン代替に置き換えます。
- カスタム欠損値補完タスクを作成します。
- カスタムタスクをブループリントに追加し、トレーニングします。
- 結果を評価し、デプロイします。
プロジェクトを作成し、ブループリントエディターを開く¶
この例では、ビルトイン欠損値補完タスクをカスタム補完タスクに置き換えます。 まず、プロジェクトを作成し、ブループリントエディターを開きます。
-
10K Lending Club Loansデータセットでプロジェクトを開始します。 ダウンロードしてローカルファイルとしてインポートするか、URLを提供できます。 次のパラメーターを使用して、プロジェクトを設定します。
- ターゲット:is_bad
- オートパイロットモード:fullまたはQuick
-
使用可能な場合、リーダーボードでモデルを展開して、説明 > ブループリントタブを開きます。 コピーと編集をクリックして、ブループリントエディターを開きます。ブループリントエディターでは、ブループリントからタスクの追加、置換、削除(およびAIカタログでのブループリントの保存)が可能です。
タスクを置き換える¶
ブループリント内の欠損値補完タスクを代替に置き換え、新しいブループリントをAIカタログに保存します。
-
補完された欠損値を選択し、鉛筆アイコン(
)をクリックしてタスクを編集します。
-
表示されたダイアログで、代替欠損値補完タスクを選択します。
- タスク名をクリックします。
- 前処理 > 数値前処理を展開します。
- 欠損値補完[PNI2]を選択します。
選択したら、更新をクリックしてタスクを変更します。
-
AIカタログに追加をクリックして、さらなる編集、他のプロジェクトでの使用、共有のためにAIカタログに保存します。
-
ハイライトされたタスクにカーソルを合わせて潜在的な問題を評価します。 すべてのタスクに問題がないことを確認したら、モデルをトレーニングします。
トレーニングされた後、新しいモデルがプロジェクトのリーダーボードに表示されます。リーダーボードでは、他のブループリントとの精度の比較、インサイトの探索、モデルのデプロイが可能です。
カスタムタスクの作成¶
ビルトインタスク間で使用できないアルゴリズムを使用するには、コードを使用してカスタムタスクを定義できます。 作成したら、そのコードをタスクとしてアップロードし、それを使用して1つまたは複数のブループリントを定義します。 クイックスタートのこの部分では、DataRobotによって提供されるタスクテンプレートを使用しますが、独自のカスタムタスクを作成することもできます。
タスクコードを(ローカルに)書き終えたら、DataRobotプラットフォーム内でカスタムタスクを利用できるようにするには、3つの手順が必要です。
- モデルレジストリに新しいカスタムタスクを追加します。
- タスクを実行する環境を選択します。
- タスクコードをDataRobotにアップロードします。
新しいタスクを追加¶
新しいタスクを作成するには、モデルレジストリ > カスタムモデルワークショップ > タスクに移動し、+ 新しいタスクを追加を選択します。
- この例ではタスクMVIの名前を入力します。
-
推定または変換のいずれかのタスクのタイプを選択します。 この例では、変換を作成します(欠損値補完は変換であるため)。
カスタム推定器を作成する場合
推定器タスクを作成する際、タスクが使用されるターゲット(プロジェクト)タイプを選択します。 推定器として、識別されたプロジェクトタイプでのみ使用できます。
-
カスタムタスクを追加をクリックします。
環境を選択¶
タスクタイプを作成したら、タスクを実行するコンテナ環境を選択します。 この例では、DataRobotによって提供される環境の1つを使用しますが、独自のカスタム環境を作成することもできます。
環境を変換の下の基本環境をクリックして、[DataRobot] Python 3 Scikit-Learn Drop-Inを選択します。
タスクコンテンツをアップロード¶
環境を選択すると、タスクコンテンツ(コード)をロードするオプションが使用可能になります。 ローカルマシンから直接インポートすることも、この例のようにリモートリポジトリからアップロードすることもできます。 リモートリポジトリを追加していない場合は、GitHubでDataRobot Model Runnerリポジトリを追加して認証し、リポジトリの場所としてhttps://github.com/datarobot/datarobot-user-models
を指定します。
DRUMリポジトリからファイルをプルするには:
-
変換を作成の下の変換グループボックスで、リモートリポジトリを選択するをクリックします。
変換グループボックスが空の場合は、タスクに基本環境を選択していることを確認します。
-
リモートリポジトリを選択ダイアログボックスで、リストからDRUMリポジトリを選択し、コンテンツを選択をクリックします。
備考
リモートリポジトリを追加していない場合は、リポジトリを追加 > GitHubをクリックして、GitHubリポジトリを認証し、リポジトリの場所として
https://github.com/datarobot/datarobot-user-models
を指定します。 -
GitHubリポジトリからプルするダイアログボックスで、
task_templates/1_transforms/1_python_missing_values
に進み、タスクファイルをカスタムタスクにプルしたいディレクトリ全体のチェックボックスをオンにします。備考
このクイックスタートガイドではGitHubを例にしていますが、各リポジトリタイプで手順は同じです。
ヒント
ダイアログボックスの下部に、選択したファイルの数が表示されます (例:2つ以上のファイルが追加されます)。
-
カスタムタスクにプルする
task_templates/1_transforms/1_python_missing_values
ファイルを選択したら、プルをクリックします。DataRobotがGitHubコンテンツを処理すると、新しいタスクバージョンとタスクを適用するオプションが使用可能になります。 タスクのバージョンは、カスタムタスクの一部としてモデルレジストリ > カスタムモデルワークショップ > タスクの変換ヘッダーの下にも保存されます。
新しいタスクを適用し、トレーニングを行う¶
新しいタスクを適用するには:
-
リーダーボードに戻り、任意のモデルを選択します。 コピーして編集をクリックしてブループリントを変更します。
-
欠損値補完タスクまたは数値データのクレンジングタスクを選択し、鉛筆(
)アイコンをクリックして変更します。
-
タスクウィンドウでタスク名をクリックして置き換えます。 カスタムで、作成したタスクを選択します。 更新をクリックします。
-
トレーニング(右上)をクリックして、トレーニング特徴量を設定するウィンドウを開き、リーダーボードから新しいモデルを作成します。
ヒント
リーダーボードで簡単に見つけることができるようにカスタマイズされたブループリントの再ラベル付けを検討してください。
評価とデプロイ¶
トレーニングされた後、プロジェクトリーダーボードにモデルが表示され、他のカスタムおよびDataRobotモデルと精度を比較できます。 ユーザーモデルを示すため、アイコンが変わります。 この時点では、モデルは他のモデルと同様に扱われ、指標とモデルに依存しないインサイトを提供し、MLOpsを通じてデプロイおよび管理できます。
指標の比較:
特徴量のインパクトの表示:
備考
カスタマイズされたブループリントからトレーニングされたモデルの場合、プロジェクトの設定に関係なく、特徴量のインパクトは常にPermutationベースのアプローチで計算されます。
モデル比較の使用:
数回のクリックで最高のモデルをデプロイできます。
Composable MLの使用の詳細については、他の使用可能な学習リソースを参照してください。