Composable MLの概要¶
Composable MLは、モデル構築に完全な柔軟性のあるアプローチを提供し、構築するモデルへのデータサイエンスと対象分野の専門知識の注入を可能にします。 Composable MLでは、ビルトインタスクとカスタムPython/Rコードを使用して、ニーズに最適なブループリントを構築します。 次に、DataRobot機能(たとえばMLOpsなど)をカスタムブループリントと併用して、生産性を高めます。
Composable MLの使用を開始する¶
詳細情報については、次のリソースをご覧ください。
読む/表示¶
クイックスタート¶
- クイックスタートでは、Composable MLのテストと学習について説明します。
コードの例¶
- タスクのテンプレート
- ドロップイン環境
- ブループリントワークショップで、ブループリントをプログラム的に作成します。
仕組み¶
ブループリント(前処理とモデリングタスクの両方を含むMLパイプライン)を作成するには、これらの4つの主要コンポーネントの一部またはすべてを使用します。
-
タスク:たとえばXGBoostまたはone-hot encoding(ブループリントを定義するために使用される)などのML手法。 何百もの組み込みタスクが用意されており、PythonやRを使って独自のタスクを定義することもできます。 タスクには推定と変換の2種類がありますが、これらについてはブループリントエディターのドキュメントで詳しく説明されています。
-
環境:カスタムタスクを実行するために使用されるDockerコンテナ。
-
モデル:新しいデータをスコアリングできるトレーニングされたMLパイプライン。
-
DataRobotユーザーモデル(DRUM):カスタムタスクの構築、テスト、実行に役立つコマンドラインツール。 カスタムタスクを使用する場合は、PythonパッケージとしてマシンにDRUMをインストールし、DataRobotにアップロードする前に、ローカルでタスクを迅速にテストできるようにします。
Composable MLを使用する理由¶
トレーニングコードをDataRobotに持ち込むことの主な利点には、次のようなものが考えられます。
柔軟性:モデリングと前処理にどのような方法やアルゴリズムでも使用できます。
- PythonやRを使用して、モデリングロジックを定義します。
- PythonとRタスクを単一のブループリントで組み合わせると、DataRobotでデータ変換が処理されます。
- 依存関係をインストールし、必要に応じて、独自のDockerコンテナを持ち込みます。
生産性:ビルトインコンポーネントを瞬時に統合できるため、エンドツーエンドのフローを効率化できます。 DataRobotのインフラでブループリントがトレーニングされると、モデルのリーダーボード、MLOps、コンプライアンスドキュメント、モデルのインサイト、特徴量探索などに即座にアクセスできます。
コラボレーション:ブループリントとタスクを再利用することで、組織が真のモデリングコラボレーションを実現できます。
- 専門家はカスタムタスクとブループリントを構築できます。組織全体のユーザーは、コードの読み取りを必要とせずに、数回のクリックでそれらの作成を容易に再利用できます。
- 市民データサイエンティストは、データサイエンス専門家とモデルを共有し、専門家はさらなる実験を行ってモデルを強化できます。
ユースケース¶
試すべきいくつかの項目:
-
ビジネスとデータサイエンスの知識を組み込むための前処理と推定機能を実験してみてください。
-
規制/コンプライアンスの要件を遵守するための特定の前処理ステップを取り除きます。
-
ドメイン固有のデータ (IP、化学式など)を使用してモデルのトレーニングとデプロイを行います。
-
特定のユースケースのために最先端のアルゴリズムのライブラリを作成し、組織全体で容易に活用できるようにします(データサイエンティストがカスタムMLアルゴリズムを構築し、ビジネスアナリストと共有することで、ビジネスアナリストはそれらをコーディングなしで利用できるようになります)。
-
既存のMLモデルをAutoMLを比較して、より優れたモデルを見つけるか、独自のモデルを改善する方法を学習することができます。