How-to:予測モデルの構築¶
この基本ステップでは、DataRobotを使って再入院リスクのある患者を特定し、再入院率の低減、および最大限のケアと最小限のコストを実現する方法を説明します。 ユースケースの詳細についてはこちらを参照してください。また、YouTubeで動画版もご覧いただけます。
ダウンロードするアセット¶
この基本ステップを実行するには、以下のリンクから2つのデータセットをダウンロードしてください。
トレーニングデータをダウンロード スコアリングコードをダウンロードする
1. ユースケースの作成¶
DataRobotのユースケースは、ワークベンチのエクスペリメントフローの一部であるオブジェクトをグループ化したコンテナです。これには、データセット、モデル、エクスペリメント、ノーコードAIアプリ、ノートブックを含めることができます。 ユースケースを作成するには:
ユースケースが作成されたので、上記リンク先のファイルからデータをアップロードすることができます。
2. データファイルのアップロード¶
-
開いているユースケースで、予測AIボックスを見つけ、データをクリックします。
-
ファイルをアップロードをクリックします。
-
前にダウンロードしたトレーニングデータセットファイルをアップロードし、ユースケースへの登録が完了するまで待ちます。
3. データセットのプレビュー¶
ユースケース内のすべてのファイルは、データアセットタブに含まれています。 それらを表示するには、開いているユースケースからデータアセットをクリックします。
データセットをクリックすると、そのデータセットの特徴量の構造と値を確認できます。 この例では、10k_diabetes.csvを選択します。
詳しくはこちら:データの操作
4. データのラングリング¶
データのアクション > ラングラーで開くをクリックして、データソースからランダムなデータサンプルをプルし、変換操作を開始します。
詳しくはこちら:データのラングリング
5. レシピの構築¶
操作の追加をクリックして、ラングリングの「レシピ」を構築します。 新しい操作を行うたびに、ライブサンプルが更新され、変換が反映されます。 トレーニングデータセットをラングリングする場合は、同じ列が存在するように、スコアリングデータセットに同じ操作を適用する必要があることに注意してください。
詳しくはこちら:操作の追加
6. 新しい特徴量を計算¶
レシピパネルには、実行可能なさまざまなラングリング操作が一覧表示されます。 新しい特徴量を計算をクリックすると、データセットの既存の特徴量から新しい出力特徴量(ビジネス上の問題をより適切に表すもの)を作成できます。
新しい特徴量を計算ウィンドウでは、新しい特徴量を定義する関数とサブクエリーを追加します。 以下に示された名前と式を入力し、完了したらレシピに追加をクリックします。 この変換では、年齢範囲が1つの整数になります。
新しい特徴量名: convert_age_range_to_integer
式:CAST(regexp_extract(`age`, '\\[([0-9]+)', 1) AS INT )
詳しくはこちら:新しい特徴量を計算
7. パブリッシュの準備¶
操作の追加が完了したら、ライブサンプルを評価し、適用された操作がパブリッシュできる状態になっていることを確認します。 出力データセットの最終的なパブリッシュ設定を行うには、レシピのアクション > パブリッシュをクリックします。
最終的な出力データセットの条件(名前や、有効な場合は自動ダウンサンプリングの仕様など)を設定します。 パブリッシュをクリックすると、レシピがソースに適用され、新しい出力データセットが作成されてデータレジストリに登録され、ユースケースに追加されます。
詳しくはこちら:レシピのパブリッシュ
8. 新しいデータセットを探索¶
変換され、パブリッシュされたデータセット(ラングリングのタイムスタンプで識別可能)が、ユースケースのデータアセットタブに追加されました。 データセットをクリックすると、ラングリングされた新しい特徴量を含む最終的な特徴量セットを確認し、特徴量のインサイトを探索することができます。
データセットに更なる修正が必要な場合は、そのままラングリングを続けることができます。 そうでなければ、新しい出力データセットから、データのアクション > モデリングを開始をクリックして、新しいエクスペリメントを設定します。
詳しくはこちら:データのインサイトを表示
9. エクスペリメントの作成¶
DataRobotでデータセットを準備したら、そのデータを使用して新しいエクスペリメントを作成できます。 まず、学習タイプドロップダウンを使用して、実行したいエクスペリメントのタイプ(教師ありまたは教師なし)を選択します(各学習タイプの詳細については、予測エクスペリメントのドキュメントを参照してください)。
この例では、教師ありを選択します。
次に、ターゲット特徴量フィールドを使って、データセットのどの列に対して予測を行うかを指定します。
このユースケースでは、Readmittedという名前を入力します。
ターゲット特徴量の分布がヒストグラムで示され、右側のパネルにエクスペリメント設定の概要が表示されます。 表示された特徴量のリストには、選択した特徴量セットが反映されています。 各特徴量については、特徴量セットのドキュメントで詳しく説明されています。
詳しくはこちら:ターゲットを選択
10. オプション設定の適用¶
次へをクリックして、エクスペリメントをさらに詳細に設定します。
DataRobotでは、データに基づいてデフォルトのパーティショニングと検定が設定されます。しかし、エクスペリメントのパラメーターを変更することで、ユースケースを繰り返し試行できます。 右側のパネルに表示されたエクスペリメントのサマリー情報を確認し、モデリングを開始をクリックしてオートパイロットを起動します。
詳しくはこちら:設定をカスタマイズ
11. モデリングの開始¶
モデリングを開始すると、ワークベンチはモデルのリーダーボードの構築を開始します。
最終的に、DataRobotは最も精度の高いモデルを選択して再トレーニングし、「デプロイの準備済み」とマークします。 モデルの構築を進めながら、完成したモデルをクリックし、モデル評価のために利用できるインサイトを確認します。 各モデルのランディングページでは、そのモデルで取得可能なインサイトを表示した概要が提供されますが、これはエクスペリメントのタイプによって異なります。
特徴量のインパクトをクリック(求められた場合は計算もクリックします)することで、どの特徴量がモデルの決定を促しているかを視覚化できます。
詳しくはこちら:エクスペリメントの評価
12. モデリングパイプラインの表示¶
選択したモデルで詳細タブをクリックし、ブループリントを選択します。 これにより、モデルの構築に必要な前処理と後処理の手順を確認できます。
詳しくはこちら:ブループリント
次のステップ¶
確認が終わったら、次のことができます。
モデルアクションから、モデルのさまざまな次のステップにアクセスできます。
| アクション | 説明 | 続けて読む |
|---|---|---|
| モデルの登録 | バージョン管理されたデプロイ可能なモデルパッケージを作成します。 | How-to:運用とガバナンスの基本ステップ |
| 予測の作成 | 新規データ、登録データ、またはトレーニングデータに対して1回限りの予測を行い、リーダーボードモデルを検定します。 | ワークベンチから予測を行う |
| ノーコードアプリを作成 | ノーコードAIアプリのテンプレートを使用して、アプリケーションを構築します。このアプリケーションによってDataRobotのコアサービスを利用できます。また、DataRobotのライセンスを持っているかどうかにかかわらず、他のユーザーとアプリケーションを共有できます。 | アプリケーションの作成 |
| モデルを削除 | 選択したモデルをユースケース(および関連するリーダーボード)から完全に削除します。 | N/A |
運用とガバナンスの基本ステップで、デプロイされたモデルを登録し、監視します。
























