モデル構築の基本ステップ¶
このチュートリアルでは、DataRobotを使って再入院リスクのある患者を特定し、再入院率の低減、および最大限のケアと最小限のコストを実現する方法を説明します。 ユースケースの詳細についてはこちらをご覧ください。 以下の操作を行います。
- データのラングリング。
- モデルの構築。
- パフォーマンスの評価。
動画を視聴する
ダウンロードするアセット¶
この基本ステップに従って操作するには、ZIPファイルをダウンロードして解凍します。 中にはTXTファイル、CSVファイル、別のZIPファイルがあります。
トレーニングデータをダウンロード スコアリングコードをダウンロードする
1. 再入院データセットのプレビュー¶
ユースケース内のデータタブから、関連するすべてのデータセットを確認することができます。 特徴量を確認したいデータセットをクリックします。
データセットの特徴量の構造と値を調べます。
詳しくはこちら:データの操作
2. データのラングリング¶
開始 > ラングリングを開始をクリックして、データソースからランダムなデータサンプルを取り出し、変換操作を開始します。
詳しくはこちら:データのラングリング
3. レシピの構築¶
ラングリングの「レシピ」を構築するには操作の追加をクリックします。新しい操作が行われるたびにライブサンプルが更新されて、変換が反映されます。 トレーニングデータセットをラングリングする場合は、同じ列が存在するように、スコアリングデータセットに同じ操作を適用する必要があることに注意してください。
詳しくはこちら:操作の追加
4. 新しい特徴量を計算¶
レシピパネルには、実行可能なさまざまなラングリング操作が一覧表示されます。 新しい特徴量を計算をクリックすると、データセットの既存の特徴量から新しい出力特徴量を作成できます(ビジネス上の問題がより適切に表現されます)。
f(x)特徴量設定ウィンドウでは、新しい特徴量を定義する関数とサブクエリーを追加します。 以下に示された名前と式を入力し、完了したらレシピに追加をクリックします。 この変換では、年齢範囲が1つの整数になります。
新しい特徴量名: convert_age_range_to_integer
式:to_number(REGEXP_SUBSTR("age", '\\[(\\d+)-\\d+\\)', 1, 1, 'e'))
詳しくはこちら:新しい特徴量を計算
5. パブリッシュの準備¶
操作の追加が完了したら、適用された操作がパブリッシュの準備ができていることをライブサンプルから確認します。 出力データセットの最終的なパブリッシュ設定を行うには、レシピをパブリッシュをクリックします。
最終的な出力データセットの条件(名前や、有効な場合は自動ダウンサンプリングの仕様など)を設定します。 パブリッシュをクリックすると、レシピがソースに適用され、新しい出力データセットが作成されてデータレジストリに登録され、最後にユースケースに追加されます。
詳しくはこちら:レシピのパブリッシュ
6. 新しいデータセットを探索¶
変換され、パブリッシュされたデータセット(ラングリングのタイムスタンプで識別可能)が、ユースケースのデータタブに追加されました。 データセットをクリックすると、ラングリングされた新しい特徴量を含む最終的な特徴量セットを確認し、特徴量のインサイトを探索することができます。
データセットに更なる修正が必要な場合は、そのままラングリングを続けることができます。 そうでなければ、新しい出力データセットから、開始 > モデリングをクリックして新しいエクスペリメントを設定します。
詳しくはこちら:データのインサイトを表示
7. エクスペリメントを作成¶
DataRobotがデータセットを準備したら、データセットの中で予測を行いたい列(ターゲット)の名前を入力します。 このユースケースでは、ターゲット特徴量名としてReadmitted
を入力します。 DataRobotは、ターゲット特徴量の分布をヒストグラムで表示します。 右側のパネルには、エクスペリメントの設定がまとめられています。 表示された特徴量のリストには、選択した特徴量セットが反映されています。
詳しくはこちら:ターゲットを選択
8. オプション設定の適用¶
次へをクリックして、エクスペリメントをさらに詳細に設定します。
DataRobotでは、データに基づいてデフォルトのパーティショニングと検定が設定されます。 しかし、エクスペリメントのパラメーターを変更することで、ユースケースを繰り返し使用することができます。 右側のパネルのエクスペリメントサマリー情報に注目してください。 モデリングを開始をクリックして、オートパイロットを起動します。
詳しくはこちら:設定をカスタマイズ
9. モデリングを開始¶
モデリングを開始すると、ワークベンチはモデルのリーダーボードの構築を開始します。 最終的に、DataRobotは最も精度の高いモデルを選択して再トレーニングし、「デプロイの準備済み」とマークします。 モデルの構築を進めながら、完成したモデルをクリックし、モデル評価のために利用できるインサイトを確認します。 概要ページには、そのモデルで取得可能なインサイトが表示されますが、これはエクスペリメントのタイプによって異なります。
特徴量のインパクトをクリックし、求められた場合は計算することで、どの特徴量がモデルの決定を促しているかを視覚化することができます。
詳しくはこちら:エクスペリメントの評価
10. モデリングパイプラインを表示¶
ここでブループリントをクリックして、モデルの構築に必要な前処理と後処理の手順を確認します。
詳しくはこちら:ブループリント
次のステップ¶
確認が終わったら、次のことができます。
モデルアクションから、モデルのさまざまな次のステップにアクセスできます。
アクション | 説明 | 続けて読む |
---|---|---|
モデルの登録 | バージョン管理されたデプロイ可能なモデルパッケージを作成します。 | 運用とガバナンスの基本ステップ |
予測の作成 | 新規データ、登録データ、またはトレーニングデータに対して1回限りの予測を行い、リーダーボードモデルを検定します。 | ワークベンチから予測を行う |
アプリを作成 | ノーコードAIアプリのテンプレートを使用して、ノーコードのインターフェイスと組み合わせ、アプリケーションを構築します。このアプリケーションによってDataRobotのコアサービスを利用できます。また、DataRobotのライセンスを持っているかどうかにかかわらず、他のユーザーとアプリケーションを共有できます。 | アプリケーションの作成 |
コンプライアンスレポートを生成 | 規制当局の検証に使用できるモデル開発ドキュメントを作成し、ダウンロードします。 青色の斜体文字はガイダンスと指示、黒色の文字は自動生成されたモデルコンプライアンステキスト(前処理、パフォーマンス、インパクト、タスク固有、および一般的なモデル情報)を示します。 | レジストリからも入手可能 |
モデルを削除 | 選択したモデルをユースケース(および関連するリーダーボード)から完全に削除します。 | N/A |
運用とガバナンスの基本ステップで、デプロイされたモデルを登録し、監視します。