予測ワークフローの概要¶
このセクションでは、ワークベンチでの予測モデルの構築手順について、一般的な説明を行います。 予測モデリング方法の説明については、予測モデリングの基礎を参照してください。
予測モデルトレーニングのワークフロー¶
このセクションでは、DataRobotのモデリングエクスペリメントを実施する手順について説明します。
-
モデリングプロセスを開始するには、 データをインポート、または データをラングリングして、モデリング用のデータにアクセスして変換する、シームレスで、スケーラブルで、安全な方法を提供します。
-
DataRobotは探索的データ解析(EDA1)の第1段階を実施し、データ特徴量を分析します。 登録が完了すると、データプレビュータブにヒストグラムやサマリー統計などの特徴量の詳細が表示されます。
-
次に、教師ありモデリングでは、ターゲットを選択し、必要に応じて他の基本または高度なエクスペリメント設定を変更します。 次に、 モデリングを開始します。
DataRobotは特徴量セットを生成し、そこからモデルを構築します。 デフォルトでは、最も有用な特徴量を含む特徴量セットを使用します。 または、生成済みのさまざまな特徴量セットを選択、または 独自に作成できます。
-
DataRobotはEDA2中にデータをさらに評価して、どの特徴量がターゲットに相関しているか(特徴量の有用性)、その他の情報の中でどの特徴量が有用であるかなどを判断します。
アプリケーションはエクスペリメントタイプと選択した設定に応じて、特徴量セットの変換、生成、および削減を行う特徴量エンジニアリングを実行します。
-
DataRobotはエクスペリメントタイプに基づいて、ブループリントを選択し、候補モデルを構築します。
モデルの分析と選択¶
DataRobotはモデルを自動生成し、リーダーボードに表示します。 最も精度の高いモデルが選択され、データの100%でトレーニングされ、デプロイの準備済み****バッジでマークされます。
モデルの分析と選択を行うには:
-
指標ドロップダウンから 最適化指標を選択して、モデルを比較します。
-
構築しているモデルのタイプに最適な視覚化ツールを使用して、モデルを分析します。 単一のユースケース内のエクスペリメントに対して モデル比較を使用します。
以下のエクスペリメントタイプと関連する視覚化のリストを参照してください。
-
さまざまなモデリング設定を試して、モデルの精度を向上させてください。 別の特徴量セットまたはモデリングモードを使用して モデリングを再実行してみることができます。
-
モデルを分析したら、最適なモデルを選択し、レジストリに送信して、デプロイ可能なモデルパッケージを作成します。
ヒント
デプロイする前に予測をテストすることをお勧めします。 結果に満足できない場合は、モデリングプロセスを再検討し、特徴量セットと最適化設定を使用してさらに試してみてください。 また、より有用なデータ特徴量を収集することで結果を改善できる場合もあります。
-
デプロイプロセスの一環として、 予測を作成します。 定期的なバッチ予測ジョブを設定することもできます。
-
DataRobotでは、さまざまな指標を使用してデプロイを 監視します。 アプリケーションの視覚化を使用して、データ(特徴量)ドリフト、精度、 バイアス、サービス正常性などを追跡します。 通知を設定すると、モデルのステータスが定期的に通知されます。
ヒント
エンドツーエンドのワークフローを自動化するために、自動再トレーニングの有効化を検討してください。 自動再トレーニングにより、DataRobotはチャレンジャーモデルを現在の最良のモデル(チャンピオンモデル)に対して定期的にテストし、チャレンジャーがそれを上回った場合、チャンピオンを置き換えます。
どの視覚化機能を使うべきか?¶
モデルのインサイトは、モデルによる予測の根拠を解釈、説明、検定するのに役立ちます。 その後、次のエクスペリメントで行うことを評価するために使用されます。 多くの視覚化機能が用意されていますが、すべてのモデリングエクスペリメントに適用できるわけではありません。利用できる視覚化機能は、エクスペリメントのタイプによって異なります。 次の表に、エクスペリメントのタイプと、その分析に適した視覚化機能の例を示します。 エクスペリメントのリーダーボードからアクセスできる内容については、インサイトの全リストを参照してください。
| エクスペリメントタイプ | 分析ツール |
|---|---|
| すべてのモデル | |
| 連続値 | |
| 分類 |
|
| 時間認識モデリング(時系列と時間外検定) |
|
| 複数系列 | 系列のインサイト:系列固有の情報のヒストグラムと表を提供します。 |
| セグメント化されたモデリング | セグメンテーションタブ:統合されたモデルの各セグメントに関するデータを表示します。 |
| 多ラベルモデリング | 指標値:予測しきい値(ページから設定可能)のさまざまな値について、ラベル全体のパフォーマンスを要約します。 |
| Image augmentation |
|
| Text AI | |
| 地理空間AI | |
| クラスタリング |
|
| 異常検知 |







