Skip to content

予測ワークフローの概要

このセクションでは、ワークベンチでの予測モデルの構築手順について、一般的な説明を行います。 予測モデリング方法の説明については、予測モデリングの基礎を参照してください。

予測モデルトレーニングのワークフロー

このセクションでは、DataRobotのモデリングエクスペリメントを実施する手順について説明します。

  1. モデリングプロセスを開始するには、 データをインポート、または データをラングリングして、モデリング用のデータにアクセスして変換する、シームレスで、スケーラブルで、安全な方法を提供します。

  2. DataRobotは探索的データ解析(EDA1)の第1段階を実施し、データ特徴量を分析します。 登録が完了すると、データプレビュータブにヒストグラムやサマリー統計などの特徴量の詳細が表示されます。

  3. 次に、教師ありモデリングでは、ターゲットを選択し、必要に応じて他の基本または高度なエクスペリメント設定を変更します。 次に、 モデリングを開始します

    DataRobotは特徴量セットを生成し、そこからモデルを構築します。 デフォルトでは、最も有用な特徴量を含む特徴量セットを使用します。 または、生成済みのさまざまな特徴量セットを選択、または 独自に作成できます。

  4. DataRobotはEDA2中にデータをさらに評価して、どの特徴量がターゲットに相関しているか(特徴量の有用性)、その他の情報の中でどの特徴量が有用であるかなどを判断します。

    アプリケーションはエクスペリメントタイプと選択した設定に応じて、特徴量セットの変換、生成、および削減を行う特徴量エンジニアリングを実行します。

  5. DataRobotはエクスペリメントタイプに基づいて、ブループリントを選択し、候補モデルを構築します。

モデルの分析と選択

DataRobotはモデルを自動生成し、リーダーボードに表示します。 最も精度の高いモデルが選択され、データの100%でトレーニングされ、デプロイの準備済み****バッジでマークされます。

モデルの分析と選択を行うには:

  1. 指標ドロップダウンから 最適化指標を選択して、モデルを比較します。

  2. 構築しているモデルのタイプに最適な視覚化ツールを使用して、モデルを分析します。 単一のユースケース内のエクスペリメントに対して モデル比較を使用します。

    以下のエクスペリメントタイプと関連する視覚化のリストを参照してください。

  3. さまざまなモデリング設定を試して、モデルの精度を向上させてください。 別の特徴量セットまたはモデリングモードを使用して モデリングを再実行してみることができます。

  4. モデルを分析したら、最適なモデルを選択し、レジストリに送信して、デプロイ可能なモデルパッケージを作成します。

    ヒント

    デプロイする前に予測をテストすることをお勧めします。 結果に満足できない場合は、モデリングプロセスを再検討し、特徴量セットと最適化設定を使用してさらに試してみてください。 また、より有用なデータ特徴量を収集することで結果を改善できる場合もあります。

  5. デプロイプロセスの一環として、 予測を作成します。 定期的なバッチ予測ジョブを設定することもできます。

  6. DataRobotでは、さまざまな指標を使用してデプロイを 監視します。 アプリケーションの視覚化を使用して、データ(特徴量)ドリフト、精度、 バイアス、サービス正常性などを追跡します。 通知を設定すると、モデルのステータスが定期的に通知されます。

    ヒント

    エンドツーエンドのワークフローを自動化するために、自動再トレーニングの有効化を検討してください。 自動再トレーニングにより、DataRobotはチャレンジャーモデルを現在の最良のモデル(チャンピオンモデル)に対して定期的にテストし、チャレンジャーがそれを上回った場合、チャンピオンを置き換えます。

どの視覚化機能を使うべきか?

モデルのインサイトは、モデルによる予測の根拠を解釈、説明、検定するのに役立ちます。 その後、次のエクスペリメントで行うことを評価するために使用されます。 多くの視覚化機能が用意されていますが、すべてのモデリングエクスペリメントに適用できるわけではありません。利用できる視覚化機能は、エクスペリメントのタイプによって異なります。 次の表に、エクスペリメントのタイプと、その分析に適した視覚化機能のを示します。 エクスペリメントのリーダーボードからアクセスできる内容については、インサイトの全リストを参照してください。

エクスペリメントタイプ 分析ツール
すべてのモデル
  • 特徴量のインパクト:モデルの決定を最も強力に推進している特徴量を識別する概要レベルの視覚化を提供します。
  • 特徴量ごとの作用:モデルの予測の各特徴量の値の変化による影響を示します。
  • 個々の予測の説明:行単位の予測を推進するものを示し、特定のモデルが特定の予測をした理由を回答します。
連続値
  • リフトチャート:モデルがターゲットの母集団をどの程度適切にセグメント化しているか、およびモデルがターゲットを予測できるかを示します。
  • 残差プロット:使用するデータセットの実測値に対してモデルがどの程度線形にスケーリングされるかを示すことで、連続値モデルの予測パフォーマンスと妥当性を示します。
分類
時間認識モデリング(時系列と時間外検定)
  • 時系列の精度:時系列での予測がどのように変化するかを視覚化します。
  • 予測値と実測値の比較:さまざまな予測ポイントからさまざまな予測がどのように動作するかを将来のさまざまな時間で比較できます。
  • 予測距離ごとの精度:エクスペリメントの予測ウィンドウの各予測距離でのモデルの予測精度を示す視覚的インジケーターを提供します。
  • 安定性:さまざまなバックテストにおけるモデルのパフォーマンスを一目で把握できるサマリーを提供します。
  • 時間経過チャート:プライマリー日付/時刻特徴量で特徴量がどのように変化するかを視覚化することで、データの傾向と潜在的なギャップを特定します。 特徴量の順序付けを選択すると、時間の経過に伴う特徴量のヒストグラムが表示されます。
複数系列 系列のインサイト:系列固有の情報のヒストグラムと表を提供します。
セグメント化されたモデリング セグメンテーションタブ:統合されたモデルの各セグメントに関するデータを表示します。
多ラベルモデリング 指標値:予測しきい値(ページから設定可能)のさまざまな値について、ラベル全体のパフォーマンスを要約します。
Image augmentation
Text AI
地理空間AI
  • 位置ごとの異常:検定パーティションに基づいて、一意のマップ上に異常なスコア値を表示します。
  • 位置ごとの精度:個々のモデル内の空間残差マッピングが表示されます。
クラスタリング
  • クラスターインサイト:データ内の潜在的な特徴量を捉えたり、実用的なインサイトを把握して伝達したり、さらにモデリングするためにセグメントを特定したりします。
  • [画像埋め込み]/ml-image-embeddings){ target=_blank }:類似性によって定義された2次元空間に、画像の実験結果を表示します。
  • アテンションマップ:モデルが予測を行うときに使用する画像の領域を視覚化します。
異常検知
  • 時間経過に伴う異常:データのタイムライン全体で異常がどのように発生するかをプロットします。
  • 異常評価:選択したバックテストのデータがプロットされ、最大500の異常ポイントのSHAPの説明が表示されます。