Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

予測モデリングの基礎

DataRobot offers both generative and predictive AI solutions.

Predicitve AI, available in both the Classic and NextGen experiences, uses automated machine learning (AutoML) to build models that solve real-world problems across domains and industries. 提供されたデータを取得し、複数の機械学習(ML)モデルを生成し、使用するのに最適なモデルを推奨します。 DataRobotを使用してMLモデルを構築する上でデータサイエンティストである必要はありませんが、基本を理解すると、より優れたモデルを構築するのに役立ちます。 ドメイン知識とDataRobotのAI専門知識により、速度と精度を使用して問題を解決できるようになります。

DataRobotは、教師あり学習、教師なし学習、時系列モデリング、セグメント化モデリング、マルチモーダルモデリングなど、MLモデリングへのさまざまなアプローチをサポートしています。 このセクションでは、これらのアプローチについて説明し、デプロイに最適なモデルを分析および選択するためのヒントも伝授します。

Generative AI (GenAI), available in DataRobot's NextGen Workbench, allows you to build, govern, and operate enterprise-grade generative AI solutions with confidence. The solution provides the freedom to rapidly innovate and adapt with the best-of-breed components of your choice (LLMs, vector databases, embedding models), across cloud environments. DataRobot's GenAI:

  • Safeguards proprietary data by extending your LLMs and monitoring cost of your generative AI experiments in real-time.
  • Sheppards you through creating, deploying, and maintaining safe, high-quality, generative AI applications and solutions in production.
  • Lets you quickly detect and prevent unexpected and unwanted behaviors.

This section describes DataRobot's predictive solutions; see the section on GenAI for the full documentation on working with generative-related tools and options.

Predictive modeling methods

ログイン方法

組織でシングルサインオンに外部のアカウント管理システムが使用されている場合:

  • LDAPが使用されている場合、ユーザー名は登録済みのEメールアドレスではない場合があります。 必要な場合は、DataRobot管理者に連絡してユーザー名を取得してください。
  • SAMLベースのシステムが使用されている場合、ログインページの資格情報入力ボックスは無視してください。代わりに、シングルサインオンをクリックして、表示されるページに認証情報を入力します。

MLモデリングとは、過去のデータの例で学習するアルゴリズムを開発するプロセスです。 これらのアルゴリズムは、結果を予測し、簡単に識別できないパターンを明らかにします。 DataRobot supports a variety of modeling methods, each suiting a specific type of data and problem type.

教師あり学習と教師なし学習

機械学習の最も基本的な形式は 教師あり学習です。

教師あり学習では、「ラベル付けされた」データを提供します。 データセット内のラベルは、アルゴリズムがデータから学習するのに役立つ情報を提供します。 ターゲットとも呼ばれるラベルは、予測対象としているものです。

  • 連続値エクスペリメントの場合、ターゲットは数値です。 連続値モデルは、入力変数のリストが与えられた場合に連続的な従属変数を推定します(別名特徴量または)。 連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。

  • 分類エクスペリメントでは、ターゲットはカテゴリーです。 分類モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。 これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。 分類エクスペリメントは二値(2つのクラス)または多クラス(3つ以上のクラス)に分けることができます。 分類については、DataRobotはターゲット特徴量に可変数のクラスまたはラベルがある多ラベルモデリングもサポートしています。データセットの各行は、単一、複数、またはゼロのラベルに関連付けられています。

機械学習のもう1つの形式は、教師なし学習です。

教師なし学習では、データセットにラベルが付けられておらず、アルゴリズムでデータのパターンを推測する必要があります。

  • 異常検知エクスペリメントでは、アルゴリズムがデータセット内の異常なデータポイントを検出します。 ユースケースには、不正なトランザクションの検出、ハードウェアの障害、およびデータ入力中の人為的エラーが含まれます。

  • クラスタリングエクスペリメントでは、アルゴリズムはデータセットを類似性に応じてグループに分割します。 クラスタリングは、データの直感的理解に役立ちます。 クラスターは、データセットに教師あり学習方法を使用できるように、データのラベル付けにも役立ちます。

時間認識モデリング

時間データは、予測問題を解決する上で重要な要素です。 Models using time-relevant data make row-by-row predictions, time series forecasts, or current value predictions ("nowcasts"). An experiment becomes time-aware when, if the data is appropriate, the partitioning method is set to date/time.

  • 時系列モデリングを使用して、将来の一定期間の一連の予測を生成できます。 過去のデータで時系列モデルをトレーニングして、将来のイベントを予測します。 将来の値の範囲を予測するか、ナウキャストを使用して現在の時点での予測を行います。 時系列モデリングのユースケースには、金融、ヘルスケア、小売などのドメイン、つまり問題に時間要素があるドメインでの価格設定と需要の予測が含まれます。

  • 単一の系列を含むデータセットの時系列モデリングを使用できますが、複数系列を含むデータセットのモデルを構築することもできます。 このタイプの複数系列エクスペリメントでは、1つの特徴量が系列識別子として機能します。 例としては、データセットを場所ごとに1つずつ、複数系列に基本的に分割する「店舗の場所」識別子があります。 したがって、4つの店舗(パリ、ミラノ、ドバイ、東京)と、モデリング用に4つの系列がある可能性があります。

  • 複数系列エクスペリメントでは、セグメント化されたモデリングを使用して各系列のモデル生成を選択できます。 この場合、DataRobotは各セグメントに最適なモデルを使用してデプロイを作成します。

  • 解決しようとしている問題のデータセットに日付と時刻の情報が含まれている場合がありますが、時系列モデリングのように予測生成を行う代わりに、各行のターゲット値を予測します。 このアプローチは時間外検証(OTV)と呼ばれます。

これらの戦略の詳細については、時間認識モデリングとはを参照してください。

特殊なモデリングワークフロー

DataRobotは、さまざまな問題に対処するのに役立つ特殊なワークフローを用意しています。

  • Visual Artificial Intelligence (AI)(Classicのみ)を使用すると、データセットの特徴量として画像を含めることができます。 画像データを他のデータ型と一緒に使用して、連続値、分類、異常検知、クラスタリングなど、さまざまなタイプのモデリングエクスペリメントの結果を改善します。

  • With editable blueprints, you can build and edit your own ML blueprints, incorporating DataRobot preprocessing and modeling algorithms, as well as your own models.

  • データのテキスト特徴量については、ワードクラウドテキストマイニングなどのText AIインサイトを使用して、テキスト特徴量の影響を把握してください。

  • Location AI(Classicのみ)はモデリングデータの地理空間分析をサポートします。 地理空間特徴量を使用すると、モデリングの前後にインタラクティブマップを使用してインサイトを取得しデータを視覚化できます。

Workbench modeling workflow

このセクションでは、DataRobotモデリングエクスペリメントを実装するための手順を説明します。

  1. To begin the modeling process, import your data or wrangle your data to provide a seamless, scalable, and secure way to access and transform data for modeling.

  2. DataRobotは探索的データ解析(EDA1)の第1段階を実施し、データ特徴量を分析します。 When registration is complete, the Data preview tab shows feature details, including a histogram and summary statistics.

  3. Next, for supervised modeling,select your target and optionally change any other basic or advanced experiment configuration settings. Then, start modeling.

    DataRobotは特徴量セットを生成し、そこからモデルを構築します。 デフォルトでは、最も有用な特徴量を含む特徴量セットを使用します。 Alternatively, you can select different generated feature lists or create your own.

  4. DataRobot further evaluates the data during EDA2, determining which features correlate to the target (feature importance) and which features are informative, among other information.

    アプリケーションはエクスペリメントタイプと選択した設定に応じて、特徴量セットの変換、生成、および削減を行う特徴量エンジニアリングを実行します。

  5. DataRobotはエクスペリメントタイプに基づいて、ブループリントを選択し、候補モデルを構築します。

モデルの分析と選択

DataRobotはモデルを自動生成し、リーダーボードに表示します。 The most accurate model is selected and trained on 100% of the data and is marked with the Prepared for Deployment badge.

モデルの分析と選択を行うには:

  1. Compare models by selecting an optimization metric from the Metric dropdown.

  2. 構築しているモデルのタイプに最適な視覚化ツールを使用して、モデルを分析します。 Use model comparison for experiments within a single Use Case.

    以下のエクスペリメントタイプと関連する視覚化のリストを参照してください。

  3. さまざまなモデリング設定を試して、モデルの精度を向上させてください。 You can try rerunning modeling using a different feature list or modeling mode.

  4. After analyzing your models, select the best and send it to the Registry to create a deployment-ready model package.

    ヒント

    デプロイする前に予測をテストすることをお勧めします。 結果に満足できない場合は、モデリングプロセスを再検討し、特徴量セットと最適化設定を使用してさらに試してみてください。 また、より有用なデータ特徴量を収集することで結果を改善できる場合もあります。

  5. As part of the deployment process, you make predictions. 定期的なバッチ予測ジョブを設定することもできます。

  6. DataRobot uses a variety of metrics to monitor your deployment. Use the application's visualizations to track data (feature) drift, accuracy, bias, service health, and many more. 通知を設定すると、モデルのステータスが定期的に通知されます。

    ヒント

    エンドツーエンドのワークフローを自動化するために、自動再トレーニングの有効化を検討してください。 自動再トレーニングにより、DataRobotはチャレンジャーモデルを現在の最良のモデル(チャンピオンモデル)に対して定期的にテストし、チャレンジャーがそれを上回った場合、チャンピオンを置き換えます。

どの視覚化を使用する必要がありますか?

DataRobotは、モデルの分析に多くの視覚化を用意しています。 すべての視覚化ツールがすべてのモデリングエクスペリメントに適用できるわけではありません。アクセスできる視覚化は、エクスペリメントの種類によって異なります。 次の表に、エクスペリメントの種類と、それらの分析に適した視覚化の例を紹介します。

エクスペリメントタイプ 分析ツール
すべてのモデル
  • Feature Impact: Provides a high-level visualization that identifies which features are most strongly driving model decisions.
  • Feature Effects: Visualizes the effect of changes in the value of each feature on the model’s predictions.
  • Individual Prediction Explanations: Illustrates what drives predictions on a row-by-row basis, answering why a given model made a certain prediction.
連続値
  • リフトチャート:モデルがターゲットの母集団をどの程度うまく分割しているか、そしてターゲットを予測することができるかを表示します。
  • 残差プロット:使用されたデータセットの実測値に対してモデルがどの程度線形にスケーリングするかを示すことで、連続値モデルの予測パフォーマンスと妥当性を示します。
分類
時間認識モデリング(時系列と時間外検定)
  • 時系列の精度:時系列での予測がどのように変化するかを視覚化します。
  • 予測値と実測値の比較:さまざまな予測ポイントからさまざまな予測がどのように動作するかを将来のさまざまな時間で比較できます。
  • 予測距離ごとの精度:エクスペリメントの予測ウィンドウの各予測距離でのモデルの予測精度を示す視覚的インジケーターを提供します。
  • 安定性:さまざまなバックテストにおけるモデルのパフォーマンスを一目で把握できるサマリーを提供します。
  • 時間経過チャート:プライマリー日付/時刻特徴量で特徴量がどのように変化するかを視覚化することで、データの傾向と潜在的なギャップを特定します。 The feature-over-time histogram displays once you select the ordering feature.
複数系列 系列のインサイト:系列固有の情報のヒストグラムと表を提供します。
セグメント化されたモデリング セグメンテーションタブ:統合されたモデルの各セグメントに関するデータを表示します。
多ラベルモデリング(Classic) 特徴量の統計:多ラベル特性を持つデータセットの評価を支援し、ペア単位の行列を提供して、特徴量ペアの相関、同時確率、および条件付き確率を視覚化できるようにします。
Visual Artificial Intelligence (AI)の画像(Classic)
Text AI
地理空間AI(Classic)
  • 地理空間マップ:観測値の空間分布を視覚化することで、探索的空間データ解析(ESDA)を提供します。
  • 位置ごとの精度:個々のモデル内の空間残差マッピングが表示されます。
クラスタリング
  • クラスターインサイト:データ内の潜在的な特徴量を捉えたり、実用的なインサイトを把握して伝達したり、さらにモデリングするためにセグメントを特定したりします。
  • 画像埋め込み:画像の類似性を表す2次元空間に画像を表示します。
  • アクティベーションマップ:予測を作成するときにモデルで使用する画像の領域を可視化します。
異常検知
  • 時間経過に伴う異常:データのタイムライン全体で異常がどのように発生するかをプロットします。
  • 異常評価:選択したバックテストのデータがプロットされ、最大500の異常ポイントのSHAPの説明が表示されます。

更新しました September 7, 2024