Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

DataRobot Classicの基礎

DataRobotは、Automated Machine Learning(AutoML)を使用して、さまざまな分野や業界の現実問題を解決するモデルを構築します。 提供されたデータを取得し、複数の機械学習(ML)モデルを生成し、使用するのに最適なモデルを推奨します。 DataRobotを使用してMLモデルを構築する上でデータサイエンティストである必要はありませんが、基本を理解すると、より優れたモデルを構築するのに役立ちます。 ドメイン知識とDataRobotのAI専門知識により、速度と精度を使用して問題を解決できるようになります。

DataRobotは、教師あり学習、教師なし学習、時系列モデリング、セグメント化モデリング、マルチモーダルモデリングなど、MLモデリングへのさまざまなアプローチをサポートしています。 このセクションでは、これらのアプローチについて説明し、デプロイに最適なモデルを分析および選択するためのヒントも伝授します。 DataRobot Classicにログインすることで、このプロセスを開始できます。

ログイン方法

組織でシングルサインオンに外部のアカウント管理システムが使用されている場合:

  • LDAPが使用されている場合、ユーザー名は登録済みのEメールアドレスではない場合があります。 必要な場合は、DataRobot管理者に連絡してユーザー名を取得してください。
  • SAMLベースのシステムが使用されている場合、ログインページの資格情報入力ボックスは無視してください。代わりに、シングルサインオンをクリックして、表示されるページに認証情報を入力します。

モデリング方法

MLモデリングとは、過去のデータの例で学習するアルゴリズムを開発するプロセスです。 これらのアルゴリズムは、結果を予測し、簡単に識別できないパターンを明らかにします。

教師あり学習と教師なし学習

機械学習の最も基本的な形式は 教師あり学習です。

教師あり学習では、「ラベル付けされた」データを提供します。 データセット内のラベルは、アルゴリズムがデータから学習するのに役立つ情報を提供します。 ターゲットとも呼ばれるラベルは、予測対象としているものです。

  • 連続値プロジェクトの場合、ターゲットは数値です。 連続値モデルは、入力変数のリストが与えられた場合に連続的な従属変数を推定します(別名特徴量または)。 連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。

  • 分類プロジェクトでは、ターゲットはカテゴリーです。 分類モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。 これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。 分類プロジェクトは二値(2つのクラス)または多クラス(3つ以上のクラス)に分けることができます。 分類については、DataRobotはターゲット特徴量に可変数のクラスまたはラベルがある多ラベルモデリングもサポートしています。データセットの各行は、単一、複数、またはゼロのラベルに関連付けられています。

機械学習のもう1つの形式は、教師なし学習です。

教師なし学習では、データセットにラベルが付けられておらず、アルゴリズムでデータのパターンを推測する必要があります。

  • 異常検知プロジェクトでは、アルゴリズムがデータセット内の異常なデータポイントを検出します。 ユースケースには、不正なトランザクションの検出、ハードウェアの障害、およびデータ入力中の人為的エラーが含まれます。

  • クラスタリングプロジェクトでは、アルゴリズムはデータセットを類似性に応じてグループに分割します。 クラスタリングは、データの直感的理解に役立ちます。 クラスターは、データセットに教師あり学習方法を使用できるように、データのラベル付けにも役立ちます。

時間認識モデリング

時間データは、予測問題を解決する上で重要な要素です。 DataRobotは、時間認識モデリング用にいくつかの方法とツールを用意しています。

  • 時系列モデリングを使用して、将来の一定期間の一連の予測を生成できます。 過去のデータで時系列モデルをトレーニングして、将来のイベントを予測します。 将来の値の範囲を予測するか、ナウキャストを使用して現在の時点での予測を行います。 時系列モデリングのユースケースには、金融、ヘルスケア、小売などのドメイン、つまり問題に時間要素があるドメインでの価格設定と需要の予測が含まれます。

  • 単一の系列を含むデータセットの時系列モデリングを使用できますが、複数系列を含むデータセットのモデルを構築することもできます。 このタイプの複数系列プロジェクトでは、1つの特徴量が系列識別子として機能します。 例としては、データセットを場所ごとに1つずつ、複数系列に基本的に分割する「店舗の場所」識別子があります。 したがって、4つの店舗(パリ、ミラノ、ドバイ、東京)と、モデリング用に4つの系列がある可能性があります。

  • 複数系列プロジェクトでは、セグメント化されたモデリングを使用して各系列のモデル生成を選択できます。 この場合、DataRobotは各セグメントに最適なモデルを使用してデプロイを作成します。

  • 解決しようとしている問題のデータセットに日付と時刻の情報が含まれている場合がありますが、時系列モデリングのように予測生成を行う代わりに、各行のターゲット値を予測します。 このアプローチは時間外検証(OTV)と呼ばれます。

  • 教師あり学習モデルに加えて、時系列異常検知モデルを開発することもできます。

これらの戦略の詳細については、時間認識モデリングとはを参照してください。

特殊なモデリングワークフロー

DataRobotは、さまざまな問題に対処するのに役立つ特殊なワークフローを用意しています。

  • Visual Artificial Intelligence (AI)を使用すると、データセットの特徴量として画像を含めることができます。 画像データを他のデータ型と一緒に使用して、連続値、分類、異常検知、クラスタリングなど、さまざまなタイプのモデリングプロジェクトの結果を改善します。

  • Composable MLを使用すると、DataRobotの前処理とモデリングのアルゴリズム、および独自のモデルを組み込んだ、独自のMLブループリントを作成および編集できます。

  • データのテキスト特徴量については、ワードクラウドテキストマイニングなどのText AIインサイトを使用して、テキスト特徴量の影響を把握してください。

  • Location AIはモデリングデータの地理空間分析をサポートします。 地理空間特徴量を使用すると、モデリングの前後にインタラクティブマップを使用してインサイトを取得しデータを視覚化できます。

この強力なモデリング戦略のコレクションにより、自動モデリングプロジェクトを成功させることができます。

MLモデリングワークフロー

このセクションでは、DataRobotモデリングプロジェクトを実装するための手順を説明します。

  1. モデリングプロセスを開始するには、データをインポートします。

  2. DataRobotは探索的データ解析 (EDA1)の第1段階を実施し、データ特徴量を分析します。

  3. 次に、ターゲットモデリングモードモデリングを開始の順に選択します。

    DataRobotは特徴量セットを生成し、そこからモデルを構築します。 デフォルトでは、最も有用な特徴量を含む特徴量セットを使用します。 または、生成済みのさまざまな特徴量セットを選択するか、独自にカスタマイズすることもできます。

  4. DataRobotはEDA2を実行しデータをさらに評価して、どの特徴量がターゲットに相関しているか(特徴量の有用性)、その他の情報の中でどの特徴量が有用であるかなどを判断します。

    アプリケーションはプロジェクトタイプと選択した設定に応じて、特徴量セットの変換、生成、および削減を行う特徴量エンジニアリングを実行します。

  5. DataRobotはプロジェクトタイプに基づいて、ブループリントを選択し、候補モデルを構築します。

モデルの分析と選択

DataRobotはモデルを自動生成し、リーダーボードに表示します。 上部に推奨モデルデプロイ推奨インジケーターとともに表示されますが、デプロイするモデルにはどれでも選択できます。

モデルの分析と選択を行うには:

  1. 指標ドロップダウンから最適化指標を選択して、モデルを比較します。この例で表示される指標はRMSE(二乗平均平方根誤差)です。

  2. 構築しているモデルのタイプに最適な視覚化ツールを使用して、モデルを分析します。

    以下のプロジェクトタイプと関連する視覚化のリストを参照してください。

  3. さまざまなモデリング設定を試して、モデルの精度を向上させてください。 別の特徴量セットを使用してオートパイロットを再実行するか、包括的なオートパイロットなどの別のモデリングモードを使用してみてください。

  4. モデルを分析した後、デプロイに最適なものを選択します。

    ヒント

    デプロイする前に予測をテストすることをお勧めします。 結果に満足できない場合は、モデリングプロセスを再検討し、特徴量セットと最適化設定を使用してさらに試してみてください。 また、より有用なデータ特徴量を収集することで結果を改善できる場合もあります。

  5. デプロイプロセスの一環として、予測をアップロードします。 定期的なバッチ予測ジョブを設定することもできます。

  6. DataRobotはデプロイを監視します。 アプリケーションの視覚化を使用して、データ(特徴量)ドリフト精度バイアスサービス正常性を追跡します。 通知を設定すると、モデルのステータスが定期的に通知されます。

    ヒント

    エンドツーエンドのワークフローを自動化するために、自動再トレーニングの有効化を検討してください。 自動再トレーニングにより、DataRobotはチャレンジャーモデルを現在の最良のモデル(チャンピオンモデル)に対して定期的にテストし、チャレンジャーがそれを上回った場合、チャンピオンを置き換えます。

どの視覚化を使用する必要がありますか?

DataRobotは、モデルの分析に多くの視覚化を用意しています。 すべての視覚化ツールがすべてのモデリングプロジェクトに適用できるわけではありません。アクセスできる視覚化は、プロジェクトの種類によって異なります。 次の表に、プロジェクトの種類と、それらの分析に適した視覚化の例を紹介します。

プロジェクトタイプ 分析ツール
すべてのモデル
  • 特徴量のインパクト:モデルの決定を最も強力に推進している特徴量の高レベルの視覚化を提供します(解釈 > 特徴量のインパクト)。
  • 特徴量ごとの作用:モデルの予測の各特徴量の値の変化による影響を示します。(解釈 > 特徴量ごとの作用)。
  • 予測の説明:行ごとに予測を推進するものを示し、特定のモデルが特定の予測を行った理由に回答します(解釈 > 予測の説明)。
連続値
  • リフトチャート:モデルがターゲットの母集団をどの程度うまく分割しているか、そしてターゲットを予測することができるかを表示します(評価 > リフトチャート)。
  • 残差プロット:使用されたデータセットの実測値に対してモデルがどの程度線形にスケーリングするかを示すことで、連続値モデルの予測パフォーマンスと妥当性を示します(評価 > 残差)。
分類
  • ROC曲線:確率スケール上のいずれかのポイントにおいて選択されたモデルに関する分類、パフォーマンス、および統計を参照する際に役立ちます(評価 > ROC曲線)。
  • 混同行列(二値プロジェクト):実際のデータ値を二値プロジェクトの予測データ値と比較します(評価 > ROC曲線)。
  • 混同行列(多クラスプロジェクト):多クラスプロジェクトの実際のデータ値を予測データ値と比較します(評価 > 混同行列)。
時間認識モデリング(時系列と時間外検定)
  • 時系列の精度:時系列での予測がどのように変化するかを視覚化します(評価 > 時系列の精度)。
  • 予測値と実測値の比較:さまざまな予測ポイントからさまざまな予測がどのように動作するかを将来のさまざまな時間で比較できます(評価 > 予測値と実測値の比較)。
  • 予測距離ごとの精度:プロジェクトの予測ウィンドウの各予測距離でのモデルの予測精度を示す視覚的インジケーターを提供します(評価 > 予測距離ごとの精度)。
  • 安定性:さまざまなバックテストにおけるモデルのパフォーマンスを一目で把握できるサマリーを提供します(評価 > 安定性)。
  • 時間経過チャート:プライマリー日付/時刻特徴量で特徴量がどのように変化するかを視覚化することで、データの傾向と潜在的なギャップを特定します(データ > 時間経過)。
複数系列 系列のインサイト:系列固有の情報のヒストグラムと表を提供します(評価 > 系列のインサイト)。
セグメント化されたモデリング セグメンテーションタブ:統合されたモデルの各セグメントに関するデータを表示します(説明 > セグメンテーション)。
多ラベルモデリング 特徴量の統計:多ラベル特性を持つデータセットの評価を支援し、ペア単位の行列を提供して、特徴量ペアの相関、同時確率、および条件付き確率を視覚化できるようにします(データ > 特徴量の統計)。
Visual Artificial Intelligence (AI)
  • 画像埋め込み:画像の類似性を表す2次元空間に画像を表示します(解釈 > 画像埋め込み)。
  • アクティベーションマップ:予測を作成するときにモデルで使用する画像の領域を可視化します(インサイト > アクティベーションマップ)。
Text AI
  • ワードクラウド:特徴量キーワードの関連性を視覚化します(解釈 > ワードクラウド)。
  • テキストマイニング:語句の関連性と短いフレーズの関連性を可視化します(インサイト > テキストマイニング)。
地理空間AI
  • 地理空間マップ:観測値の空間分布を視覚化することで、探索的空間データ解析(ESDA)を提供します(データ > 地理空間マップ)。
  • 位置ごとの精度:個々のモデル内の空間残差マッピングが表示されます(評価 > 位置ごとの精度)。
クラスタリング
  • クラスターインサイト:データ内の潜在的な特徴量を捉えたり、実用的なインサイトを把握して伝達したり、さらにモデリングするためにセグメントを特定したりします(解釈 > クラスターインサイト)。
  • 画像埋め込み:画像の類似性を表す2次元空間に画像を表示します(解釈 > 画像埋め込み)。
  • アクティベーションマップ:予測を作成するときにモデルで使用する画像の領域を可視化します(解釈 > アクティベーションマップ)。
異常検知
  • 時間経過に伴う異常:データのタイムライン全体で異常がどのように発生するかをプロットします(評価 > 時間経過に伴う異常)。
  • 異常評価:選択したバックテストのデータがプロットされ、最大500の異常ポイントのSHAPの説明が表示されます(評価 > 異常評価)。

更新しました June 29, 2023