モデリングの基礎¶
DataRobotは、Automated Machine Learning(AutoML)を使用して、さまざまな分野や業界の現実問題を解決するモデルを構築します。 提供されたデータを取得し、複数の機械学習(ML)モデルを生成し、使用するのに最適なモデルを推奨します。 DataRobotを使用してMLモデルを構築する上でデータサイエンティストである必要はありませんが、基本を理解すると、より優れたモデルを構築するのに役立ちます。 ドメイン知識とDataRobotのAI専門知識により、速度と精度を使用して問題を解決できるようになります。
DataRobotは、教師あり学習、教師なし学習、時系列モデリング、セグメント化モデリング、マルチモーダルモデリングなど、MLモデリングへのさまざまなアプローチをサポートしています。 このセクションでは、これらのアプローチについて説明し、デプロイに最適なモデルを分析および選択するためのヒントも伝授します。
モデリング方法¶
MLモデリングとは、過去のデータの例で学習するアルゴリズムを開発するプロセスです。 これらのアルゴリズムは、結果を予測し、簡単に識別できないパターンを明らかにします。
教師あり学習と教師なし学習¶
機械学習の最も基本的な形式は 教師あり学習です。
教師あり学習では、「ラベル付けされた」データを提供します。 データセット内のラベルは、アルゴリズムがデータから学習するのに役立つ情報を提供します。 ターゲットとも呼ばれるラベルは、予測対象としているものです。
-
連続値プロジェクトの場合、ターゲットは数値です。 連続値モデルは、入力変数のリストが与えられた場合に連続的な従属変数を推定します(別名特徴量または列)。 連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。
-
分類プロジェクトでは、ターゲットはカテゴリーです。 分類モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。 これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。 分類プロジェクトは二値(2つのクラス)または多クラス(3つ以上のクラス)に分けることができます。 分類については、DataRobotはターゲット特徴量に可変数のクラスまたはラベルがある多ラベルモデリングもサポートしています。データセットの各行は、単一、複数、またはゼロのラベルに関連付けられています。
機械学習のもう1つの形式は、教師なし学習です。
教師なし学習では、データセットにラベルが付けられておらず、アルゴリズムでデータのパターンを推測する必要があります。
-
異常検知プロジェクトでは、アルゴリズムがデータセット内の異常なデータポイントを検出します。 ユースケースには、不正なトランザクションの検出、ハードウェアの障害、およびデータ入力中の人為的エラーが含まれます。
-
クラスタリングプロジェクトでは、アルゴリズムはデータセットを類似性に応じてグループに分割します。 クラスタリングは、データの直感的理解に役立ちます。 クラスターは、データセットに教師あり学習方法を使用できるように、データのラベル付けにも役立ちます。
時間認識モデリング¶
時間データは、予測問題を解決する上で重要な要素です。 DataRobotは、時間認識モデリング用にいくつかの方法とツールを用意しています。
-
時系列モデリングを使用して、将来の一定期間の一連の予測を生成できます。 過去のデータで時系列モデルをトレーニングして、将来のイベントを予測します。 将来の値の範囲を予測するか、ナウキャストを使用して現在の時点での予測を行います。 時系列モデリングのユースケースには、金融、ヘルスケア、小売などのドメイン、つまり問題に時間要素があるドメインでの価格設定と需要の予測が含まれます。
-
単一の系列を含むデータセットの時系列モデリングを使用できますが、複数系列を含むデータセットのモデルを構築することもできます。 このタイプの複数系列プロジェクトでは、1つの特徴量が系列識別子として機能します。 例としては、データセットを場所ごとに1つずつ、複数系列に基本的に分割する「店舗の場所」識別子があります。 したがって、4つの店舗(パリ、ミラノ、ドバイ、東京)と、モデリング用に4つの系列がある可能性があります。
-
複数系列プロジェクトでは、セグメント化されたモデリングを使用して各系列のモデル生成を選択できます。 この場合、DataRobotは各セグメントに最適なモデルを使用してデプロイを作成します。
-
解決しようとしている問題のデータセットに日付と時刻の情報が含まれている場合がありますが、時系列モデリングのように予測生成を行う代わりに、各行のターゲット値を予測します。 このアプローチは時間外検証(OTV)と呼ばれます。
-
教師あり学習モデルに加えて、時系列異常検知モデルを開発することもできます。
これらの戦略の詳細については、時間認識モデリングとはを参照してください。
特殊なモデリングワークフロー¶
DataRobotは、さまざまな問題に対処するのに役立つ特殊なワークフローを用意しています。
-
Visual Artificial Intelligence (AI)を使用すると、データセットの特徴量として画像を含めることができます。 画像データを他のデータ型と一緒に使用して、連続値、分類、異常検知、クラスタリングなど、さまざまなタイプのモデリングプロジェクトの結果を改善します。
-
Composable MLを使用すると、DataRobotの前処理とモデリングのアルゴリズム、および独自のモデルを組み込んだ、独自のMLブループリントを作成および編集できます。
-
データのテキスト特徴量については、ワードクラウドやテキストマイニングなどのText AIインサイトを使用して、テキスト特徴量の影響を把握してください。
-
Location AIはモデリングデータの地理空間分析をサポートします。 地理空間特徴量を使用すると、モデリングの前後にインタラクティブマップを使用してインサイトを取得しデータを視覚化できます。
この強力なモデリング戦略のコレクションにより、自動モデリングプロジェクトを成功させることができます。
MLモデリングワークフロー¶
このセクションでは、DataRobotモデリングプロジェクトを実装するための手順を説明します。
-
モデリングプロセスを開始するには、データをインポートします。
-
DataRobotは探索的データ解析 (EDA1)の第1段階を実施し、データ特徴量を分析します。
-
次に、ターゲットとモデリングモード、モデリングを開始の順に選択します。
DataRobotは特徴量セットを生成し、そこからモデルを構築します。 デフォルトでは、最も有用な特徴量を含む特徴量セットを使用します。 または、生成済みのさまざまな特徴量セットを選択するか、独自にカスタマイズすることもできます。
-
DataRobotはEDA2を実行しデータをさらに評価して、どの特徴量がターゲットに相関しているか(特徴量の有用性)、その他の情報の中でどの特徴量が有用であるかなどを判断します。
アプリケーションはプロジェクトタイプと選択した設定に応じて、特徴量セットの変換、生成、および削減を行う特徴量エンジニアリングを実行します。
-
DataRobotはプロジェクトタイプに基づいて、ブループリントを選択し、候補モデルを構築します。
モデルの分析と選択¶
DataRobotはモデルを自動生成し、リーダーボードに表示します。 上部に推奨モデルがデプロイ推奨インジケーターとともに表示されますが、デプロイするモデルにはどれでも選択できます。
モデルの分析と選択を行うには:
-
指標ドロップダウンから最適化指標を選択して、モデルを比較します。この例で表示される指標はRMSE(二乗平均平方根誤差)です。
-
構築しているモデルのタイプに最適な視覚化ツールを使用して、モデルを分析します。
以下のプロジェクトタイプと関連する視覚化のリストを参照してください。
-
さまざまなモデリング設定を試して、モデルの精度を向上させてください。 別の特徴量セットを使用してオートパイロットを再実行するか、包括的なオートパイロットなどの別のモデリングモードを使用してみてください。
-
モデルを分析した後、デプロイに最適なものを選択します。
ヒント
デプロイする前に予測をテストすることをお勧めします。 結果に満足できない場合は、モデリングプロセスを再検討し、特徴量セットと最適化設定を使用してさらに試してみてください。 また、より有用なデータ特徴量を収集することで結果を改善できる場合もあります。
-
デプロイプロセスの一環として、予測をアップロードします。 定期的なバッチ予測ジョブを設定することもできます。
-
DataRobotはデプロイを監視します。 アプリケーションの視覚化を使用して、データ(特徴量)ドリフト、 精度、 バイアス、サービス正常性を追跡します。 通知を設定すると、モデルのステータスが定期的に通知されます。
ヒント
エンドツーエンドのワークフローを自動化するために、自動再トレーニングの有効化を検討してください。 自動再トレーニングにより、DataRobotはチャレンジャーモデルを現在の最良のモデル(チャンピオンモデル)に対して定期的にテストし、チャレンジャーがそれを上回った場合、チャンピオンを置き換えます。
どの視覚化を使用する必要がありますか?¶
DataRobotは、モデルの分析に多くの視覚化を用意しています。 すべての視覚化ツールがすべてのモデリングプロジェクトに適用できるわけではありません。アクセスできる視覚化は、プロジェクトの種類によって異なります。 次の表に、プロジェクトの種類と、それらの分析に適した視覚化の例を紹介します。
プロジェクトタイプ | 分析ツール |
---|---|
すべてのモデル | |
連続値 | |
分類 |
|
時間認識モデリング(時系列と時間外検定) |
|
複数系列 | 系列のインサイト:系列固有の情報のヒストグラムと表を提供します(評価 > 系列のインサイト)。 |
セグメント化されたモデリング | セグメンテーションタブ:統合されたモデルの各セグメントに関するデータを表示します(説明 > セグメンテーション)。 |
多ラベルモデリング | 特徴量の統計:多ラベル特性を持つデータセットの評価を支援し、ペア単位の行列を提供して、特徴量ペアの相関、同時確率、および条件付き確率を視覚化できるようにします(データ > 特徴量の統計)。 |
Visual Artificial Intelligence (AI) |
|
Text AI | |
地理空間AI | |
クラスタリング |
|
異常検知 |