予測モデリングの基礎¶
このセクションでは、DataRobotの予測ソリューションについて説明します。生成AI関連のツールやオプションの操作の概要については、GenAIの基礎を参照してください。
予測AIでは、自動化された機械学習(AutoML)を使用して、あらゆる分野や業界における現実世界の問題を解決するモデルを構築します。 提供されたデータを取得し、複数の機械学習(ML)モデルを生成し、使用するのに最適なモデルを推奨します。 DataRobotを使用してMLモデルを構築する上でデータサイエンティストである必要はありませんが、基本を理解すると、より優れたモデルを構築するのに役立ちます。 ドメイン知識とDataRobotのAI専門知識により、速度と精度を使用して問題を解決できるようになります。
DataRobotは、教師あり学習、教師なし学習、時系列モデリング、セグメント化モデリング、マルチモーダルモデリングなど、MLモデリングへのさまざまなアプローチをサポートしています。 このセクションでは、これらのアプローチについて説明し、デプロイに最適なモデルを分析および選択するためのヒントも伝授します。
このセクションでは、予測モデリングの方法について説明します。 予測モデルの構築手順に関する一般的な説明については、ワークベンチでの予測モデルトレーニングの概要を参照してください。
予測モデリングの方法¶
MLモデリングとは、過去のデータの例で学習するアルゴリズムを開発するプロセスです。 これらのアルゴリズムは、結果を予測し、簡単に識別できないパターンを明らかにします。 DataRobotは、さまざまなモデリング方法をサポートしており、それぞれが特定のタイプのデータおよび問題タイプに適しています。
教師あり学習と教師なし学習¶
機械学習の最も基本的な形態は教師あり学習です。
教師あり学習では、「ラベル付けされた」データを提供します。 データセット内のラベルは、アルゴリズムがデータから学習するのに役立つ情報を提供します。 ターゲットとも呼ばれるラベルは、予測対象としているものです。
-
連続値のエクスペリメントでは、ターゲットは数値です。 連続値モデルは、入力変数のリストが与えられた場合に連続的な従属変数を推定します(別名特徴量または列)。 連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。 連続値エクスペリメントは、ターゲットタイプを数値から分類に変更することで、分類として扱うこともできます。
-
分類のエクスペリメントでは、ターゲットはカテゴリーです。 分類モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。 これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。 分類エクスペリメントは二値(2つのクラス)または多クラス(3つ以上のクラス)に分けることができます。 分類については、DataRobotはターゲット特徴量に可変数のクラスまたはラベルがある多ラベルモデリングもサポートしています。データセットの各行は、単一、複数、またはゼロのラベルに関連付けられています。
機械学習のもう1つの形式は、教師なし学習です。
教師なし学習では、データセットにラベルが付けられておらず、アルゴリズムでデータのパターンを推測する必要があります。
-
異常検知エクスペリメントでは、アルゴリズムがデータセット内の異常なデータポイントを検出します。 ユースケースには、不正なトランザクションの検出、ハードウェアの障害、およびデータ入力中の人為的エラーが含まれます。
-
クラスタリングエクスペリメントでは、アルゴリズムはデータセットを類似性に応じてグループに分割します。 クラスタリングは、データの直感的理解に役立ちます。 クラスターは、データセットに教師あり学習方法を使用できるように、データのラベル付けにも役立ちます。
時間認識モデリング¶
時間データは、予測問題を解決する上で重要な要素です。 時間に関連するデータを使用するモデルは、行単位の予測、時系列予測、または現在値の予測である「ナウキャスト」を作成します。 データが適切で、分割手法が日付/時刻に設定されている場合、エクスペリメントは時間認識になります。
-
時系列モデリングを使用して、将来の一定期間の一連の予測を生成できます。 過去のデータで時系列モデルをトレーニングして、将来のイベントを予測します。 将来の値の範囲を予測するか、ナウキャストを使用して現在の時点での予測を行います。 時系列モデリングのユースケースには、金融、医療、小売などの分野(基本的には、問題に時間的要素があるすべての分野)における価格設定と需要の予測が含まれます。
-
単一の系列を含むデータセットの時系列モデリングを使用できますが、複数系列を含むデータセットのモデルを構築することもできます。 このタイプの複数系列エクスペリメントでは、1つの特徴量が系列識別子として機能します。 例としては、データセットを場所ごとに1つずつ、複数系列に基本的に分割する「店舗の場所」識別子があります。 たとえば、4つの店舗所在地(パリ、ミラノ、ドバイ、東京)がある場合、モデリングには4つの系列が必要になります。
-
複数系列エクスペリメントでは、セグメント化されたモデリングを使用して各系列のモデル生成を選択できます。 この場合、DataRobotは各セグメントに最適なモデルを使用してデプロイを作成します。
-
解決しようとしている問題のデータセットに日付と時刻の情報が含まれている場合がありますが、時系列モデリングのように予測生成を行う代わりに、各行のターゲット値を予測します。 このアプローチは時間認識予測と呼ばれます。
これらの戦略の詳細については、時間認識モデリングとは?を参照してください。
特殊なモデリングワークフロー¶
DataRobotは、さまざまな問題に対処するのに役立つ特殊なワークフローを用意しています。
-
画像オーグメンテーションを使用すると、データセットに画像を特徴量として含めることができます。 画像データを他のデータ型と一緒に使用して、連続値、分類、異常検知、クラスタリングなど、さまざまなタイプのモデリングエクスペリメントの結果を改善します。
-
編集可能なブループリントを使用すると、DataRobotの前処理とモデリングアルゴリズム、および独自のモデルを組み込んだMLブループリント(モデル構築に必要な前処理ステップ(タスク)、モデリングアルゴリズム、後処理ステップ)を自由に構築・編集することができます。
-
データ内のテキスト特徴量については、ワードクラウドのようなテキストAIのインサイトを使用して、そのインパクトを理解します。
-
Location AIはモデリングデータの地理空間分析をサポートします。 地理空間特徴量を使用すると、モデリングの前後にインタラクティブマップを使用してインサイトを取得しデータを視覚化できます。
ワークベンチでの予測モデルの構築手順に関する一般的な説明を参照してください。 あるいは、モデル構築の基本ステップでご自身で試してみてください。



