NextGenエクスペリエンス > AI experimentation > 予測エクスペリメント > 予測エクスペリメントの作成 > 教師あり予測モデリング

教師あり予測モデリング¶

教師あり学習 では、データセットの他の特徴量を使用して予測を行います。 教師なし学習では、ラベルなしデータを使用して、データのパターンに関するインサイトを明らかにします。教師あり学習のセットアップを以下で説明します。

基本的なエクスペリメント設定¶

ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。

備考

モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。ここから、以下の手順に従ってください。

特徴量セットを作成¶

モデリングを行う前に、データ探索ページからカスタム特徴量セットを作成することができます。その後、モデリングの設定中にそのリストを選択すると、リストの特徴量のみを使用してモデリングデータを作成することができます。特徴量セットのポストモデリングの詳細については、こちらをご覧ください。

エクスペリメントを追加¶

ユースケース内から追加をクリックし、エクスペリメントを選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。

データを追加¶

新しいデータを追加する（1）か、ユースケースに既にロードされているデータセットを選択する（2）ことにより、エクスペリメントにデータを追加します。

データがユースケースにロードされたら（上記のオプション2と同様）、エクスペリメントで使用するデータセットをクリックして選択します。ワークベンチは、データのプレビューを開きます。

ここから、次のことができます。

	オプション
1	クリックして、データリストに戻り、別のデータセットを選択します。
2	アイコンをクリックして続行し、学習タイプとターゲットを設定します。
3	次へをクリックして続行し、学習タイプとターゲットを設定します。

モデリング設定の開始¶

続行すると、ワークベンチでは、モデリング用のデータセットが準備されます（EDA 1）。

備考

これ以降のエクスペリメントの作成では、エクスペリメントの設定を続行しても（次へ）、終了してもかまいません。終了を選択すると、変更を破棄するか、すべての進捗をドラフトとして保存するよう促されます。どちらの場合でも、終了時にはエクスペリメントのセットアップを開始した時点に戻り、EDA1の処理は失われます。 終了してドラフトを保存を選択すると、ドラフトはユースケースディレクトリで利用できます。

ワークベンチで作成したドラフトをDataRobot Classicで開き、ワークベンチでサポートされていない機能を導入する変更を加えた場合、そのドラフトはユースケースにリストされますが、Classicインターフェイス以外からはアクセスできません。

学習タイプの設定¶

EDA1が終了すると、ワークベンチはモデリングのセットアップに進みます。まず、学習タイプを設定します。

学習タイプ	説明	可用性
教師あり	データセットの他の特徴量を使用してモデルを構築して予測を行います。これはデフォルトの学習タイプであり、このページで説明します。
クラスタリング	ターゲットがない、ラベルなしデータを使用して、類似したデータをグループ化し、セグメントを識別するモデルを構築します。
異常検知	ターゲットがない、ラベルなしデータを使用して、データセットの異常を検出するモデルを構築します。

ターゲットの設定¶

本機能の提供について

多ラベル（多カテゴリー）モデリングが利用できるかどうかは、お使いのDataRobotパッケージによって異なります。組織内で有効になっていない場合は、DataRobotの担当者に詳細をお問い合わせください。

教師ありモードを使用する場合、以下のいずれかによってターゲットを設定します。

特徴量名にカーソルを合わせるターゲット名を入力する

特徴量のリストをスクロールして、ターゲットを見つけます。見つからない場合は、表示の下部からリストを展開します。

配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。

予測したいターゲット特徴量の名前を入力ボックスに入力します。特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。

DataRobotは、指定されたターゲット特徴量の値の数に応じて、自動的にエクスペリメントのタイプ（連続値または分類）を決定します。分類エクスペリメントは、二値（二値分類）3つ以上のクラス（多クラス）、多ラベルのいずれかになります。次の表は、DataRobotが数値および非数値のターゲットデータ型にデフォルトの問題タイプを割り当てる方法を示しています。

ターゲットデータ型	一意のターゲット値の数	デフォルトの問題タイプ	多クラス分類/多ラベル分類
数値	2	分類	いいえ
数値	3+	連続値	はい、オプション
数値以外	2	二値分類	いいえ
数値以外	3-100	分類	はい。自動
数値以外、数値	100+	集計された分類	はい。自動

ターゲットを選択すると、ワークベンチには、ターゲット特徴量の分布に関する情報を提供するヒストグラムと、右ペインにエクスペリメント設定の概要が表示されます。

ここでは以下の操作を行うことができます。

連続値エクスペリメントを変更して多クラスエクスペリメントにします。
次へをクリックして、追加設定を表示します。そこでは、デフォルトの設定でモデルを作成したり、設定を変更したりすることができます。
多クラスまたは多ラベル分類エクスペリメントの場合、分類設定をさらに表示をクリックして、詳細なモデリング設定を行います。

デフォルト設定を使用する場合は、モデリングを開始をクリックして、クイックモードのオートパイロットモデリングプロセスを開始します。

連続値ターゲット¶

連続値エクスペリメントは、ターゲットが数値であるエクスペリメントです。連続値予測問題は、入力変数（特徴量）のリストが与えられた場合、連続値（1.7、6、9.8...など）を予測します。連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。

連続値エクスペリメントは、ターゲットタイプを数値から分類に変更することで分類として処理することもできます。

一意の数値	デフォルトのエクスペリメントタイプ	変更できますか？
2	二値分類	いいえ
3+	連続値	はい

連続値問題（数値ターゲット）を分類に変更するには、ターゲットタイプを識別するラジオボタンを変更します。

ターゲットタイプを変更すると、多クラス設定オプションが有効になります。ターゲットに1000を超える数値（クラス）がある場合、以下で説明する低頻度のクラスを集計オプションがデフォルトで有効になります。

分類のターゲット¶

分類エクスペリメントで、モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。分類プロジェクトは、二値（2つのクラス）、多クラス（3つ以上のクラス）、多ラベルのいずれかになります。多ラベルモデリングは分類タスクの一種で、多クラスモデリングと似ていますが、データセットの各行が1つ、複数、またはゼロのラベルに関連付けられるという点で、より柔軟性があります。

分類エクスペリメントの設定は、タイプ（クラス数）に依存し、ターゲット特徴量エントリーの下にターゲットタイプとしてレポートされます。二値分類またはターゲットタイプ：分類。この場合、クラスの数も報告されます。

多クラス混同行列は、あるクラスが別のクラスとして誤ってラベル付けされたモデルの場所を視覚化するのに役立ちます。

二値分類多クラス分類

DataRobotでは、ターゲット特徴量に2つの一意の値（ブール値、カテゴリー値、または数値）がある場合に、二値分類エクスペリメントが作成されます。この例には、顧客が期日までに決済するかどうか（YesまたはNo）、患者が再入院するかどうか（TrueまたはFalse）などがあります。モデルは、特定の観測値が「ポジティブ」クラス（最後の例ではreadmitted=yes）に分類される予測確率を生成します。デフォルトでは、予測確率が50%以上の場合、予測クラスは「ポジティブ」になります。代替のラジオボタンを選択して、Positiveクラスを変更し、モデルのインサイトでPositiveとしてラベル付けできます。

一方、多クラス分類問題では、2つ以上の結果（クラス）が提供されます。たとえば、顧客が（単に購入しそうかどうかではなく）5つの競合のうちどれに目を向けるか、顧客が（単に電話をかけてきそうかどうかではなく）どの部署に電話をかけるべきか。この場合、モデルは、特定の観測値が各クラスに分類される予測確率を生成します。予測クラスは、予測確率が最も高いクラスです。（これは argmaxとも呼ばれます。）多クラス分類問題でクラスオプションを追加すると、選択式の質問を増やすことができ、より詳細なモデルと解が得られます。

1000クラスをサポートするため、DataRobotは頻度に基づいて、クラスを自動集計して、1000個の一意のラベルにします。集計の設定を行うこともできますが、デフォルトでは、DataRobotは最も頻度の高い上位999クラスを保持し、残りを1つの「その他」バケットに集計します。

しかし、集計パラメーターを設定して、プロジェクトに必要なすべてのクラスが表示されるように設定することもできます。設定するには、最初に分類設定をさらに表示を展開し、低頻度のクラスを集計をオンに切り替えます。

次の表は、集計関連の設定を示します。

設定	説明	デフォルト
低頻度のクラスを集計	検出されたクラス数に基づくデフォルト設定で、集計機能を有効にします。	値が1000未満のターゲットの場合はオフ。 1000以上の値を持つターゲットではオンで、無効にすることはできません。
集計されたクラス名	"Other" bin（この集計プランの設定に該当しないすべてのクラスを含むビン）の名前を設定します。これはデータセットで除外された値のすべての行を表します。列内の既存のターゲット値とは異なる名前を指定する必要があります。	集計済み
集計方法	頻度しきい値：「その他」ビンに入れられないようにするために必要な、クラスに属する行の最小出現回数を設定します。つまり、インスタンスの数が少ないクラスは、1つのクラスに折りたたまれます。総クラス数：集計後のクラスの最終的な数を設定します。最後のクラスは"Other" binです。たとえば、900と入力した場合、データからの899クラスのbinと、集約されたクラスの"Other" bin 1つが存在することになります。 3～1000の値（クラスの最大許容数）を入力します。	頻度のしきい値, 1行
集計から除外されるクラス	集計から保護されるクラスのコンマ区切りリストを指定し、対象となる頻度の低いクラスについて予測できるようにします。	なし。オプション

多ラベルのターゲット¶

多ラベルモデリングは一種の分類タスクであり、多クラスモデリングと似ていますが、高い柔軟性があります。多ラベルモデリングでは、データセットの各行は、1つ、複数、またはゼロのラベルに関連付けられています。よく見られる多ラベル分類問題の1つは、テキストの分類です（たとえば、映画の説明文には「犯罪」と「ドラマ」の両方を含められる）。

データセットの作成に関するドキュメントを参照してください。このドキュメントには、DataRobotによる多カテゴリーターゲットの検出方法に関する情報が含まれています。

適切な多カテゴリー行形式に準拠するターゲットでデータセットを準備したら、モデリングを開始できます。 EDA1が完了したら、特徴量の型がmulticategoricalのターゲットを選択します。 DataRobotはターゲットのタイプを多ラベルに設定し、見つかったラベルの数を報告します。

その後、使用されているターゲットラベルの一部を削除することで、モデルの複雑さを軽減する特定の設定オプションを追加できます。

一部のラベルを削除¶

設定するには、最初に分類設定をさらに表示を展開し、低頻度のクラスを集計をオンに切り替えます。ターゲットに含まれる一意のラベルが1,000個を超えている場合、一部のラベルを削除する必要があります。

以下の表では、一部のラベルを削除する方法のオプションについて説明します。これらは同時に使用できません。

フィールド	説明
頻度のしきい値	このラベルを含む、必要最小限の行数を設定します。インスタンス数が少ないラベルは、削除対象から除外するように指定されていない限り、削除されます。
総ラベル数	一部削除後のラベルの最終的な数を設定します。設定すると、指定した数のラベルがターゲットに含まれるまで、最も頻度の低いものから順にラベルが削除されます。 2から1,000までの値を入力してください。
ラベルが削除されないようにする	（オプション）頻度に関係なく、削除から保護されるラベルのコンマ区切りリストを指定します。これにより、対象となる頻度の低いラベルについて予測できるようにします。

削除対象から除外されたラベルではなく、設定がエクスペリメントのサマリーサイドバーに報告されます。

多ラベルに関する注意事項¶

こちらに記載されている注意事項に加えて、以下の分割方法は多ラベルモデリングでは利用できません。

層化抽出
日付/時刻

基本設定のカスタマイズ¶

エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。モデリングを開始する前に、さまざまな設定を変更できます。

	設定	変更対象
1	Positiveクラス	二値分類プロジェクトの場合のみ。予測スコアが分類しきい値よりも高い場合に使用するクラス。
2	モデリングモード	モデリングモード。DataRobotがトレーニングするブループリントに影響します。
3	最適化指標	DataRobotで推奨されているものとは異なる最適化指標に変更します。
4	トレーニング特徴量セット	DataRobotでモデルの構築に使用する特徴量のサブセット。

モデリングモードの変更¶

デフォルトでは、DataRobotはクイックオートパイロットを使用してエクスペリメントを構築します。ただし、モデリングモードを変更することで、特定のブループリントまたは該当するすべてのリポジトリブループリントをトレーニングすることもできます。

以下の表では、各モデリングモードについて説明しています。

モデリングモード	説明
クイックオートパイロット（デフォルト）	クイックオートパイロットでは、64%のサンプルサイズを使用して、指定されたターゲット特徴量とパフォーマンス指標に基づいてモデルのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。
手動	手動モードでは、実行するブループリントを完全に管理できます。 EDA2が完了すると、DataRobotはブループリントリポジトリにリダイレクトし、トレーニング用に1つまたは複数のブループリントを選択できます。
包括的オートパイロット	包括的オートパイロットモードでは、クイックオートパイロット用に選択されたブループリントと同じセットを実行しますが、最大サンプルサイズで実行します。

最適化指標の変更¶

最適化指標は、DataRobotによるモデルのスコアリング方法を定義します。ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。通常、モデルのスコアリングのために DataRobotが選択する指標が、エクスペリメントに最適な選択です。推奨された指標を上書きし、別の指標を使用してモデルを構築するには、最適化指標ドロップダウンを使用します。

利用可能な指標の完全なリストと説明については、リファレンス資料を参照してください。

特徴量セットの変更（モデリング前）¶

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。デフォルトでは有用な特徴量セットですが、モデル構築の前に変更できます。変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。

エクスペリメントの構築が終了したら、モデルごとに選択済みリストを変更することもできます。

追加の自動化を設定¶

高度な設定に移動する前に、またはモデリングを開始する前に、他の自動化を設定できます。

ターゲットを設定し、基本設定を表示した後、追加の自動化設定を表示を展開して、追加のオプションを表示します。

GPUでのトレーニング¶

プレミアム機能

GPUワーカーはプレミアム機能です。この機能を有効にする方法については、DataRobotの担当者にお問い合わせください。

テキストや画像を含み、ディープラーニングモデルを必要とするデータセットの場合、 GPUでのトレーニングを選択すると、トレーニング時間を短縮できます。一部のモデルはCPU上で実行できますが、他のモデルでは、適切なレスポンス時間を実現するためにGPUが必要です。 GPUでのトレーニングを許可するを選択すると、DataRobotは特定のタスクを含むブループリントを検出し、オートパイロットの実行にGPU対応のブループリントを含めます。 GPUバリアントとCPUバリアントの両方がリポジトリに用意されており、トレーニングに使用するワーカーのタイプを選択できます。GPUバリアントのブループリントは、GPUワーカーでより速くトレーニングできるように最適化されています。 GPUの使用については、以下の点を考慮してください。

リーダーボードが生成されると、フィルターを使用してGPUベースのモデルを簡単に識別できます。
モデルを再トレーニングすると、結果として得られるモデルもGPUを使用してトレーニングされます。
手動モードを使用すると、ブループリントリポジトリでフィルターすることでGPU対応のブループリントを識別できます。
最初にGPUでトレーニングするように選択しなかった場合、リポジトリを介して、またはモデリングを再実行することで、GPU対応のブループリントを追加できます。
GPUでトレーニングされたモデルは、リーダーボードでバッジが付けられます。

GPUタスクのサポート¶

一部のブループリントでは、リポジトリに2つのバージョンが用意されており、DataRobotがCPUワーカーまたはGPUワーカーでトレーニングできるようになっています。各バージョンは、特定のワーカータイプでトレーニングできるように最適化されており、識別バッジ（CPUまたはGPU）が付いています。 GPUバッジが付いたブループリントは、常にGPUワーカーでトレーニングされます。それ以外のブループリントはすべて、CPUワーカーでトレーニングされます。

GPUブループリントを使用する際には、以下の点に注意してください。

GPUブループリントは、トレーニングデータに画像またはテキスト特徴量が含まれている場合にのみリポジトリに存在します。
場合によっては、DataRobotはクイックまたはフルオートパイロットの一部としてGPUブループリントをトレーニングします。 GPUワーカーで追加のブループリントをトレーニングするには、リポジトリから手動で実行するか、包括モードで再トレーニングします。（モデリングモードについては、こちらを参照してください。）

機能に関する注意事項¶

CPUとGPUの浮動小数点の実装における固有の違いにより、GPUのない環境でGPUでトレーニングされたモデルを使用すると、矛盾が生じる可能性があります。不整合は、モデルおよびデータセットによって異なりますが、重要でない可能性があります。
GPUでのトレーニングは、非決定的である場合があります。同じパーティションで同じモデルをトレーニングすると、モデルが若干異なる場合があり、テストセットでのスコアリングは異なります。
GPUはトレーニングにのみ使用されます。予測やインサイトの計算には使用されません。
カスタム環境用のエディターロールはなく、カスタムモデル用のみです。

モデリングを開始¶

すべての設定が適用されたら、モデルのトレーニングを開始できます。そうするには、次へをクリックし、次のいずれかを実行します。

モデリングを開始をクリックして、クイックモードの予測モデリングプロセスを開始します。
より高度な設定をカスタマイズします。
ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。

トレーニングが始まると、EDA2が実行され、さらにデータが評価されます。右端のパネルにあるキューを使って、以下のことができます。

エクスペリメントに適用されるワーカーの数をコントロールします。必要に応じて、エクスペリメントのためのワーカーを増減します。詳細情報については、トラブルシューティングのヒントを参照してください。
実行中のキュー、キューに入っているジョブ、失敗したジョブを表示します。

必要に応じてキューを展開し、実行中のジョブや割り当てられたワーカーを確認してください。

次のアクション¶

大規模データセットの設定

10GBを超えるデータセットの場合、DataRobotは増分学習を自動的に適用するので、データをチャンクに分割して、管理しやすく効率的なトレーニングプロセスが可能になります。

モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。以下を実行することが可能です。

エクスペリメント情報を表示 オプションを使用すると、エクスペリメントに関するさまざまな情報を表示できます。
使用可能なモデルでモデル評価を開始します。

更新しました 2025年3月14日

このページは役に立ちましたか？

ありがとうございます。どのような点が役に立ちましたか？

より良いコンテンツを提供するには、どうすればよいでしょうか？

アンケートにご協力いただき、ありがとうございました。