Supervised predictive modeling¶
Supervised learning uses the other features of your dataset to make predictions. Unsupervised learning uses unlabeled data to surface insights about patterns in your data. The supervised learning setup is described below.
基本を作成¶
ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。
備考
モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。
特徴量セットを作成¶
Before modeling, you can create a custom feature list from the data explore page. You can then select that list during modeling setup to create the modeling data using only the features in that list. Learn more about feature lists post-modeling here.
エクスペリメントを追加¶
ユースケース内から追加をクリックし、エクスペリメントを選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。
データを追加¶
新しいデータを追加 する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。
データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。
ここから、次のことができます。
オプション | |
---|---|
1 | クリックして、データリストに戻り、別のデータセットを選択します。 |
2 | アイコンをクリックして続行し、学習タイプとターゲットを設定します。 |
3 | 次へをクリックして続行し、学習タイプとターゲットを設定します。 |
モデリング設定の開始¶
続行すると、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。
備考
これ以降のエクスペリメントの作成では、エクスペリメントの設定を続行しても(次へ)、終了してもかまいません。 終了を選択すると、変更を破棄するか、すべての進捗をドラフトとして保存するよう促されます。 どちらの場合でも、終了時にはエクスペリメントのセットアップを開始した時点に戻り、EDA1の処理は失われます。 終了してドラフトを保存を選択すると、ドラフトはユースケースディレクトリで利用できます。
ワークベンチで作成したドラフトをDataRobot Classicで開き、ワークベンチでサポートされていない機能を導入する変更を加えた場合、そのドラフトはユースケースにリストされますが、Classicインターフェイス以外からはアクセスできません。
Set learning type¶
When EDA1 finishes, Workbench progresses to the modeling setup. First, set the learning type.
学習タイプ | 説明 | 可用性 |
---|---|---|
教師あり | Builds models using the other features of your dataset to make predictions; this is the default learning type and is described on this page. | |
クラスタリング | Using no target and unlabeled data, builds models that group similar data and identify segments. | |
異常検知 | Using no target and unlabeled data, builds that detect abnormalities in the dataset. |
ターゲットの設定¶
本機能の提供について
多ラベル(多カテゴリー)モデリングが利用できるかどうかは、お使いのDataRobotパッケージによって異なります。 組織内で有効になっていない場合は、DataRobotの担当者に詳細をお問い合わせください。
教師ありモードを使用する場合、以下のいずれかによってターゲットを設定します。
特徴量のリストをスクロールして、ターゲットを見つけます。 見つからない場合は、表示の下部からリストを展開します。
配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。
- 予測したいターゲット特徴量の名前を入力ボックスに入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。
DataRobotは、指定されたターゲット特徴量の値の数に応じて、自動的にエクスペリメントのタイプ(連続値または分類)を決定します。 Classification experiments can be binary (binary classification), more than two classes (multiclass), or multilabel. 次の表は、DataRobotが数値および非数値のターゲットデータ型にデフォルトの問題タイプを割り当てる方法を示しています。
ターゲットデータ型 | 一意のターゲット値の数 | デフォルトの問題タイプ | 多クラス分類/多ラベル分類 |
---|---|---|---|
数値 | 2 | 分類 | いいえ |
数値 | 3+ | 連続値 | はい、オプション |
数値以外 | 2 | 二値分類 | いいえ |
数値以外 | 3-100 | 分類 | はい。自動 |
数値以外、数値 | 100+ | 集計された分類 | はい。自動 |
ターゲットを選択すると、ワークベンチには、ターゲット特徴量の分布に関する情報を提供するヒストグラムと、右ペインにエクスペリメント設定の概要が表示されます。
ここでは以下の操作を行うことができます。
-
連続値エクスペリメントを変更して多クラスエクスペリメントにします。
-
次へをクリックして、追加設定を表示します。そこでは、デフォルトの設定でモデルを作成したり、設定を変更したりすることができます。
-
For multiclass or multilabel classification experiments, click Show more classification settings to further configure modeling settings.
デフォルト設定を使用する場合は、モデリングを開始をクリックして、 クイックモードのオートパイロットモデリングプロセスを開始します。
連続値ターゲット¶
連続値エクスペリメントは、ターゲットが数値であるエクスペリメントです。 連続値予測問題は、入力変数(特徴量)のリストが与えられた場合、連続値(1.7、6、9.8...など)を予測します。 連続値問題の例には、財務予測、時系列予測、メンテナンスのスケジューリング、および気象分析などがあります。
連続値エクスペリメントは、ターゲットタイプを数値から分類に変更することで分類として処理することもできます。
一意の数値 | デフォルトのエクスペリメントタイプ | 変更できますか? |
---|---|---|
2 | 二値分類 | いいえ |
3+ | 連続値 | はい |
連続値問題(数値ターゲット)を分類に変更するには、ターゲットタイプを識別するラジオボタンを変更します。
ターゲットタイプを変更すると、 多クラス設定オプションが有効になります。 ターゲットに1000を超える数値(クラス)がある場合、以下で説明する低頻度のクラスを集計オプションがデフォルトで有効になります。
分類のターゲット¶
分類エクスペリメントで、モデルは、特定のクラスの共通の特性を識別することにより、観測値をカテゴリーにグループ化します。 これらの特性を分類しているデータと比較し、観測値が特定のクラスに属する可能性を推定します。 Classification projects can be binary (two classes), multiclass (three or more classes), or multilabel. Multilabel modeling is a kind of classification task that, while similar to multiclass modeling, provides more flexibility in that each row in the dataset is associated with one, several, or zero labels.
分類エクスペリメントの設定は、タイプ(クラス数)に依存し、ターゲット特徴量エントリーの下にターゲットタイプとしてレポートされます。二値分類またはターゲットタイプ:分類。この場合、クラスの数も報告されます。
多クラス混同行列は、あるクラスが別のクラスとして誤ってラベル付けされたモデルの場所を視覚化するのに役立ちます。
DataRobotでは、ターゲット特徴量に2つの一意の値(ブール値、カテゴリー値、または数値)がある場合に、二値分類エクスペリメントが作成されます。 この例には、顧客が期日までに決済するかどうか(YesまたはNo)、患者が再入院するかどうか(TrueまたはFalse)などがあります。 モデルは、特定の観測値が「ポジティブ」クラス(最後の例ではreadmitted=yes
)に分類される予測確率を生成します。 デフォルトでは、予測確率が50%以上の場合、予測クラスは「ポジティブ」になります。代替のラジオボタンを選択して、Positiveクラスを変更し、 モデルのインサイトでPositiveとしてラベル付けできます。
一方、多クラス分類問題では、2つ以上の結果(クラス)が提供されます。 たとえば 、顧客が(単に購入しそうかどうかではなく)5つの競合のうちどれに目を向けるか、顧客が(単に電話をかけてきそうかどうかではなく)どの部署に電話をかけるべきか。 この場合、モデルは、特定の観測値が各クラスに分類される予測確率を生成します。予測クラスは、予測確率が最も高いクラスです。 (これは argmaxとも呼ばれます。) 多クラス分類問題でクラスオプションを追加すると、選択式の質問を増やすことができ、より詳細なモデルと解が得られます。
1000クラスをサポートするため、DataRobotは頻度に基づいて、クラスを自動集計して、1000個の一意のラベルにします。 集計の設定を行うこともできますが、デフォルトでは、DataRobotは最も頻度の高い上位999クラスを保持し、残りを1つの 「その他 」バケットに集計します。
しかし、集計パラメーターを設定して、プロジェクトに必要なすべてのクラスが表示されるように設定することもできます。 設定するには、最初に分類設定をさらに表示を展開し、低頻度のクラスを集計をオンに切り替えます。
次の表は、集計関連の設定を示します。
設定 | 説明 | デフォルト |
---|---|---|
低頻度のクラスを集計 | 検出されたクラス数に基づくデフォルト設定で、集計機能を有効にします。 | 値が1000未満のターゲットの場合はオフ。 1000以上の値を持つターゲットではオンで、無効にすることはできません。 |
集計されたクラス名 | "Other" bin(この集計プランの設定に該当しないすべてのクラスを含むビン)の名前を設定します。 これはデータセットで除外された値のすべての行を表します。 列内の既存のターゲット値とは異なる名前を指定する必要があります。 | 集計済み |
集計方法 | 頻度しきい値:「その他」ビンに入れられないようにするために必要な、クラスに属する行の最小出現回数を設定します。 つまり、インスタンスの数が少ないクラスは、1つのクラスに折りたたまれます。 総クラス数:集計後のクラスの最終的な数を設定します。 最後のクラスは"Other" binです。 たとえば、900と入力した場合、データからの899クラスのbinと、集約されたクラスの"Other" bin 1つが存在することになります。 3~1000の値(クラスの最大許容数)を入力します。 |
頻度のしきい値, 1行 |
集計から除外されるクラス | 集計から保護されるクラスのコンマ区切りリストを指定し、対象となる頻度の低いクラスについて予測できるようにします。 | なし。オプション |
Multilabel targets¶
多ラベルモデリングは一種の分類タスクであり、多クラスモデリングと似ていますが、高い柔軟性があります。 多ラベルモデリングでは、データセットの各行は、1つ、複数、またはゼロのラベルに関連付けられています。 よく見られる多ラベル分類問題の1つは、テキストの分類です(たとえば、映画の説明文には「犯罪」と「ドラマ」の両方を含められる)。
See the documentation for creating a dataset, which includes information about how DataRobot detects multicategorical targets.
Once the dataset is prepared with the target adhering to the appropriate multicategorical row format, you can start modeling. After EDA1 completes, select a target with the var type of multicategorical
. DataRobot sets the target type to multilabel and reports on the number of labels found.
You can then set additional, specific configuration options that reduce model complexity by trimming (removing) some of the target labels used.
Trimming labels¶
設定するには、最初に分類設定をさらに表示を展開し、低頻度のクラスを集計をオンに切り替えます。 ターゲットに含まれる一意のラベルが1,000個を超えている場合、一部のラベルを削除する必要があります。
The following table describes the trimming method options, which are mutually exclusive:
フィールド | 説明 |
---|---|
頻度のしきい値 | Sets the required minimum number of rows that contain this label. Any label with fewer instances will be trimmed unless specified as excluded from trimming. |
総ラベル数 | 一部削除後のラベルの最終的な数を設定します。 When set, DataRobot trims labels, starting with the least frequent, until the target contains the specified number of labels. 2から1,000までの値を入力してください。 |
ラベルが削除されないようにする | (オプション)頻度に関係なく、削除から保護されるラベルのコンマ区切りリストを指定します。 これにより、対象となる頻度の低いラベルについて予測できるようにします。 |
Settings, though not labels that were excluded from trimming, are reported in the Experiment summary sidebar.
多ラベルに関する注意事項¶
In addition to the considerations listed here, the following partitioning methods are not available in multilabel modeling:
- 層化抽出
- 日付/時刻
基本設定のカスタマイズ¶
エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。 モデリングを開始する前に、さまざまな設定を変更できます。
設定 | 変更対象 | |
---|---|---|
1 | Positiveクラス | 二値分類プロジェクトの場合のみ。 予測スコアが分類しきい値よりも高い場合に使用するクラス。 |
2 | モデリングモード | モデリングモード。DataRobotがトレーニングするブループリントに影響します。 |
3 | 最適化指標 | DataRobotで推奨されているものとは異なる最適化指標に変更します。 |
4 | トレーニング特徴量セット | DataRobotでモデルの構築に使用する特徴量のサブセット。 |
モデリングモードの変更¶
デフォルトでは、DataRobotはクイックオートパイロットを使用してエクスペリメントを構築します。 ただし、モデリングモードを変更することで、特定のブループリントまたは該当するすべてのリポジトリブループリントをトレーニングすることもできます。
以下の表では、各モデリングモードについて説明しています。
モデリングモード | 説明 |
---|---|
クイックオートパイロット(デフォルト) | クイックオートパイロットでは、64%のサンプルサイズを使用して、指定されたターゲット特徴量とパフォーマンス指標に基づいてモデルのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。 |
手動 | 手動モードでは、実行するブループリントを完全に管理できます。 EDA2が完了すると、DataRobotは ブループリントリポジトリにリダイレクトし、トレーニング用に1つまたは複数のブループリントを選択できます。 |
包括的オートパイロット | Comprehensive Autopilot mode runs the same set of blueprints selected for Quick Autopilot, but runs them at maximum sample size . |
最適化指標の変更¶
最適化指標は、DataRobotによるモデルのスコアリング方法を定義します。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。 通常、モデルのスコアリングのために DataRobotが選択する指標が、エクスペリメントに最適な選択です。 推奨された指標を上書きし、別の指標を使用してモデルを構築するには、最適化指標ドロップダウンを使用します。
利用可能な指標の完全なリストと説明については、リファレンス資料を参照してください。
特徴量セットの変更(モデリング前)¶
特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 デフォルトでは 有用な特徴量セットですが、モデル構築の前に変更できます。 変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。
エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。
追加の自動化を設定¶
高度な設定に移動する前に、またはモデリングを開始する前に、他の自動化を設定できます。
ターゲットを設定し、基本設定を表示した後、追加の自動化設定を表示を展開して、追加のオプションを表示します。
GPUでのトレーニング¶
プレミアム機能
GPUワーカーはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者にお問い合わせください。
テキストや画像を含み、ディープラーニングモデルを必要とするデータセットの場合、 GPUでのトレーニングを選択すると、トレーニング時間を短縮できます。 一部のモデルはCPU上で実行できますが、他のモデルでは、適切なレスポンス時間を実現するためにGPUが必要です。 GPUでのトレーニングを許可するを選択すると、DataRobotは特定のタスクを含むブループリントを検出し、オートパイロットの実行にGPU対応のブループリントを含めます。 GPUバリアントとCPUバリアントの両方がリポジトリに用意されており、トレーニングに使用するワーカーのタイプを選択できます。GPUバリアントのブループリントは、GPUワーカーでより速くトレーニングできるように最適化されています。 GPUの使用については、以下の点を考慮してください。
- リーダーボードが生成されると、 フィルターを使用してGPUベースのモデルを簡単に識別できます。
- モデルを 再トレーニングすると、結果として得られるモデルもGPUを使用してトレーニングされます。
- 手動モードを使用すると、 ブループリントリポジトリでフィルターすることでGPU対応のブループリントを識別できます。
- 最初にGPUでトレーニングするように選択しなかった場合、リポジトリを介して、またはモデリングを再実行することで、GPU対応のブループリントを追加できます。
-
GPUでトレーニングされたモデルは、リーダーボードでバッジが付けられます。
GPUタスクのサポート¶
一部のブループリントでは、リポジトリに2つのバージョンが用意されており、DataRobotがCPUワーカーまたはGPUワーカーでトレーニングできるようになっています。 各バージョンは、特定のワーカータイプでトレーニングできるように最適化されており、識別バッジ(CPUまたはGPU)が付いています。 GPUバッジが付いたブループリントは、常にGPUワーカーでトレーニングされます。 それ以外のブループリントはすべて、CPUワーカーでトレーニングされます。
GPUブループリントを使用する際には、以下の点に注意してください。
- GPUブループリントは、トレーニングデータに画像またはテキスト特徴量が含まれている場合にのみリポジトリに存在します。
- 場合によっては、DataRobotはクイックまたはフルオートパイロットの一部としてGPUブループリントをトレーニングします。 GPUワーカーで追加のブループリントをトレーニングするには、リポジトリから手動で実行するか、包括モードで再トレーニングします。 (モデリングモードについては、こちらを参照してください。)
機能に関する注意事項¶
-
CPUとGPUの浮動小数点の実装における固有の違いにより、GPUのない環境でGPUでトレーニングされたモデルを使用すると、矛盾が生じる可能性があります。 不整合は、モデルおよびデータセットによって異なりますが、重要でない可能性があります。
-
GPUでのトレーニングは、非決定的である場合があります。 同じパーティションで同じモデルをトレーニングすると、モデルが若干異なる場合があり、テストセットでのスコアリングは異なります。
-
GPUはトレーニングにのみ使用されます。予測やインサイトの計算には使用されません。
-
カスタム環境用のエディターロールはなく、カスタムモデル用のみです。
モデリングを開始¶
すべての設定が適用されたら、モデルのトレーニングを開始できます。 そうするには、次へをクリックし、次のいずれかを実行します。
-
モデリングを開始をクリックして、 クイックモードの予測モデリングプロセスを開始します。
-
より 高度な設定をカスタマイズします。
-
ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。
トレーニングが始まると、EDA2が実行され、さらにデータが評価されます。 右端のパネルにあるキューを使って、以下のことができます。
-
エクスペリメントに適用されるワーカーの数をコントロールします。 必要に応じて、エクスペリメントのためのワーカーを増減します。 詳細情報については、 トラブルシューティングのヒントを参照してください。
-
実行中のキュー、キューに入っているジョブ、失敗したジョブを表示します。
必要に応じてキューを展開し、実行中のジョブや割り当てられたワーカーを確認してください。
次のアクション¶
大規模データセットの設定
10GBを超えるデータセットの場合、DataRobotは 増分学習を自動的に適用するので、データをチャンクに分割して、管理しやすく効率的なトレーニングプロセスが可能になります。
モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。 以下を実行することが可能です。
- エクスペリメント情報を表示 オプションを使用すると、エクスペリメントに関するさまざまな情報を表示できます。
- 使用可能なモデルで モデル評価を開始します。