Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

エクスペリメントを作成

ワークベンチで実行可能なAIエクスペリメントの「タイプ」は2つあります。

  • 予測モデリング。このページで説明しています。データに基づいて行単位の予測を行います。

  • 時間認識モデリングこちら{ target=blank }で説明しています。 _時間に関連するデータ を使用してモデルを作成し、行単位の予測、時系列予測、または現在値の予測である 「ナウキャスト」を行います。

エクスペリメントは、 ユースケース内の個々の"プロジェクト"です。 データ、ターゲット、モデリング設定を変更しながら、ビジネス問題を解決するための最適なモデルを見つけることができます。 各エクスペリメント内では、そのリーダーボードと モデルのインサイト、および エクスペリメントのサマリー情報にアクセスできます。

その他の重要情報については、関連する FAQを参照してください。

基本を作成

ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。

備考

モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。

特徴量セットを作成

パブリックプレビュー

ワークベンチでの特徴量セットのサポートは、デフォルトではオンになっています。

機能フラグ:ワークベンチのプレビューで特徴量セットを有効にする

モデリングの前に、データセットタブからカスタム特徴量セットを作成できます。 モデリングの設定中にそのセットを選択すると、DataRobotはそのセットの特徴量のみを使用して、モデリングデータを作成します。

新しいセットを作成するには:

  1. ユースケースから、モデリングするデータセットを選択し、データプレビューを開きます。
  2. ページの上部にあるドロップダウンをクリックし、+ 新しい特徴量セットを選択して特徴量ビューを開きます。

  3. 各特徴量の横にあるカスタムセットに含めたいチェックボックスを選択します。 次に、特徴量セットを作成をクリックし、名前と説明(オプション)を入力し、変更を保存をクリックします。

エクスペリメントを追加

ユースケース内から追加をクリックし、エクスペリメントを選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。

データを追加

新しいデータを追加 する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。

データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。

ここから、次のことができます。

オプション 説明
1 クリックして、データリストに戻り、別のデータセットを選択します。
2 アイコンをクリックして続行し、ターゲットを設定します。
3 へをクリックして続行し、ターゲットを設定します。

ターゲットを選択する

ターゲットの選択に進むと、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。

備考

これ以降のエクスペリメントの作成では、エクスペリメントの設定を続行するか、または保存して閉じるをクリックして、作成中のユースケースをドラフトとして保存できます。

ワークベンチで作成したドラフトをDataRobot Classicで開き、ワークベンチでサポートされていない機能を導入する変更を加えた場合、そのドラフトはユースケースにリストされますが、Classicインターフェイス以外からはアクセスできません。

EDA1が終了したとき、ターゲットを設定するには次のどちらかを実行します。

特徴量のリストをスクロールして、ターゲットを見つけます。 見つからない場合は、表示の下部からリストを展開します。

配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。

  1. 予測したいターゲット特徴量の名前を入力ボックスに入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。

ターゲットを入力した後、ターゲット特徴量の分布に関する情報を示すヒストグラムがワークベンチに表示され、右側のペインにエクスペリメント設定のサマリーが表示されます。

次へをクリックして、追加設定を表示します。 デフォルト設定でモデルを構築するか、 デフォルト設定を変更して開始します。 デフォルト設定を使用する場合は、モデリングを開始をクリックして、 クイックモードのオートパイロットモデリングプロセスを開始します。

基本設定のカスタマイズ

エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。 モデリングを開始する前に、さまざまな設定を変更できます。

  設定 変更対象
Positiveクラス 二値分類プロジェクトの場合のみ。 予測スコアが分類しきい値よりも高い場合に使用するクラス。
モデリングモード モデリングモード。DataRobotがトレーニングするブループリントに影響します。
最適化指標 DataRobotで推奨されているものとは異なる最適化指標に変更します。
トレーニング特徴量セット DataRobotでモデルの構築に使用する特徴量のサブセット。

After changing any or all of the settings described, click Next and either:

  • モデリングを開始をクリックして、 クイックモードの予測モデリングプロセスを開始します。
  • より 高度な設定をカスタマイズします。

モデリングモードの変更

デフォルトでは、DataRobotはクイックオートパイロットを使用してエクスペリメントを構築します。 ただし、モデリングモードを変更することで、特定のブループリントまたは該当するすべてのリポジトリブループリントをトレーニングすることもできます。

以下の表では、各モデリングモードについて説明しています。

モデリングモード 説明
クイック(デフォルト) クイックオートパイロットでは、最初に32%のサンプルサイズを使用し、その後に64%のサンプルサイズを使用して、指定されたターゲット特徴量とパフォーマンス指標に基づいてモデルのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。
手動 手動モードでは、実行するブループリントを完全に管理できます。 EDA2が完了すると、DataRobotは ブループリントリポジトリにリダイレクトし、トレーニング用に1つまたは複数のブループリントを選択できます。
包括的 モデルの精度を高めるために、最大のオートパイロットサンプルサイズですべてのリポジトリブループリントを実行する包括的なオートパイロットモード。 このモードでは構築時間が大幅に長くなります。

最適化指標の変更

最適化指標は、DataRobotによるモデルのスコアリング方法を定義します。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。 通常、モデルのスコアリングのために DataRobotが選択する指標が、エクスペリメントに最適な選択です。 推奨された指標を上書きし、別の指標を使用してモデルを構築するには、最適化指標ドロップダウンを使用します。

利用可能な指標の完全なリストと説明については、リファレンス資料を参照してください。

特徴量セットの変更(モデリング前)

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 デフォルトでは 有用な特徴量セットですが、モデル構築の前に変更できます。 変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。

エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。

Set additional automation

Before moving to advanced settings or beginning modeling, you can configure other automation settings.

After the target is set and the basic settings display, expand Show additional automation settings to see additional options.

Train on GPUs

本機能の提供について

GPU workers are a premium feature. Contact your DataRobot representative for information on enabling the feature.

For datasets that include text and/or images and require deep learning models, you can select to train on GPUs to speed up training time. While some of these models can be run on CPUs, others require GPUs to achieve reasonable response time. When Allow training on GPUs is selected, DataRobot detects blueprints that contain certain tasks and includes GPU-supported blueprints in the Autopilot run. Both GPU and CPU variants are available in the repository, allowing a choice of which worker type to train on; GPU variant blueprints are optimized to train faster on GPU workers. Notes about working with GPUs:

  • Once the Leaderboard populates, you can easily identify GPU-based models using filtering.
  • When retraining models, the resulting model is also trained using GPUs.
  • When using Manual mode, you can identify GPU-supported blueprints by filtering in the blueprint repository.
  • If you did not initially select to train with GPUs, you can add GPU-supported blueprints via the repository or by rerunning modeling.
  • Models trained on GPUs are marked with a badge on the Leaderboard:

高度な設定をカスタマイズ

トレーニングの前に、より高度なモデリング条件を適用するには、オプションで以下の操作を行うことができます。

データパーティショニングタブ

パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 ワークベンチのデフォルトは、 層化サンプリング(二値分類エクスペリメントの場合)またはランダム(連続値エクスペリメントの場合)による 5分割交差検定、および20%のホールドアウト分割です。

備考

日付特徴量が使用可能な場合、エクスペリメントは日付/時刻パーティションに適格です。日付/時刻パーティションでは、行がランダムではなく時系列でバックテストに割り当てられます。 時間認識プロジェクトで唯一有効な分割手法。 詳細については、時間認識モデリングのドキュメントを参照してください。

分割手法または検定タイプを追加設定から変更するか、サマリーのパーティショニングフィールドをクリックして変更します。

分割手法の設定

分割手法では、モデルのトレーニング時に行を割り当てる方法をDataRobotに指示します。 分割手法と検定タイプの選択は、ターゲット特徴量およびパーティション列に依存します。 つまり、すべての選択が常に使用可能として表示されるわけではないということです。 次の表は、各手法を簡単に説明しています。パーティショニングの詳細については、 このセクションも参照してください。

方法 説明
層化抽出 行は、トレーニングデータ、検定、ホールドアウトセットにランダムに割り当てられ、元のデータと同じ(可能な限り近い)予測ターゲット値の比率が保持されます。 これは、二値分類問題のデフォルトの手法です。
ランダム DataRobotでは、行がトレーニング、検定、ホールドアウトセットにランダムに割り当てられます。 これは、連続値問題のデフォルトの手法です。
ユーザー定義のグループ化 この特徴量の値と検定パーティションの間で1対1のマッピングが作成されます。 それぞれの一意の値には独自のパーティションが割り当てられ、その値を含むすべての行がそのパーティションに配置されます。 この方法は、カーディナリティが低いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
自動グループ化 選択した特徴量に対して同じ単一の値を含むすべての行は同じトレーニングまたはテストセットに含まれることが保証されます。 各パーティションには特徴量の1つ以上の値を含めることができますが、個々の値はDataRobotによって自動的に一緒にグループ化されます。 この方法は、カーディナリティが高いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
日付/時刻 時間認識エクスペリメントを参照してください。

検定タイプの設定

検定タイプは、モデルを検証するためにデータで使用される方法を設定します。 方法を選択し、関連するフィールドを設定します。 設定フィールドの下のグラフィックは、設定を示します。 ユーザー定義または自動化されたグループパーティショニングを使用する場合は、検定タイプの説明を参照してください。

フィールド 説明
交差検定:2つ以上の“分割”にデータを分離し、分割ごとに1つのモデルを作成します。その分割に割り当てられたデータは検定に使用され、それ以外のデータはトレーニングに使用されます。
交差検定の分割 交差検定手法で使用する分割数を設定します。 数値を大きくすると、各分割で使用可能なトレーニングデータサイズが増加し、合計トレーニング時間が長くなります。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。
トレーニング-検定-ホールドアウト:データセットが大きい場合、データをトレーニング、検定、ホールドアウトの3つのセクションに分割し、データの1回のパスに基づいて予測します。
検定の割合 トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。

備考

データセットが800 MBを超える場合、すべての分割手法で使用可能な検定タイプはトレーニング-検定-ホールドアウトだけです。

グループ化によるパーティション

あまり一般的ではありませんが、ユーザー定義および自動化されたグループ分割では、グループ化の基礎となるデータセットの特徴量を _パーティション特徴量_で分割する方法が行われます。

  • _ユーザー定義のグループ化_では、選択したパーティション特徴量の一意の値ごとにパーティションが作成されます。 つまり、行は、選択したパーティション特徴量の値を使用してパーティションに割り当てられ、一意の値ごとに1つのパーティションになります。 この方法を選択すると、パーティション特徴量の一意の値が10未満である特徴量を指定することが推奨されます。

  • _自動化されたグループ化_では、パーティション特徴量の同じ単一(指定)値を持つすべての行が同じパーティションに割り当てられます。 各パーティションには、その特徴値が複数含まれることがあります。 この方法を選択すると、DataRobotにより一意の値が6以上である特徴量を指定することが推奨されます。

これらの方法のいずれかを選択すると、パーティション特徴量を入力するように求められます。 ヘルプテキストからは、パーティション特徴量に含める必要のある値の数に関する情報が得られます。ドロップダウンをクリックして、一意の値の数を含む特徴量を表示します。

パーティション特徴量の選択後、検定タイプを設定します。 検定タイプの適用性は、次のチャートに示すように、パーティション特徴量の一意の値に依存します。

自動化されたグループ化では、上記と同じ 検定設定が使用されます。 しかし、ユーザー定義のグループ化では、パーティション特徴量に固有の値の入力が求められます。 _交差検定_の場合、ホールドアウトの設定はオプションです。 設定する場合は、パーセンテージではなくパーティション特徴量の値を選択します。 _トレーニング-検定-ホールドアウト_の場合、ここでもパーセンテージではなく、各セクションのパーティション特徴量の値を選択します。

追加設定を行う

より高度なモデリング機能を設定するには、追加設定タブを選択します。 時系列モデリングタブについては、データセットで日付/時刻特徴量が見つかったかどうかに応じて、使用可能になるかグレーアウトされます。

ビジネスユースケースに応じて、以下を設定します。

単調特徴量制約

単調制約は、特徴量とターゲットの間の上下方向の影響を制御します。 一部のプロジェクト(保険業や銀行業など)では、特徴量とターゲットの間の方向関係性を強制することが望ましい場合があります(評価価値の高い家屋の火災保険料が常に高くなるなど)。 単調制約でのトレーニングを行うことによって、特定のXGBoostモデルに特定の特徴量とターゲットの間の単調(常に増加または常に減少)関係性を学習させます。

単調制約特徴量を使用するには、 特殊な特徴量セットを作成する必要があります。この特徴量セットは、ここで選択されます。 また、手動モードを使用する場合、使用可能なブループリントにはMONOバッジが付けられ、サポートされるモデルを識別できます。

ウェイト

ウェイト違いを表す重みとして使用し、各行の相対的な有用性を示す単一の特徴量を設定します。 これは、モデルの構築やスコアリングの際に、リーダーボードで指標を計算する目的で使用されます。新しいデータで予測を行う目的では使用されません。 選択した特徴量のすべての値が0より大きい値である必要があります。DataRobotでは検定が行われ、選択した特徴量にはサポートされている値のみが含まれているかどうかが確認されます。

保険特有の設定

保険業界の頻繁な加重ニーズに対処するいくつかの機能を利用できます。 次の表では各モデルについて簡単に説明しますが、詳細については、 ここを参照してください。

設定 説明
エクスポージャー 連続値問題のターゲット予測において厳密な比例関係で処理される特徴量を設定し、保険料率をモデリングする際にエクスポージャーの指標を追加します。 DataRobotでは、エクスポージャーで選択された特徴量は特殊な列として扱われ、モデルの構築やスコアリングの際に元の予測に追加されます。選択した列は、予測のために後でアップロードするすべてのデータセットに存在する必要があります。
イベント数 ゼロ以外のイベントの頻度に関する情報を追加することで、ゼロ過剰ターゲットのモデリングを改善します。
オフセット 各サンプルでモデルの切片(線形モデル)またはマージン(ツリーベースモデル)を調整するもので、複数の特徴量を受け付けます。

設定を変更します。

ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。

次のアクション

モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。 以下を実行することが可能です。


更新しました February 8, 2024
Back to top