Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

エクスペリメントを作成

エクスペリメントは、 ユースケース内の個々の"プロジェクト"です。 データ、ターゲット、モデリング設定を変更しながら、ビジネス問題を解決するための最適なモデルを見つけることができます。 各エクスペリメント内では、そのリーダーボードと モデルのインサイト、および エクスペリメントサマリー情報にアクセスできます。 モデルを選択した後、エクスペリメント内から以下の操作を行うことができます。

その他の重要情報については、関連する FAQを参照してください。

基本を作成

ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。

備考

モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。

エクスペリメントを追加

ユースケース内から新規追加をクリックし、エクスペリメントを追加を選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。

データを追加

新しいデータを追加する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。

データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。

ここでは以下の操作を行うことができます。

オプション 説明
1
クリックして、データリストに戻り、別のデータセットを選択します。
2
アイコンをクリックして続行し、ターゲットを設定します。
3
へをクリックして続行し、ターゲットを設定します。

ターゲットを選択する

ターゲットの選択に進むと、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。 このプロセスが終了したら、以下のいずれかの方法でターゲットを設定します。

特徴量のリストをスクロールして、ターゲットを見つけます。 見つからない場合は、表示の下部からリストを展開します。

配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。

  1. 予測したいターゲット特徴量の名前を入力ボックスに入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。

ターゲットを入力すると、ターゲット特徴量の分布に関する情報を提供するヒストグラムがワークベンチに表示され、右側のペインにエクスペリメントのパラメーターのサマリーが表示されます。

ここから、デフォルト設定でモデルを構築する準備が整っています。 または、 デフォルト設定を変更してから開始できます。 デフォルト設定を使用する場合は、モデリングを開始をクリックして、 クイックモードのオートパイロットモデリングプロセスを開始します。

設定をカスタマイズ

エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。 モデリングを開始する前に、以下の操作を行うことができます。

上記のいずれかまたはすべてをリセットしたら、モデリングを開始をクリックして クイックモードモデリングプロセスを開始します。

パーティショニングの変更

パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 デフォルトでは 5分割で、20%のホールドアウト分割で 層化抽出分割されます。

本機能の提供について

時間認識プロジェクトを構築する日付/時刻のパーティショニングは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ:ワークベンチで日付/時刻パーティション(OTV)を有効にする

分割手法または検定タイプを変更するには:

  1. 追加設定次へ、またはサマリーのパーティショニングフィールドのアイコンをクリックします。

  2. 日付特徴量が使用可能な場合、エクスペリメントは、 時間外検定パーティショニングの対象になり、DataRobotは、時間認識モデルを構築できます。 その場合、追加情報が、サマリーで使用可能になります。

  3. 変更するフィールドを設定します。 使用可能なフィールドは、選択した分割手法によって異なります。

    • ランダムでは、観測値(行)をトレーニングセット、検定セット、ホールドアウトセットにランダムに割り当てます。
    • 層化抽出では、トレーニングセット、検定セット、ホールドアウトセットにランダムに行を割り当て、予測ターゲットについて、元のデータと同じ値の比率を保ちます(できるだけ近づけます)。
    • 日付/時刻では、例えば、ランダムではなく、行は時系列でバックテストに割り当てられます。 時間認識プロジェクトで唯一有効な分割手法。

  フィールド 説明
1
検定タイプ モデル検定のためにデータで使用される方法を設定します。
  • 交差検定。 データを2つ以上の 「分割」 に区切り、分割ごとに1つのモデルを作成して、その分割に割り当てられたデータを検定に使用し、残りのデータをトレーニングに使用します。
  • トレーニング-検定-ホールドアウト。 大規模なデータセットの場合は、データを3つの異なるセクション(トレーニング、検定、ホールドアウト)に分割し、そのデータに対して1回のパスで予測を行います。
2
交差検定の分割 交差検定手法で使用する分割数を設定します。 数値を大きくすると、各分割で使用可能なトレーニングデータサイズが増加し、合計トレーニング時間が長くなります。
3
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。

日付/時刻を選択すると、データセットの行の順序付けに使用される特徴量の順序付け特徴量—を入力するように求められます。 ボックスをクリックすると、EDA1でDataRobotが検出した日付/時刻特徴量を表示します。これらは、ボックスの下にもリストされ、そこで順序付け特徴量を選択できます。 特徴量がリストされていない場合、タイプdateとして検出されず、使用できません。

DataRobotで、選択した特徴量の日付および時刻の形式(標準のGLIBC文字列)が検出されます。順序付けの特徴量が選択されると、DataRobotは、以下の選択した特徴量の日付および/または時刻の形式(標準GLIBC文字列)を検出して報告します。

バックテスト設定が利用可能になります。 DataRobotでは、データセットの特性に基づいてデフォルトが設定されており、通常はそのままで、堅牢なモデルを実現できます。

  フィールド 説明
1
バックテスト バックテストパーティションを設定します。 これらの値に対する変更は、エントリーボックスの下のグラフィックに表示されます。
  • バックテストの数。 交差検定の時系列版に相当する、プロジェクトのバックテストの数を設定します(ランダム行ではなく時間範囲または期間に基づきます)。
  • 検定の長さ。 モデルパフォーマンスの評価に使用されるトレーニングセットの一部ではないテスト—データに使用されるパーティションのサイズを設定します。
  • ギャップの長さ。 モデルトレーニングとモデルデプロイの間のギャップを表す時間のスペースを設定します。
2
バックテストごとに同じ行を使用 各バックテストで、同じ行数(有効化)を使用するか、または同じ期間(無効化)を使用するかを設定します。
3
パーティションサンプリング方法 データセットから行を割り当てる方法を設定します。データセットが時間の経過とともに均等に分散されない場合に役立ちます。
4
パーティションログ パーティション作成を報告するダウンロード可能なログを提供します。

エントリーボックスの下にあるグラフィックを使用して、 個々のバックテストを編集することもできます。

設定を変更します。

ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。

特徴量セットを変更

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 デフォルトでは 有用な特徴量セットですが、モデル構築の前に変更できます。 変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。

エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。


更新しました August 16, 2023
Back to top