エクスペリメントを作成¶
エクスペリメントは、 ユースケース内の個々の"プロジェクト"です。 データ、ターゲット、モデリング設定を変更しながら、ビジネス問題を解決するための最適なモデルを見つけることができます。 各エクスペリメント内では、そのリーダーボードと モデルのインサイト、および エクスペリメントサマリー情報にアクセスできます。 モデルを選択した後、エクスペリメント内から以下の操作を行うことができます。
その他の重要情報については、関連する FAQを参照してください。
基本を作成¶
ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。
備考
モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。
エクスペリメントを追加¶
ユースケース内から新規追加をクリックし、エクスペリメントを追加を選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。
データを追加¶
新しいデータを追加する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。
データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。
ここでは以下の操作を行うことができます。
オプション | 説明 | |
---|---|---|
1 |
![]() |
クリックして、データリストに戻り、別のデータセットを選択します。 |
2 |
![]() |
アイコンをクリックして続行し、ターゲットを設定します。 |
3 |
![]() |
次へをクリックして続行し、ターゲットを設定します。 |
ターゲットを選択する¶
ターゲットの選択に進むと、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。 このプロセスが終了したら、以下のいずれかの方法でターゲットを設定します。
特徴量のリストをスクロールして、ターゲットを見つけます。 見つからない場合は、表示の下部からリストを展開します。
配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。
- 予測したいターゲット特徴量の名前を入力ボックスに入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。
ターゲットを入力すると、ターゲット特徴量の分布に関する情報を提供するヒストグラムがワークベンチに表示され、右側のペインにエクスペリメントのパラメーターのサマリーが表示されます。
ここから、デフォルト設定でモデルを構築する準備が整っています。 または、 デフォルト設定を変更してから開始できます。 デフォルト設定を使用する場合は、モデリングを開始をクリックして、 クイックモードのオートパイロットモデリングプロセスを開始します。
設定をカスタマイズ¶
エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。 モデリングを開始する前に、以下の操作を行うことができます。
上記のいずれかまたはすべてをリセットしたら、モデリングを開始をクリックして クイックモードモデリングプロセスを開始します。
パーティショニングの変更¶
パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 デフォルトでは 5分割で、20%のホールドアウト分割で 層化抽出分割されます。
本機能の提供について
時間認識プロジェクトを構築する日付/時刻のパーティショニングは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:ワークベンチで日付/時刻パーティション(OTV)を有効にする
分割手法または検定タイプを変更するには:
-
追加設定、次へ、またはサマリーのパーティショニングフィールドのアイコンをクリックします。
-
日付特徴量が使用可能な場合、エクスペリメントは、 時間外検定パーティショニングの対象になり、DataRobotは、時間認識モデルを構築できます。 その場合、追加情報が、サマリーで使用可能になります。
-
変更するフィールドを設定します。 使用可能なフィールドは、選択した分割手法によって異なります。
フィールド | 説明 | |
---|---|---|
1 |
検定タイプ | モデル検定のためにデータで使用される方法を設定します。
|
2 |
交差検定の分割 | 交差検定手法で使用する分割数を設定します。 数値を大きくすると、各分割で使用可能なトレーニングデータサイズが増加し、合計トレーニング時間が長くなります。 |
3 |
ホールドアウトの割合(%) | トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。 |
日付/時刻を選択すると、データセットの行の順序付けに使用される特徴量の順序付け特徴量—を入力するように求められます。 ボックスをクリックすると、EDA1でDataRobotが検出した日付/時刻特徴量を表示します。これらは、ボックスの下にもリストされ、そこで順序付け特徴量を選択できます。 特徴量がリストされていない場合、タイプdate
として検出されず、使用できません。
DataRobotで、選択した特徴量の日付および時刻の形式(標準のGLIBC文字列)が検出されます。順序付けの特徴量が選択されると、DataRobotは、以下の選択した特徴量の日付および/または時刻の形式(標準GLIBC文字列)を検出して報告します。
バックテスト設定が利用可能になります。 DataRobotでは、データセットの特性に基づいてデフォルトが設定されており、通常はそのままで、堅牢なモデルを実現できます。
フィールド | 説明 | |
---|---|---|
1 |
バックテスト | バックテストパーティションを設定します。 これらの値に対する変更は、エントリーボックスの下のグラフィックに表示されます。 |
2 |
バックテストごとに同じ行を使用 | 各バックテストで、同じ行数(有効化)を使用するか、または同じ期間(無効化)を使用するかを設定します。 |
3 |
パーティションサンプリング方法 | データセットから行を割り当てる方法を設定します。データセットが時間の経過とともに均等に分散されない場合に役立ちます。 |
4 |
パーティションログ | パーティション作成を報告するダウンロード可能なログを提供します。 |
エントリーボックスの下にあるグラフィックを使用して、 個々のバックテストを編集することもできます。
設定を変更します。¶
ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。
特徴量セットを変更¶
特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 デフォルトでは 有用な特徴量セットですが、モデル構築の前に変更できます。 変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。
エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。