Skip to content

時間を認識する基本的なモデリング

このページでは、教師あり時間認識エクスペリメントの基本的な設定について説明します。これは、特徴量エンジニアリングを適用するかどうかにかかわらず、予測に使用できます。 この設定が完了したら、以下のことができます。

日付/日付範囲の表現

DataRobotでは、データ内の日付および日付範囲を表現するために日付ポイントが使用されます。以下の原則が適用されます。

  • すべての日付ポイントはISO 8601、UTC(「2016-05-12T12:15:02+00:00」など)に準拠します。これは、日付と時刻を表現するために国際的に受け入れられている方法です。期間形式には若干のバリエーションがあります。 具体的には、ISO週間(P5Wなど)のサポートはありません。
  • モデルは、2つのISO日付の間のデータでトレーニングされます。 これらの日付は、DataRobotで1つの日付範囲として表示されますが、含める日付の決定とすべての主要な境界は日付ポイントとして表現されます。 日付を指定すると、開始日が含まれ、終了日が除外されます。
  • 日付パーティショニング列を使用する形式を変更すると、プロジェクトのすべてのチャートやセレクターなどが、その形式に変換されます。
  • 分割の年/月/日の設定を変更すると、可能な場合は月と年の値は大きいクラスに合わせて調整される点に注意してください(たとえば、24か月は2年になります)。 しかし、DataRobotではデータに関連付けるときに閏年や月の閏日を考慮できないので、日を上位のコンテナに変換できません。

基本的なエクスペリメント設定

ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。

備考

モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。

特徴量セットを作成

モデリングを行う前に、 データ探索ページからカスタム特徴量セットを作成することができます。 You can then select that list during modeling setup to create the modeling data using only the features in that list.

DataRobotは、特徴量派生処理の後に新しい特徴量セットを自動的に作成します。 Once modeling completes, you can train new models using the time-aware lists. Learn more about feature lists post-modeling here.

エクスペリメントを追加

ユースケース内から追加をクリックし、エクスペリメントを選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。

データを追加

新しいデータを追加 する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。

データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。

ここから、次のことができます。

オプション
1 クリックして、データリストに戻り、別のデータセットを選択します。
2 アイコンをクリックして続行し、学習タイプとターゲットを設定します。
3 次へをクリックして続行し、学習タイプとターゲットを設定します。

モデリング設定の開始

続行すると、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。

備考

これ以降のエクスペリメントの作成では、エクスペリメントの設定を続行しても(次へ)、終了してもかまいません。 終了を選択すると、変更を破棄するか、すべての進捗をドラフトとして保存するよう促されます。 どちらの場合でも、終了時にはエクスペリメントのセットアップを開始した時点に戻り、EDA1の処理は失われます。 終了してドラフトを保存を選択すると、ドラフトはユースケースディレクトリで利用できます。

ワークベンチで作成したドラフトをDataRobot Classicで開き、ワークベンチでサポートされていない機能を導入する変更を加えた場合、そのドラフトはユースケースにリストされますが、Classicインターフェイス以外からはアクセスできません。

学習タイプの設定

EDA1が終了すると、ワークベンチはモデリングのセットアップに進みます。 まず、学習タイプを設定します。

学習タイプ 説明
教師あり 予測を行うために、データセットの他の特徴量を使ってモデルを構築します。これはデフォルトの学習タイプです。
クラスタリング (教師なし) ターゲットがない、ラベルなしデータを使用して、類似したデータをグループ化し、セグメントを識別するモデルを構築します。
異常検知 (教師なし) ターゲットがない、ラベルなしデータを使用して、データセットの異常を検出するモデルを構築します。

ターゲットの設定

本機能の提供について

多ラベル(多カテゴリー)モデリングが利用できるかどうかは、お使いのDataRobotパッケージによって異なります。 組織内で有効になっていない場合は、DataRobotの担当者に詳細をお問い合わせください。

教師ありモードを使用する場合、以下のいずれかによってターゲットを設定します。

特徴量のリストをスクロールして、ターゲットを見つけます。 見つからない場合は、表示の下部からリストを展開します。

配置されたら、テーブル内のエントリーをクリックして、特徴量をターゲットとして使用します。

  1. 予測したいターゲット特徴量の名前を入力ボックスに入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。

DataRobotは、指定されたターゲット特徴量の値の数に応じて、自動的にエクスペリメントのタイプ(連続値または分類)を決定します。 Classification experiments can be binary (binary classification), more than two classes (multiclass), or multilabel. 次の表は、DataRobotが数値および非数値のターゲットデータ型にデフォルトの問題タイプを割り当てる方法を示しています。

ターゲットデータ型 一意のターゲット値の数 デフォルトの問題タイプ 多クラス分類/多ラベル分類
数値 2 分類 いいえ
数値 3+ 連続値 Yes, optional
数値以外 2 二値分類 いいえ
数値以外 3-100 分類 はい。自動
数値以外、数値 100+ 集計された分類 はい。自動

ターゲットを選択すると、ワークベンチには、ターゲット特徴量の分布に関する情報を提供するヒストグラムと、右ペインにエクスペリメント設定の概要が表示されます。

ここでは以下の操作を行うことができます。

  • 連続値エクスペリメントを変更して多クラスエクスペリメントにします。

  • 次へをクリックして、追加設定を表示します。そこでは、デフォルトの設定でモデルを作成したり、設定を変更したりすることができます。

  • 多クラスまたは多ラベル分類エクスペリメントの場合、分類設定をさらに表示をクリックして、詳細なモデリング設定を行います。

デフォルト設定を使用する場合は、モデリングを開始をクリックして、 クイックモードのオートパイロットモデリングプロセスを開始します。

ターゲットを入力すると、ターゲット特徴量の分布に関する情報を提供するヒストグラムがワークベンチに表示され、右側のペインにエクスペリメントのパラメーターのサマリーが表示されます。 From here, you can build models with the default settings for predictive modeling.

エクスペリメントのサマリーで報告されたように、DataRobotがデータセットで時間特徴量(特徴量の型「日付」)を含む列を検出した場合、 時間認識モデルを構築できます。

基本設定のカスタマイズ

時間認識モデリングを有効にする前に、いくつかの基本的なモデリング設定を変更できます。 これらのオプションは、予測モデリングと時間認識モデリングの両方に共通です。

エクスペリメントパラメーターを変更することは、ユースケースで同じ手順を繰り返すよい方法です。 モデリングを開始する前に、さまざまな設定を変更できます。

  設定 変更対象
1 Positiveクラス For binary classification projects only. The class to use when a prediction scores higher than the classification threshold.
2 モデリングモード モデリングモード。DataRobotがトレーニングするブループリントに影響します。
3 最適化指標 DataRobotで推奨されているものとは異なる最適化指標に変更します。
4 トレーニング特徴量セット DataRobotでモデルの構築に使用する特徴量のサブセット。

説明されている設定のいずれかまたはすべてを変更した後、次へをクリックして、より 高度な設定をカスタマイズし、 時間認識モデリングを有効にします。

モデリングモードの変更

デフォルトでは、DataRobotはクイックオートパイロットを使用してエクスペリメントを構築します。ただし、モデリングモードを変更することで、特定のブループリントまたは該当するすべてのリポジトリブループリントをトレーニングすることもできます。

以下の表では、各モデリングモードについて説明しています。

モデリングモード 説明
クイックオートパイロット(デフォルト) Using a sample size of 64%, Quick Autopilot runs a subset of models, based on the specified target feature and performance metric, to provide a base set of models that build and provide insights quickly.
手動
包括的オートパイロット すべてのリポジトリのブループリントを最大のオートパイロット サンプルサイズで実行し、モデルの精度を向上させます。

最適化指標の変更

最適化指標は、DataRobotによるモデルのスコアリング方法を定義します。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。 Typically, the metric DataRobot chooses for scoring models is the best selection for your experiment. 推奨された指標を上書きし、別の指標を使用してモデルを構築するには、最適化指標ドロップダウンを使用します。

利用可能な指標の完全なリストと説明については、リファレンス資料を参照してください。

特徴量セットの変更(モデリング前)

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 Workbench defaults to the Informative Features list, but you can modify that before modeling. 変更するには、特徴量セットドロップダウンをクリックし、別のセットを選択します。

エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。

追加の自動化を設定

高度な設定に移動する前に、またはモデリングを開始する前に、他の自動化を設定できます。

ターゲットを設定し、基本設定を表示した後、追加の自動化設定を表示を展開して、追加のオプションを表示します。

GPUでのトレーニング

プレミアム機能

GPUワーカーはプレミアム機能です。 この機能を有効にする方法については、DataRobotの担当者にお問い合わせください。

テキストや画像を含み、ディープラーニングモデルを必要とするデータセットの場合、 GPUでのトレーニングを選択すると、トレーニング時間を短縮できます。 一部のモデルはCPU上で実行できますが、他のモデルでは、適切なレスポンス時間を実現するためにGPUが必要です。 GPUでのトレーニングを許可するを選択すると、DataRobotは特定のタスクを含むブループリントを検出し、オートパイロットの実行にGPU対応のブループリントを含めます。 GPUバリアントとCPUバリアントの両方がリポジトリに用意されており、トレーニングに使用するワーカーのタイプを選択できます。GPUバリアントのブループリントは、GPUワーカーでより速くトレーニングできるように最適化されています。 GPUの使用については、以下の点を考慮してください。

  • リーダーボードが生成されると、 フィルターを使用してGPUベースのモデルを簡単に識別できます。
  • モデルを 再トレーニングすると、結果として得られるモデルもGPUを使用してトレーニングされます。
  • 手動モードを使用すると、 ブループリントリポジトリでフィルターすることでGPU対応のブループリントを識別できます。
  • 最初にGPUでトレーニングするように選択しなかった場合、リポジトリを介して、またはモデリングを再実行することで、GPU対応のブループリントを追加できます。
  • GPUでトレーニングされたモデルは、リーダーボードでバッジが付けられます。

GPUタスクのサポート

一部のブループリントでは、リポジトリに2つのバージョンが用意されており、DataRobotがCPUワーカーまたはGPUワーカーでトレーニングできるようになっています。 各バージョンは、特定のワーカータイプでトレーニングできるように最適化されており、識別バッジ(CPUまたはGPU)が付いています。 GPUバッジが付いたブループリントは、常にGPUワーカーでトレーニングされます。 それ以外のブループリントはすべて、CPUワーカーでトレーニングされます。

GPUブループリントを使用する際には、以下の点に注意してください。

  • GPUブループリントは、トレーニングデータに画像またはテキスト特徴量が含まれている場合にのみリポジトリに存在します。
  • 場合によっては、DataRobotはクイックまたはフルオートパイロットの一部としてGPUブループリントをトレーニングします。 GPUワーカーで追加のブループリントをトレーニングするには、リポジトリから手動で実行するか、包括モードで再トレーニングします。 (Learn about modeling modes here.)

機能に関する注意事項

  • CPUとGPUの浮動小数点の実装における固有の違いにより、GPUのない環境でGPUでトレーニングされたモデルを使用すると、矛盾が生じる可能性があります。 不整合は、モデルおよびデータセットによって異なりますが、重要でない可能性があります。

  • GPUでのトレーニングは、非決定的である場合があります。 同じパーティションで同じモデルをトレーニングすると、モデルが若干異なる場合があり、テストセットでのスコアリングは異なります。

  • GPUはトレーニングにのみ使用されます。予測やインサイトの計算には使用されません。

  • カスタム環境用のエディターロールはなく、カスタムモデル用のみです。

エクスペリメントの構築が終了したら、モデルごとに 選択済みリストを変更することもできます。

追加設定を行う

より高度なモデリング機能を設定するには、追加設定タブを選択します。 時系列モデリングタブについては、データセットで日付/時刻特徴量が見つかったかどうかに応じて、使用可能になるかグレーアウトされます。

ビジネスユースケースに応じて、以下を設定します。

備考

時間認識設定と追加設定は、任意の順番で完了できます。

単調特徴量制約

単調制約は、特徴量とターゲットの間の上下方向の影響を制御します。 一部のプロジェクト(保険業や銀行業など)では、特徴量とターゲットの間の方向関係性を強制することが望ましい場合があります(評価価値の高い家屋の火災保険料が常に高くなるなど)。 単調制約でのトレーニングを行うことによって、特定のXGBoostモデルに特定の特徴量とターゲットの間の単調(常に増加または常に減少)関係性を学習させます。

単調制約特徴量を使用するには、 特殊な特徴量セットを作成する必要があります。この特徴量セットは、ここで選択されます。 また、手動モードを使用する場合、使用可能なブループリントにはMONOバッジが付けられ、サポートされるモデルを識別できます。

ウェイト

ウェイト違いを表す重みとして使用し、各行の相対的な有用性を示す単一の特徴量を設定します。 これは、モデルの構築やスコアリングの際に、リーダーボードで指標を計算する目的で使用されます。新しいデータで予測を行う目的では使用されません。 選択した特徴量のすべての値が0より大きい値である必要があります。DataRobotでは検定が行われ、選択した特徴量にはサポートされている値のみが含まれているかどうかが確認されます。

次のアクション

基本的な設定が完了したら、引き続き以下のことができます。