Skip to content

特徴量変換を用いた予測

特徴量変換を用いて予測を行う場合、DataRobotは予測距離ごとに行を割り当て、各距離に別個のモデルを構築してから、1行ずつ予測します。 This method uses time-aware wrangling for transparent and flexible feature engineering.

使用するタイミング

この方法は、以下の場合に使用します。

  • データセットのサイズが10GBを超えている。
  • 時系列予測は必要ないが、予測距離に基づく予測を行いたい。
  • 完全に透過的な変換プロセスが必要である。
  • 時系列ブループリントのリポジトリにアクセスしたい。

備考

特徴量変換を用いた予測は、連続値エクスペリメントでのみサポートされています。

使用方法

この方法を使用するには:

  1. 時間認識ラングリングを使用して、データセットを準備します。
  2. 基本的な時間認識モデリングで説明されている設定のパーティション部分を実行します。
  3. 時系列モデリングを有効にし、時系列特徴量派生プロセスをすべて実行せずに、特徴量派生のためのパラメーターを設定します。
graph TB
  A[データをアップロード] --> B["ラングリングを設定(特徴量エンジニアリング)"]
  B --> C[エクスペリメントを作成];
  C --> D[日付/時刻パーティションを有効にする];
  D --> E[順序付け特徴量を設定];
  E -. オプション .-> F[バックテストパーティションを設定];
  F -. オプション .-> G[サンプリングを設定];
  G --> H[時系列モデリングを有効にする]
  H --> I[特徴量エンジニアリングの自動化を無効にする]
  I --> J[モデルの選択基準を設定]
  J --> K[モデリングを開始] 

時間認識予測を有効にする

以下のいずれかのオプションを使用して、時間認識予測や時系列モデリングを開始するエクスペリメントを作成できるトグルにアクセスします。

  • 時間関連データの日付/時刻パーティション設定ページから時系列モデリング設定に移動を選択します。

  • エクスペリメントのサマリーパネルで時系列モデリングを選択します。

  • 上部のタブで時系列モデリングを選択します。

どのオプションを選択しても、時系列モデリングタブの設定が開きます。 そこから、時系列モデリングを有効にするをオンに切り替えます。

特徴量エンジニアリングを無効にする

時間認識データを使用して予測を行うと、従来の時系列モデリングでサポートされているデータセットよりもはるかに大規模なデータセットでモデルを作成できます。 これは、時間認識ラングリングレシピを作成し、データに適用することで実現します。 レシピを使用すると、必要に応じて特徴量変換をカスタマイズできます。特徴量派生がすでに適用されているため、DataRobotの自動プロセスを無効にする必要があります。 そうするには、オプションをオフに切り替えます。

モデリングパラメーターの設定

特徴量エンジニアリングが無効になると、追加の設定が可能になります。 設定を完了し、モデリングを開始するには、以下のうち少なくとも1つを設定する必要があります。 予測距離と系列IDの両方が、DataRobotで行をグループ化し、それらの行からモデルを構築して、予測を行う際に使われる基準を定義します。 予測オフセットは、モデルを構築またはスコアリングする際に、ベースラインモデルに追加する値を設定します。

これらのパラメーターを1つ以上設定すると、時系列ブループリントを構築できます。 Without a "special" categorical column identified, DataRobot cannot use the time series blueprints and only those available to basic date/time partitioned predictions are available.

備考

これらのパラメーターの特徴量値を選択すると、データセットのすべての特徴量が使用可能になります。 If you are unsure whether a specific feature is appropriate, visit the dataset preview.

パラメーター 説明
予測距離
予測のオフセット
系列ID 行を所属先の系列でグループ化する系列識別子を選択します。
オフセットの説明

オフセットパラメーターは、各サンプルでモデルの切片(線形モデル)またはマージン(ツリーベースモデル)を調整するもので、複数の特徴量を受け付けます。 固定要素と可変要素の両方あるデータに依存するプロジェクトで作業する場合、オフセットパラメーターを適用すると便利です。 オフセットを使用すると、モデルを可変要素のみで予測するように制限できます。 これは、特に固定要素が変動する場合に重要です。 オフセットパラメーターを設定すると、DataRobotでは特徴量がそのようにマークされ、固定値を考慮に入れずに予測が行われます。

オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。 2つの例を示します。

  1. 残差モデリングは、重要なリスク要因(たとえば、保険の引受サイクル、年、年齢、損失期間など)が結果に強く寄与することで、他のすべての影響を覆い隠してしまい、結果に大きな偏りが生じる可能性がある場合によく用いられる手法です。 オフセットを設定すると、データのバイアスの問題に対処できます。 特徴量セットをオフセットとして使用することは、選択した特徴量セットの残差に対してモデルを実行することと同等です。 残差についてモデリングすることで、すでに知っていることではなく、新しい情報を伝えることに重点を置くようにモデルを設定できます。 オフセットを使用すると、最終予測に主要なリスク要因を取り入れたまま、モデル構築の際に「その他」の要因に注目します。

  2. 市場競争や規制が原因で、保険契約に制約が課されることがあります。 たとえば、自動車保険では、複数台割引やマイカー割引の上限が20%になったり、若年層のドライバーやビジネス上不利な地域を対象として保険料率が低く抑えられたりします。 このような場合、特徴量の一部を特定の値に設定し、オフセットとしてモデルの予測に追加することができます。

特徴量変換を用いた日付/時刻なしのモデリングにおいて、3つの予測オフセット[base1, base2, base3]がある場合、3つのモデルmodel[base1]model[base2]model[base3]が作成されます。 それぞれに別個のエクスペリメントが必要になります。 変換を用いると、1つのエクスペリメントで3つのモデルを作成できます。

予測距離の例

特徴量Return_Pctの値が[1,2,3,1,2,3]であった場合、その列の値が1であるすべての行がグループ化され、そのデータでモデルがトレーニングされます。 値が2および3の行についても同様です。 その値は、予測ポイントのオフセットとして使用され、モデリングの特徴量としても使用されます。