Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時間認識特徴量エンジニアリング

特徴量探索プロジェクトの時間ベースの特徴量エンジニアリングでは、プライマリーテーブルの日付特徴量が使用されます。 この日付は、予測ポイント以降の特徴量の派生を防止します。 時間認識プロジェクトでは、デフォルトでパーティション日付列が予測ポイントとして使用されます。

時系列特徴量の派生方法

DataRobotでの時系列特徴量の派生方法については、時系列特徴量の派生を参照してください。 派生日付特徴量に関する特定の詳細も参照してください。

パーティション日付特徴量がない非時間認識プロジェクトでは、予測ポイントを設定して時間認識特徴量エンジニアリングを有効にすることができます。

予測ポイントと時間インデックス

ほとんどの場合、プライマリーデータセットには、予測を作成するために必要になるときを示す予測ポイント特徴量が含まれています。 たとえば、融資の申請では、顧客が融資を申請するたびにモデルが予測を生成して承認するか却下するかを決定する必要があるため、予測ポイント特徴量は「融資申請日」になると考えられます。

場合によっては、プライマリーデータセットは、過去の定期的なポイントで行われた1つまたは複数の抽出を使用して構築されます。 たとえば、月の最初に予測を行うには、トレーニングデータセット(2019-10-01、2019-11-01など)を構築するときに月次の予測ポイントが必要です。 この例では、予測ポイント特徴量は、「extract_date」を使用できます。

どちらの場合でも、予測ポイントの前に利用できなかったセカンダリーデータセットからの情報(融資申請の後に発生した取引など)を使用しないようにすることが考えられます。 この「タイムトラベルのパラドックス」を回避するために、DataRobotでは時間認識特徴量エンジニアリング機能が統合され、ユーザーは、予測ポイントの前に特徴量を生成するためにモデルで使用された過去の値のローリングウィンドウを定義する特徴量派生ウィンドウ(FDW)を設定できます。 特徴量探索を使用する場合、関係性エディターからのFDWの設定は以下のように理解することができます。

ローン申し込みの例に例えると、ローンの申請日が予測ポイントになります。 タイムスタンプセットではなく日付しかない場合(02-14-20など)、(実際の時間/分などに関して)特定のローン申請の時間の前または後にイベントが発生したかどうかはわかりません。 予測を保守的にするために、DataRobotはその日付に発生したすべてのイベントを除外して、「早すぎる」時点で発生したデータがモデルに含まれることを防止します。時間認識設定を使用すると、最も関連性の高いデータが確実に含まれるようにローリングウィンドウを設定することができます。

時間認識特徴量エンジニアリングの設定

結合を保存した後、追加したデータセットに日付特徴量があり、予測ポイントが設定されている場合、保存して時間対応を設定するオプションが利用可能になります。 クリックして時間認識特徴量エンジニアリングエディタを開きます。

特徴量を生成するために予測ポイントの前に発生したレコードだけが使用されるようにセカンダリーデータセットの日付/時刻特徴量を設定します。 設定したFDW設定は変更できます。

FDWの境界を設定して、使用する過去のデータの量を決定します。 デフォルトでは、ウィンドウは30〜0日に設定されます(現在の「融資申請日」の前の30日間に発生した取引など)。 新しい値の入力と増分の設定の両方を行うことで、境界を変更できます。 大きいFDWを使用すると、特徴量探索プロセスが遅くなります。

DataRobotでは、ユーザーが指定したウィンドウに加えて、プロジェクトの追加の小さいFDWも自動的に計算されます。 たとえば、FDWパラメーターを「30〜0日」に設定した場合、追加の候補期間(1〜0週間、1〜0日、および6〜0時間など)が選択され、それらのウィンドウから特徴量が派生します。 新しい候補ウィンドウサイズは、以下の内部アルゴリズムに基づきます。

  • 元のFDWサイズの50%から0.5%の間の追加ウィンドウを選択します。
  • プライマリーの日付/時刻特徴量形式に関連するものよりも細かい単位が追加ウィンドウで使用されていないことを確認します。

時間インデックスがデータにアクセスできる時間を反映していない場合は、FDWの終了境界を変更して遅延を反映させることができます。 たとえば、セカンダリーデータセットが外部データプロバイダーから提供されていて、そのプロバイダーから2日間の遅延でアクセスが提供される場合などが考えられます。 (予測ポイントの前に)2日のギャップを指定できます。

FDWはデータセットタイルに反映されます。

予測ポイントの四捨五入

予測ポイントに異なる値が多く存在する場合、特徴量探索プロセスの速度が遅くなる可能性があります。 DataRobotでは、処理を高速化するためにデフォルトで予測ポイントを分単位で再近似のポイントに切り捨てます。 たとえば、融資が予測ポイント(「loan_request_date」)が2020-01-15 08:13:53である場合、その値は2020-01-15 08:13に四捨五入され、53秒が切り捨てられます。

この四捨五入処理により特徴量探索プロセスの速度が速くなりますが、正しいセカンダリーデータセットレコードが失われる可能性があります。 この例では、2020-01-15 08:13:00と2020-01-15 08:13:53との間に発生したレコードがそれに相当します。

プロジェクトがこのレベルのレコード損失に左右される場合、デフォルトの四捨五入処理を分単位の再近似ポイントからより適切なオプションに変更できます。

最終的なカットオフの決定

特徴量探索で予測ポイントの四捨五入処理とFDWの終了が適用されると、時間認識エンジニアリングに使用する最終的な「カットオフ」が派生されます。 カットオフポイントは、特徴量の生成時にDataRobotが先に進まなくなるポイントです。 つまり、FDW(過去の値のローリングウィンドウ)は、最も遠い以前の時間と最も近い時間で構成され、その両方が四捨五入処理の設定に基づいて変更されます。

たとえば、この設定の特徴は以下のように示すことができます。

概念的には次のように理解できます。


更新しました March 6, 2023