パネルデータで自己結合を使用してモデルの精度を向上¶
このアクセラレーターでは、パネルデータ分析で自己結合を実装する方法を探索します。 業界に関係なく、パネルデータを扱う場合、このガイドは特徴量エンジニアリングを加速し貴重なインサイトを抽出するために作成されています。
パネルデータは、時間の経過とともに一貫した対象に対して複数の観測値を有し、さまざまなドメインで遍在しています。 パネルデータは多くの場合、複数のテーブルに分散されますが、パネルディメンションとして適切な複数の特徴量を含む単一のデータセット内に存在することもできます。 自己結合技法を使用すると、たった1つのデータセットで時間認識特徴量エンジニアリングを自動化し、ラグ集計と統計の数百個の候補特徴量を生成できます。 これらの特徴量をパネルディメンション内で組み合わせると、予測モデルのパフォーマンスを大幅に向上させることができます。
アクセラレーターは、航空会社での30分以上の離陸遅延を予測することに焦点を当てることで自己結合技術を説明します。 ただし、このフレームワークは垂直方向に広く適用され、ユースケースに簡単に適合できます。 単一のデータセットを使用して、さまざまな特徴量間で4回結合し、データ管理にAIカタログを使用して、各結合から時間ベースの特徴量をエンジニアリングします。
アクセラレーターは、複数の結合と時間ホライズンによるデータ準備、複数の特徴量セットによるターゲットリーケージの軽減方法、および時間認識結合の時間ギャップを対象に含めます。
パネルデータ分析は、時間の経過とともに進化する対象に関する貴重なインサイトを明らかにします。これらは、単一のデータセットがある場合、見過ごされることが少なくありません。