GraphSAGEを使用してカスタムトランスフォーマーを実行する¶
表形式データは、機械学習において最も一般的なデータの表現方法の1つです。 ただし、使用できる構造はこれだけではありません。 現実世界の問題の多くは、グラフ構造を使用することでより適切に理解できるエンティティ間の関係を含んでいます。 グラフデータは、エンティティをノードとして、関係性をエッジとして表現するため、関係依存性を把握するための強力なツールとなります。 グラフベース学習の一般的なユースケースには、ソーシャルネットワーク、レコメンドシステム、不正検出、分子特性予測などがあります。 このような用途では、幾何学的ディープラーニング技術を使用すること(すなわち、グラフのような非ユークリッドデータに対するディープラーニングアプローチの適用)が近年人気が高まっています。 ディープラーニングは、このタイプの情報を研究するのに非常に適しています。これは、特に非構造化データに関して、表現を自動的に学習する機能によるものです。
グラフベースの学習手法には利点があるにもかかわらず、従来の表形式のデータでは見落とされることがよくあります。 これは、表形式のデータをどのようにグラフに表現するかという根本的な問題が原因である可能性があります。ありがたいことに、k近傍法(kNN)グラフのような方法が存在します。これを利用すると、面倒な作業の多くを代わりに行ってくれます。
このアクセラレーターでは、幾何学的ディープラーニングを活用してグラフベースの特徴量を抽出し、教師ありタスクのデータセットを充実させる方法を紹介します。 これを実現するには、以下を実行します。
- kNNグラフを使用して表形式のデータセットをグラフ表現に変換する
- GraphSAGEベースのニューラルネットワークをトレーニングして、教師なしノード埋め込みを生成する
- ソリューションをDataRobot Custom Transformerとしてパッケージ化する
- DataRobotでの機械学習の下流タスクへの影響を評価する。