本番MLのテーブルのマスター¶
私たちは皆、このような状況に遭遇しています:顧客取引のデータはあるテーブルにありますが、顧客の会員履歴は別のテーブルにあります。 または、一つのテーブルにはサブセカンドレベルでのセンサーデータがあり、別のテーブルには機械のエラー、さらに別のテーブルには異なる時間頻度での生産需要があります。 電子医療記録(EMR)も、この課題の典型的な例です。 ビジネスのユースケースを探求したい場合、v0データセットを構築し、以前からの簡易な集計を利用します。 しかし、v0を超えて進むのは難しいです。
実際には、複数のデータソースに複数のデータタイプを含む場合、関連する特徴の仮説空間は急速に拡大します。 テーブル間で特徴空間を動的に探索することにより、特徴の省略による信号の見逃しリスクを最小限に抑え、さらに関連するすべての可能性のある特徴の事前知識の負担を軽減します。
あらゆる業界に存在し、業界全体でますます普及しているイベントベースのデータ。 適切な特徴を構築することは、パフォーマンスを劇的に向上させることができます。 しかし、どの結合と時間範囲がデータに最も適しているかを理解することは容易ではなく、探索するには時間もかかり、エラーも発生しやすくなっています。
このアクセラレーターには、複数のテーブルからの本番パイプラインの反復可能なフレームワークがあります。 このコードはデータソースとしてSnowflakeを使用していますが、サポートされている他のデータベース 具体的には、アクセラレーターは以下を行うためのテンプレートとなります。
- DataRobotとSnowflake(または任意のデータベース)の複数のテーブルを使用して、複数の履歴ウィンドウとデータセットにわたる時間認識特徴量を構築。
- すべてのデータ型に対して複数の特徴量エンジニアリングアプローチとアルゴリズムを構築して評価。
- インサイトを抽出し、最適な特徴量エンジニアリングとモデリングのパイプラインを特定。
- ローカルで予測をテスト。
- 最高のパフォーマンスを発揮するモデルとすべてのデータ前処理/特徴量エンジニアリングをDockerコンテナにデプロイし、REST APIを公開。
- Snowflakeからスコアリングし、Snowflakeに予測を書き戻す。
このページは役に立ちましたか?
ありがとうございます。どのような点が役に立ちましたか?
より良いコンテンツを提供するには、どうすればよいでしょうか?
アンケートにご協力いただき、ありがとうございました。