大規模なSnowflakeデータセットのラングリング¶
このページでは、ワークベンチで大規模なSnowflakeデータセットをラングリングする際にパフォーマンスとインタラクティブ性を向上させる方法について説明します。
Snowflakeのウェアハウスサイズの拡大¶
各クラスターで利用可能なコンピューティングリソースは、Snowflakeのウェアハウスサイズによって決まります。したがって、ウェアハウスのサイズを大きくすることで、ラングリングクエリーの実行にかかる時間を短縮できます。
ウェアハウスサイズの拡大に関するSnowflakeのドキュメントを参照してください。
サンプリング方法の変更¶
ライブラングリングプレビューを生成する際、DataRobotはデフォルトでソーステーブルからランダムサンプルを取得します。 Snowflakeでクエリーを実行してプレビューを表示するまでの時間を短縮するには、サンプリング方法を変更して、代わりに先頭からN行を取得するようにします。
詳しい手順については、サンプリング方法の選択に関するドキュメントを参照してください。
サンプルサイズの縮小¶
ライブラングリングプレビューを生成するために、DataRobotはSnowflakeで直接クエリーを実行します。 デフォルトでは、プレビューはソーステーブルから10000行をランダムに使用してインサイトを生成しますが、サンプリングされる行数を減らして、Snowflakeでクエリーを実行する時間を短縮できます。
この方法は、10000行の処理に多大なリソースと時間を必要とするような、幅広い(数百の特徴量を持つ)データセットや、重い(長いテキスト特徴量が多い)データセットに特に役立ちます。
詳しい手順については、ライブサンプルの設定に関するドキュメントを参照してください。