NextGen UIに関するドキュメント > ワークベンチ > データプレパレーション > データの準備

データの準備¶

DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。ワークベンチの「ラングリング」は、DataRobotのデータレジストリであっても、外部データソースのコンピューティング環境と分散アーキテクチャを活用していても、ソースでデータクリーニングを実行するためのビジュアルインターフェイスです。 DataRobotでデータをラングリングする理由

ワークベンチに完全に統合されています。適切なデータセットを見つけて変換を適用し、データセットに対する変換の効果を1か所でリアルタイムに確認できます。
プッシュダウンされます。データ接続を使用する場合、クラウドデータウェアハウスまたはレイクの規模を活用できます。
安全です。データ移動を制限することで、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化を実現します。

ユースケースの次の領域からデータラングラーを起動できます。

データ接続からデータセットを選択する場合、右上隅のラングラーで開くをクリックします。
データアセットタイルでは、データセットの横にあるアクションメニュー から。
データ探索ページでは、データのアクションドロップダウンから。

データセットをラングリングすると、10000行の均一なランダムサンプルがプルされ、そのサンプルについて探索的データインサイトが計算されます。これはすべてデータソースに接続している間に行われます。次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。

DataRobotには、データをラングリングするための2つの異なるツールが用意されています。

ラングラー：操作を用いてレシピを構築できるGUIベースのツール。各操作はデータセットに対して特定の変換を適用します。
SQLエディター：SQLクエリーを使ってレシピを構築できるツール。

このセクションでは、以下のトピックについて説明します。

トピック	説明
ラングラー	ラングラーを利用すると、1つ以上の操作のレシピを構築できます。これにより、モデリング用のデータをデータソースから移動することなく、インタラクティブに準備することが可能となります。
SQLエディター	SQLエディターを利用すると、SQLクエリーで構成されるレシピを作成できます。作成したレシピはデータソースにパブリッシュし、出力データセットを生成することが可能です。
レシピのパブリッシュ	データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。
リファレンス
サポートされるデータストア	サポートされているデータストアの完全なリスト。
大規模なSnowflakeデータセットのラングリング	Snowflakeでのラングリングのパフォーマンスを向上させるためのヒント

機能に関する注意事項¶

データのラングリングをする際、以下の点に注意してください。

プロファイルはカスタマイズできず、サンプルベースのプロファイルに制限されています。
ラングリングでは、クエリー型データセット（クエリーから構築されたデータセット）はサポートされていません。
セルフマネージド：データレジストリのデータセットは20GBまでラングリングできます。
マネージドSaaS（マルチテナントSaaSおよびAWSシングルテナントSaaSデプロイ）：データレジストリのデータセットは100GBまでラングリングできます。
JDBCドライバーを使用して動的データセットを追加できますが、そのデータのプレビューやラングリングはできません。まず、データセットのスナップショットを作成する必要があります。

よくある質問（FAQ）¶

外部データソースに操作をプッシュダウンできるようにするには、どのような権限が必要ですか？

選択したデータベースへの「読み取り」アクセス権が必要です。

データがソースから移動される状況はありますか？

はい。データは以下においてソースから移動されます。

**インタラクティブなラングリングセッション中：データソースの元のテーブルまたはビューからランダムにサンプリングされた10,000行が、プレビューとプロファイリングの目的でDataRobotに取り込まれます。
ラングリングレシピをパブリッシュした後：レシピをパブリッシュすると、変換がプッシュダウンされ、データソースの入力テーブルやビュー全体に適用されます。結果の出力は、DataRobotで、スナップショットデータセットとして具体化されます。

ラングリングのインサイトと、DataRobotにデータセットを登録する際に生成される探索的データインサイトはどのように異なりますか？

データのラングリング中に生成されたインサイトは、インタラクティブなラングリングセッション中に使用されたデータソースから取得した、元のデータセットのライブランダムサンプルに基づいています。行数を調整したり、操作を追加したりするたびに、DataRobotはサンプルを更新し、探索的データ解析を再実行します。

なぜデータをダウンサンプリングする必要があるのでしょうか？

Snowflakeの元のデータのサイズが DataRobotのファイルサイズ要件を満たしていない場合、自動ダウンサンプリングを設定して、出力データセットのサイズを小さくすることができます。