データの準備¶
DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。 ワークベンチの「ラングリング」は、DataRobotのデータレジストリであっても、外部データソースのコンピューティング環境と分散アーキテクチャを活用していても、ソースでデータクリーニングを実行するためのビジュアルインターフェイスです。 DataRobotでデータをラングリングする理由
- ワークベンチに完全に統合されています。適切なデータセットを見つけて変換を適用し、データセットに対する変換の効果を1か所でリアルタイムに確認できます。
- プッシュダウンされます。データ接続を使用する場合、クラウドデータウェアハウスまたはレイクの規模を活用できます。
- 安全です。データ移動を制限することで、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化を実現します。
ユースケースの次の領域からデータラングラーを起動できます。
- データ接続からデータセットを選択する場合、右上隅のラングラーで開くをクリックします。
- データアセットタイルでは、データセットの横にあるアクションメニュー から。
- データ探索ページでは、データのアクションドロップダウンから。
データセットをラングリングすると、10000行の均一なランダムサンプルがプルされ、そのサンプルについて探索的データインサイトが計算されます。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。
DataRobotには、データをラングリングするための2つの異なるツールが用意されています。
- ラングラー:操作を用いてレシピを構築できるGUIベースのツール。各操作はデータセットに対して特定の変換を適用します。
- SQLエディター:SQLクエリーを使ってレシピを構築できるツール。
このセクションでは、以下のトピックについて説明します。
| トピック | 説明 |
|---|---|
| ラングラー | ラングラーを利用すると、1つ以上の操作のレシピを構築できます。これにより、モデリング用のデータをデータソースから移動することなく、インタラクティブに準備することが可能となります。 |
| SQLエディター | SQLエディターを利用すると、SQLクエリーで構成されるレシピを作成できます。作成したレシピはデータソースにパブリッシュし、出力データセットを生成することが可能です。 |
| レシピのパブリッシュ | データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。 |
| リファレンス | |
| サポートされるデータストア | サポートされているデータストアの完全なリスト。 |
| 大規模なSnowflakeデータセットのラングリング | Snowflakeでのラングリングのパフォーマンスを向上させるためのヒント |
機能に関する注意事項¶
データのラングリングをする際、以下の点に注意してください。
- プロファイルはカスタマイズできず、サンプルベースのプロファイルに制限されています。
- ラングリングでは、クエリー型データセット(クエリーから構築されたデータセット)はサポートされていません。
- セルフマネージド:データレジストリのデータセットは20GBまでラングリングできます。
- マネージドSaaS(マルチテナントSaaSおよびAWSシングルテナントSaaSデプロイ):データレジストリのデータセットは100GBまでラングリングできます。
- JDBCドライバーを使用して動的データセットを追加できますが、そのデータのプレビューやラングリングはできません。まず、データセットのスナップショットを作成する必要があります。
よくある質問(FAQ)¶
外部データソースに操作をプッシュダウンできるようにするには、どのような権限が必要ですか?
選択したデータベースへの「読み取り」アクセス権が必要です。
データがソースから移動される状況はありますか?
はい。データは以下においてソースから移動されます。
- **インタラクティブなラングリングセッション中:データソースの元のテーブルまたはビューからランダムにサンプリングされた10,000行が、プレビューとプロファイリングの目的でDataRobotに取り込まれます。
- ラングリングレシピをパブリッシュした後:レシピをパブリッシュすると、変換がプッシュダウンされ、データソースの入力テーブルやビュー全体に適用されます。 結果の出力は、DataRobotで、スナップショットデータセットとして具体化されます。
ラングリングのインサイトと、DataRobotにデータセットを登録する際に生成される探索的データインサイトはどのように異なりますか?
データのラングリング中に生成されたインサイトは、インタラクティブなラングリングセッション中に使用されたデータソースから取得した、元のデータセットのライブランダムサンプルに基づいています。 行数を調整したり、操作を追加したりするたびに、DataRobotはサンプルを更新し、探索的データ解析を再実行します。
なぜデータをダウンサンプリングする必要があるのでしょうか?
Snowflakeの元のデータのサイズが DataRobotのファイルサイズ要件を満たしていない場合、 自動ダウンサンプリングを設定して、出力データセットのサイズを小さくすることができます。