データの準備¶
DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。 ワークベンチの「ラングリング」は、DataRobotのデータレジストリであっても、外部データソースのコンピューティング環境と分散アーキテクチャを活用していても、ソースでデータクリーニングを実行するためのビジュアルインターフェイスです。 DataRobotでデータをラングリングする理由
- ワークベンチに完全に統合されています。適切なデータセットを見つけて変換を適用し、データセットに対する変換の効果を1か所でリアルタイムに確認できます。
- プッシュダウンされます。データ接続を使用する場合、クラウドデータウェアハウスまたはレイクの規模を活用できます。
- 安全です。データ移動を制限することで、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化を実現します。
ユースケースの次の領域からデータラングラーを起動できます。
- データ接続からデータセットを選択する場合、右上隅のラングラーで開くをクリックします。
- データアセットタイルでは、データセットの横にあるアクションメニュー から。
- データ探索ページでは、データのアクションドロップダウンから。
データセットをラングリングすると、10000行の均一なランダムサンプルがプルされ、そのサンプルについて探索的データインサイトが計算されます。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。
DataRobotには、データをラングリングするための2つの異なるツールが用意されています。
- ラングラー:操作を用いてレシピを構築できるGUIベースのツール。各操作はデータセットに対して特定の変換を適用します。
- SQLエディター:SQLクエリーを使ってレシピを構築できるツール。
DataRobotでのデータのラングリングに関する重要な情報については、関連する注意事項を参照してください。
このセクションでは、以下のトピックについて説明します。
| トピック | 説明 |
|---|---|
| ラングラー | ラングラーを利用すると、1つ以上の操作のレシピを構築できます。これにより、モデリング用のデータをデータソースから移動することなく、インタラクティブに準備することが可能となります。 |
| SQLエディター | SQLエディターを利用すると、SQLクエリーで構成されるレシピを作成できます。作成したレシピはデータソースにパブリッシュし、出力データセットを生成することが可能です。 |
| レシピのパブリッシュ | データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。 |
| リファレンス | |
| 関連する注意事項 | ラングリング操作のための重要な追加情報 |
| サポートされているデータ接続 | サポートされているデータストアの完全なリスト。 |
| 大規模なSnowflakeデータセットのラングリング | Snowflakeでのラングリングのパフォーマンスを向上させるためのヒント |