Skip to content

データの準備

DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。 ワークベンチの「ラングリング」は、DataRobotのデータレジストリであっても、外部データソースのコンピューティング環境と分散アーキテクチャを活用していても、ソースでデータクリーニングを実行するためのビジュアルインターフェイスです。 DataRobotでデータをラングリングする理由

  • ワークベンチに完全に統合されています。適切なデータセットを見つけて変換を適用し、データセットに対する変換の効果を1か所でリアルタイムに確認できます。
  • プッシュダウンされます。データ接続を使用する場合、クラウドデータウェアハウスまたはレイクの規模を活用できます。
  • 安全です。データ移動を制限することで、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化を実現します。

ユースケースの次の領域からデータラングラーを起動できます。

データセットをラングリングすると、10000行の均一なランダムサンプルがプルされ、そのサンプルについて探索的データインサイトが計算されます。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。

DataRobotには、データをラングリングするための2つの異なるツールが用意されています。

  • ラングラー:操作を用いてレシピを構築できるGUIベースのツール。各操作はデータセットに対して特定の変換を適用します。
  • SQLエディター:SQLクエリーを使ってレシピを構築できるツール。

DataRobotでのデータのラングリングに関する重要な情報については、関連する注意事項を参照してください。

このセクションでは、以下のトピックについて説明します。

トピック 説明
ラングラー ラングラーを利用すると、1つ以上の操作のレシピを構築できます。これにより、モデリング用のデータをデータソースから移動することなく、インタラクティブに準備することが可能となります。
SQLエディター SQLエディターを利用すると、SQLクエリーで構成されるレシピを作成できます。作成したレシピはデータソースにパブリッシュし、出力データセットを生成することが可能です。
レシピのパブリッシュ データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。
リファレンス
関連する注意事項 ラングリング操作のための重要な追加情報
サポートされているデータ接続 サポートされているデータストアの完全なリスト。
大規模なSnowflakeデータセットのラングリング Snowflakeでのラングリングのパフォーマンスを向上させるためのヒント