Skip to content

データの準備

DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。 ワークベンチの「ラングリング」は、DataRobotのデータレジストリであっても、外部データソースのコンピューティング環境と分散アーキテクチャを活用していても、ソースでデータクリーニングを実行するためのビジュアルインターフェイスです。 DataRobotでデータをラングリングする理由

  • ワークベンチに完全に統合されています。適切なデータセットを見つけて変換を適用し、データセットに対する変換の効果を1か所でリアルタイムに確認できます。
  • プッシュダウンされます。データ接続を使用する場合、クラウドデータウェアハウスまたはレイクの規模を活用できます。
  • 安全です。データ移動を制限することで、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化を実現します。

ユースケースの次の領域からデータラングラーを起動できます。

データセットをラングリングすると、10000行の均一なランダムサンプルがプルされ、そのサンプルについて探索的データインサイトが計算されます。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。

DataRobotには、データをラングリングするための2つの異なるツールが用意されています。

  • ラングラー:操作を用いてレシピを構築できるGUIベースのツール。各操作はデータセットに対して特定の変換を適用します。
  • SQLエディター:SQLクエリーを使ってレシピを構築できるツール。

このセクションでは、以下のトピックについて説明します。

トピック 説明
ラングラー ラングラーを利用すると、1つ以上の操作のレシピを構築できます。これにより、モデリング用のデータをデータソースから移動することなく、インタラクティブに準備することが可能となります。
SQLエディター SQLエディターを利用すると、SQLクエリーで構成されるレシピを作成できます。作成したレシピはデータソースにパブリッシュし、出力データセットを生成することが可能です。
レシピのパブリッシュ データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。
リファレンス
サポートされるデータストア サポートされているデータストアの完全なリスト。
大規模なSnowflakeデータセットのラングリング Snowflakeでのラングリングのパフォーマンスを向上させるためのヒント

機能に関する注意事項

データのラングリングをする際、以下の点に注意してください。

  • プロファイルはカスタマイズできず、サンプルベースのプロファイルに制限されています。
  • ラングリングでは、クエリー型データセット(クエリーから構築されたデータセット)はサポートされていません。
  • セルフマネージド:データレジストリのデータセットは20GBまでラングリングできます。
  • マネージドSaaS(マルチテナントSaaSおよびAWSシングルテナントSaaSデプロイ):データレジストリのデータセットは100GBまでラングリングできます。
  • JDBCドライバーを使用して動的データセットを追加できますが、そのデータのプレビューやラングリングはできません。まず、データセットのスナップショットを作成する必要があります。

よくある質問(FAQ)

外部データソースに操作をプッシュダウンできるようにするには、どのような権限が必要ですか?

選択したデータベースへの「読み取り」アクセス権が必要です。

データがソースから移動される状況はありますか?

はい。データは以下においてソースから移動されます。

  • **インタラクティブなラングリングセッション中:データソースの元のテーブルまたはビューからランダムにサンプリングされた10,000行が、プレビューとプロファイリングの目的でDataRobotに取り込まれます。
  • ラングリングレシピをパブリッシュした後:レシピをパブリッシュすると、変換がプッシュダウンされ、データソースの入力テーブルやビュー全体に適用されます。 結果の出力は、DataRobotで、スナップショットデータセットとして具体化されます。
ラングリングのインサイトと、DataRobotにデータセットを登録する際に生成される探索的データインサイトはどのように異なりますか?

データのラングリング中に生成されたインサイトは、インタラクティブなラングリングセッション中に使用されたデータソースから取得した、元のデータセットのライブランダムサンプルに基づいています。 行数を調整したり、操作を追加したりするたびに、DataRobotはサンプルを更新し、探索的データ解析を再実行します。

なぜデータをダウンサンプリングする必要があるのでしょうか?

Snowflakeの元のデータのサイズが DataRobotのファイルサイズ要件を満たしていない場合、 自動ダウンサンプリングを設定して、出力データセットのサイズを小さくすることができます。