データのラングリング¶
本機能の提供について
データレジストリに保存されたデータセットに対してラングリングとプッシュダウンを実行する機能は、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
データレジストリのデータセットに対してラングリングを実行するには、まずユースケースにデータセットを追加する必要があります。 次に、データセットの横にあるアクションメニューからラングリングを開始します。 Note that you can only wrangle datasets up to 20GB.
機能フラグ:データレジストリのデータセットでラングリングのプッシュダウンを有効にする
DataRobotのラングリング機能により、モデリング用のデータへのアクセスと変換をシームレスでスケーラブル、かつセキュアな方法で行うことができます。 ワークベンチでは、「ラングリング」はソースでデータクリーニングを実行し、データソースの計算環境と分散アーキテクチャを活用するための視覚的なインターフェイスです。
Video: Data wrangling
DataRobotでデータをラングリングする理由
- ワークベンチに完全に統合 適切なデータセットを見つけて、変換を適用し、データセットに対する変換の影響を、リアルタイムで1か所で確認できます。
- プッシュダウン クラウドデータウェアハウスやレイクのスケールを活用できます。
- セキュア データ移動が制限されるため、結果の迅速化、パフォーマンスの向上、およびセキュリティの強化につながります。
ラングリングをクリックすると、DataRobotは10000行の均一なランダムサンプルを取得し、そのサンプルについて探索的データインサイトを計算します。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。
このセクションでは、以下のトピックについて説明します。
トピック | 説明 |
---|---|
レシピの構築 | データソースから移動せずにモデリング用のデータをインタラクティブに準備するためのレシピを構築します。 |
レシピのパブリッシュ | データソースに変換をプッシュダウンし、出力データセットを生成するためのレシピをパブリッシュします。 |