Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データの変換

データがパイプラインに読み込まれると、通常は一連の変換が行われます。変換モジュールでは、複数のデータセットの結合、重複の除去、誤った値の削除などのデータ変換を行うことができます。

各モジュールタイプのデータ処理制限のセクションを参照してください。

Spark SQLモジュール

Spark SQL変換モジュールでは、入力データに対してSQLクエリーを記述することができます。このモジュールは、1つ以上の入力データセットを受け入れます。これらのデータセットでSQLクエリーを作成して、目的の出力を生成できます。

SQLクエリーでは、入力ポート名を使用してデータセットを指定します。たとえば、モジュールにOrdersとCustomersという2つの入力ポートがある場合、SQLクエリーは、以下のようにOrdersとCustomersというポート名を使って入力データを参照する必要があります:

SELECT
Orders.OrderID, Customers.CustomerName, Orders.OrderDate
FROM
Orders INNER JOIN Customers
ON Orders.CustomerID = Customers.CustomerID

ヒント

ほとんどのSQL変換には少なくとも1つの入力データセットが必要ですが、入力データがなくても書けるSQL文もあります。この場合、Spark SQLモジュールの入力を削除して、出力だけを維持できます。


更新しました February 22, 2022
Back to top