データの変換¶
データがパイプラインに読み込まれると、通常は一連の変換が行われます。変換モジュールでは、複数のデータセットの結合、重複の除去、誤った値の削除などのデータ変換を行うことができます。
各モジュールタイプのデータ処理制限のセクションを参照してください。
Spark SQLモジュール¶
Spark SQL変換モジュールでは、入力データに対してSQLクエリーを記述することができます。このモジュールは、1つ以上の入力データセットを受け入れます。これらのデータセットでSQLクエリーを作成して、目的の出力を生成できます。
SQLクエリーでは、入力ポート名を使用してデータセットを指定します。たとえば、モジュールにOrdersとCustomersという2つの入力ポートがある場合、SQLクエリーは、以下のようにOrdersとCustomersというポート名を使って入力データを参照する必要があります:
SELECT
Orders.OrderID, Customers.CustomerName, Orders.OrderDate
FROM
Orders INNER JOIN Customers
ON Orders.CustomerID = Customers.CustomerID
ヒント
ほとんどのSQL変換には少なくとも1つの入力データセットが必要ですが、入力データがなくても書けるSQL文もあります。この場合、Spark SQLモジュールの入力を削除して、出力だけを維持できます。
更新しました February 22, 2022
このページは役に立ちましたか?
ありがとうございます。どのような点が役に立ちましたか?
より良いコンテンツを提供するには、どうすればよいでしょうか?
アンケートにご協力いただき、ありがとうございました。