Skip to content

SQLエディター

SQLエディターでは、SQLクエリーで構成されたレシピを作成できます。SQLクエリーによって、データセットを拡充、変換、整形、および組み合わせてから、パブリッシュして新しい出力データセットを作成できます。

SQLエディターを開くには、使用したいデータセットの横にあるアクションメニュー をクリックし、SQLエディターを開くを選択します。

  要素 説明
1 情報タブ SQLレシピのサマリー情報とメタデータを表示します。
2 データ入力タブ SQLレシピに関連付けられたデータ入力と機能メニューを表示します。
3 データを追加 同じデータエンジンからのデータ入力をレシピに追加します。
4 データ入力 現在レシピに追加されているすべてのデータ入力を一覧表示します。
5 特徴量メニュー 選択されたデータ入力の特徴量を表示します。
6 エディター SQLクエリーを入力してデータを操作できます。
7 プレビュー 上記のSQLクエリーのプレビューを表示します。
8 データエンジン SQLクエリーの実行に使用されるデータエンジンを表示します。
9 SQLリファレンスドキュメント 該当するデータエンジンのSQLリファレンスドキュメントにリンクします。
10 実行 エディターに入力されたSQLクエリーを実行し、プレビューを更新します。
11 レシピのアクション レシピを操作するためのオプションを提供します。
  • パブリッシュ:パブリッシュ設定を開きます。設定に従ってレシピをパブリッシュし、SQLクエリーをデータソースにプッシュダウンして、出力データセットを生成できます。
  • クローン:SQLレシピのコピーを作成し、すぐに開きます。
  • ラングラーで開く:レシピをラングラーで開きます。 これを行うと、すべてのSQL更新が破棄されます。
  • ユースケースから削除:ユースケースからレシピを削除します。

また、設定アイコン をクリックしてビューをカスタマイズすることもできます。これにより、エディターで以下の要素の表示/非表示を切り替えることができます。

データ入力の追加

プライマリーデータセットを充実させるため、元のデータセットと同じデータエンジンからデータ入力を追加できます。 元のデータセットは、常にデータ入力リストの先頭に置かれます。

データ入力を追加するには:

  1. データを追加をクリックします。
  2. 追加したいデータを選択します。 一度に複数の選択をすることができます。 以下の点に注意してください。

    • ライブソースからデータを追加する場合は、スキーマとテーブルを選択する必要があります。
    • Sparkエンジン(すなわち、データセット)を使用して操作するデータを追加する場合は、現在のユースケースにすでに関連付けられているか、データレジストリにある1つ以上のスナップショットまたは静的データセットを選択します。

  3. 右上隅のデータ入力を追加をクリックします。 すべてのデータ入力が左側のパネルに表示されます。

データ入力の編集

データ入力を編集するには、編集したいデータ入力にカーソルを合わせ、鉛筆アイコン をクリックします。

情報セクションに含まれるメタデータは、入力が静的データセットであるか、ライブデータソースであるかによって異なります。 詳細については、以下のタブを参照してください。

入力が静的つまりスナップショットデータセットの場合、情報セクションには以下の内容が表示されます。

フィールド 説明
データセット名 DataRobotでのデータセットの名前。
データセットID DataRobotでのデータセットの一意なID。
作成日時 DataRobotでデータセットが作成された日時。

入力がライブデータソースの場合、情報セクションには以下の内容が表示されます。

フィールド 説明
データ接続名 データに関連付けられたデータ接続の名前。
フルパス データベース、スキーマ、テーブルを含むデータのフルパス。

編集オプションは、元のデータ入力とSQLエディターで追加されたデータ入力で異なります。

元のデータ入力を編集する場合、以下の編集オプションがあります。

  要素 説明
1 別のデータセットを選択 入力データとして使用する(元のデータセットと同じデータエンジンからの)別のデータセットを選択します。
2 エイリアス名 データ入力のエイリアス名を入力します。 エイリアスは、読みやすさを向上させ、複雑なクエリーを単純化するために、クエリー内のテーブルまたは列に割り当てられる一時的な名前です。
3 スナップショットポリシー 入力データのスナップショットポリシーを選択します。
  • 最新:データセット専用。 データセットの利用可能な最新のスナップショットを使います。
  • 固定:データセット専用。 より新しいスナップショットが存在する場合でも、特定のスナップショットバージョンを選択します。
  • 動的: データ接続専用。 レシピの実行時に、関連付けられたデータ接続からデータをプルします。
4 サンプリングを有効にする トグルを使用して、データプレビューのサンプリングをオンまたはオフにします。 サンプリングが無効の場合、データセット全体がデータプレビューに使用されます。
5 サンプリング方法 まず、プレビュー用のデータ入力に適用するサンプリング方法を選択します。
  • ランダム:指定した行数をデータ入力からランダムに取得します。
  • 先頭のN行:指定した行数をサンプリングに使用します。
  • 日付/時刻:時間認識のみ。 指定した最も新しい/最も古い行を含むサンプルを、日付/時刻特徴量の順に作成します。
次に、サンプルのソースデータからプルする行数を入力します。

セカンダリーデータの入力を編集する場合、以下の編集オプションがあります。

  要素 説明
1 別のデータセットを選択 入力データとして使用する(元のデータセットと同じデータエンジンからの)別のデータセットを選択します。
2 エイリアス名 データ入力のエイリアス名を入力します。 エイリアスは、読みやすさを向上させ、複雑なクエリーを単純化するために、クエリー内のテーブルまたは列に割り当てられる一時的な名前です。
3 スナップショットポリシー 入力データのスナップショットポリシーを選択します。
  • 最新:データセット専用。 データセットの利用可能な最新のスナップショットを使います。
  • 固定:データセット専用。 より新しいスナップショットが存在する場合でも、特定のスナップショットバージョンを選択します。
  • 動的: データ接続専用。 レシピの実行時に、関連付けられたデータ接続からデータをプルします。
4 データ入力を削除 SQLエディターから入力データを削除します。

時間を認識したデータ入力の編集

元のデータ入力が時間を認識し、サンプリング方法として日付/時刻を選択した場合、追加で入力が必要なフィールドがあります。 詳細については、時間認識ラングリングに関するドキュメントを参照してください。

クエリーの作成

データ入力を追加したら、エディターへのSQLクエリーの追加を開始できます。 データエンジンの SQLリファレンスにアクセスするには、ドキュメントアイコン をクリックします。

ライブデータ

ライブデータソース(Snowflake、Databricks、BigQueryなど)に接続している場合は、入力を追加する代わりに、データソースからのフルパスを参照して、SQLクエリーで使用できます。 パスには、データベース、スキーマ、およびテーブル名を含める必要があります。

フルパスを指定しなくても、エイリアスのみを使用して追加したデータ入力を参照できます。

クエリを入力するには、SQLクエリ構文を手動でエディタに入力するか、パネルを使用して特徴量を追加します。

パネルから特徴量を追加する

データ入力から特徴量を追加するには、リストからデータ入力を選択します。 以下のパネルが更新され、選択した入力からの特徴量が表示されます。

このメニューでは、以下のことができます。

  要素 説明
1 エディターに名前を配置 データ入力の名前を追加します。
2 エディターにすべての特徴量を配置 データ入力のすべての特徴量を追加します。
3 特徴量を個別に追加します。

パネルを使用して特徴量を追加すると、追加された特徴量はSQLエディターのカーソル位置に移動します。

結果のプレビュー

クエリーが完了したら、実行をクリックします。

プレビューに表示する行を増やすには、ウィンドウシェードスクロールを使用します。必要に応じて、水平スクロールバーを使用して、行のすべての列をスクロールします。

クエリーが成功しなかった場合、通知バナーが返されます。

パブリッシュ

ここから、SQLレシピをパブリッシュして、出力データセットを生成できます。