Spark SQLを使用してAIカタログでデータの準備¶
使用AIカタログで追加メニューからSpark SQLを使用したデータの準備により、Spark SQLクエリーを使用してデータセットを強化、変換、整形し、一緒にアンサンブルすることができます。
サポートされているデータセットタイプ:
- ローカルファイルから作成された静的データセット。
- マテリアライズされていない(動的)データセット(JDBCデータ接続から作成)。
- JDBCデータ接続から作成され、スナップショットが作成されたデータセット。
このセクションでは、Spark SQLを使用したデータ準備のプロセスについて説明します。
データセット追加¶
-
アンサンブル済みの新しいデータセットを作成するには、追加メニューから「Spark SQL」を選択します。
-
ダイアログボックスが表示されたら、データを追加をクリックして「アンサンブル用のテーブルをカタログから作成」モーダルを開きます。
-
利用可能なデータセットが新しいモーダルで開きます。アセットのリストからデータセットの横にある選択をクリックします。右側のパネルには、選択したデータセットが一覧表示されます。
-
データセットを追加した後、選択したデータを追加をクリックします。
-
認証が必要なデータセットの資格情報を入力します。認証が完了したら登録を完了をクリックしてSQLエディターを開きます。
データセットの追加と編集¶
最初にデータセットを追加した後、データセットのエイリアスを追加または変更できます。
-
追加をクリックして「アンサンブル用のテーブルをカタログから作成」モーダルを再度開きます。チェックマークは、既に含まれているデータセットを示します。新しいデータセットを追加するには、選択をクリックします。追加されたすべてのデータセットをクエリーの一部として使用する必要はありません。
-
データセットのエイリアスの名前を変更する場合、またはクエリーからデータセットを削除する場合は、編集をクリックします。データセットのメニューから以下のタスクを実行することもできます。
備考
Spark SQLの命名規則(特殊文字やスペースなし)に準拠するために、DataRobotではSQLコード内の各データセットを参照するエイリアスが生成されます。独自のエイリアスを選択するか、生成済みのエイリアスを使用することができます。
クエリーの作成¶
データセットをロードしたら、次のステップは有効なSpark SQLクエリーをSQL入力セクションに入力することです。DataRobotでSpark SQLのドキュメントにアクセスするには、Sparkドキュメントをクリックしてください。
クエリーを入力するには、SQLクエリー構文を手動でエディターに入力するか、データセット名の横にあるメニューを使用して一部またはすべての特徴量を追加します。
備考
非ascii文字を含むエイリアスや特徴量名はバッククォート( ` )で囲む必要があります。たとえば、正しくエスケープを行うと次のようになります:`alias%name`.`feature@name`
メニューからの特徴量の追加¶
データセット名の横にあるメニューをクリックします。
次の操作が可能なペインが開かれます。
- 特徴量名の右にある矢印をクリックして、機能を個別に追加します(1)。
- 特徴量のグループを追加するには、最初に特徴量名の左側にあるチェックボックスで特徴量を選択して、選択した特徴量をSQLに追加を選択します(2)。
-
すべての特徴量を選択または選択解除します。
メニューを使用して特徴量を追加すると、追加された特徴量がカーソルの位置でSQLエディターに移動します。
結果のプレビュー¶
クエリーが完了したら、実行をクリックします。エディターに複数のクエリーがある場合は、特定のセクションをハイライトしてから実行をクリックします。計算の完了後、正常に完了した場合、DataRobotは結果タブを開きます。ウィンドウシェードスクロールを使用してプレビューで多くの行を表示します。必要に応じて、水平スクロールバーを使用して行のすべての列をスクロールします。
クエリーが正常に実行しなかった場合、通知バナーが表示され、エラーの詳細がコンソールに表示されます。
プレビューに関する考慮事項¶
クエリーを実行するとき、実行アクションの結果のプレビューは10,000行または16MBに制限されています。
-
プレビューが16MBを超える場合、command document too large(コマンドドキュメントが大きすぎます)というメッセージが表示されます。
-
プレビューが10,000行を超える場合、次のようなメッセージが表示されます:データエンジンクエリー実行エラー:出力テーブルが大きすぎます(10,000行以上)。LIMITを使用するか、別のクエリーを使用してください
AIカタログに保存すると、これらの制限は発生しません。
AIカタログへの結果の保存¶
クエリーと結果のデータセットを保存する前に、新しいデータセットの名前や説明を設定タブに入力して、デフォルト名の「無題(アンサンブルのデータセット)」を上書きすることもできます。
デフォルトでは、新しいデータセットのスナップショットが作成されます。この動作を防止するには、設定で「スナップショットを作成」の選択を解除します。
名前と結果が満足できるものである場合、保存をクリックして、新しいアンサンブルデータセットをAIカタログに書き込んで、登録プロセスを開始します。
クエリーの編集¶
データアセットを保存した後、アセットの情報タブからクエリーの表示と編集ができます。前回の実行によるエラーはページの上部に表示されます。
エラーを修正するには:
-
スクリプトを編集するをクリックして、クエリーエディターに戻ります。前回の実行結果とエラーはすべて、エディターの下にプリロードされます。
-
クエリーを変更し、実行をクリックして結果を検証します。
-
保存をクリックして、スクリプトを編集(「新しいバージョンを保存する」)するか、新しいデータセットとして保存します。
-
「新しいバージョンを保存する」を選択すると、スクリプトが編集され、データセットの新しいバージョンが再登録されます。バージョン履歴タブを開くとすべてのバージョンが表示されます。バージョンをクリックして展開し、SQLクエリーと関連するデータソースの両方を表示します。
備考
「新しいバージョンを保存する」を使用する場合、新しいバージョンは元のデータセットのスキーマと一致する必要があります。編集の結果として出力されるスキーマを変更しなければならない場合は、代わりに「新しいデータセットとして保存」オプションを使用してください。
-
更新されたクエリーで新しいデータセットを作成するには、「新しいデータセットを保存」を選択します。名前を入力して保存をクリックします。
DataRobotはデータセットを再登録し、AIカタログに追加します。
-
新しいクエリーを使用して登録が失敗した場合は、スクリプトを編集するリンクを使用してSQLエディターに戻って問題を修正し、新しいバージョンとして保存します。
新しいバージョンを作成¶
さらに、バージョン履歴タブで「スクリプトから新しいデータセットを作成」リンクを使用できます。リンクをクリックして、クエリーエディターに戻ります。保存をクリックすると、エントリが新しいデータアセットとして保存されます。