Spark SQLを使用したAIカタログでのデータの準備¶
使用AIカタログで追加メニューからSpark SQLを使用したデータの準備により、Spark SQLクエリーを使用してデータセットを強化、変換、整形し、一緒にアンサンブルすることができます。
このセクションでは、Spark SQLを使用したデータ準備のプロセスについて説明します。
サポート情報¶
対応バージョン:
- Spark SQL 3.4.1
サポートされているデータセットタイプ:
- ローカルファイルから作成された静的データセット。
- 実体化されていない(動的)データセット(JDBCデータ接続から作成)。
- JDBCデータ接続から作成され、スナップショットが作成されたデータセット。
アンサンブル済みデータセットの作成¶
Spark SQLクエリーを使用すると、複数のソースからデータを取得して新しいデータセットを作成し、分析や視覚化に使用できます。 データセットをアンサンブルすると、より包括的なデータセットを作成して、データ内の関係性を比較したり、特定のビジネス上の問題に対処したりできます。たとえば、関連性の高いデータセットを組み合わせて、顧客の行動をより正確に予測できます。
-
アンサンブル済みの新しいデータセットを作成するには、追加メニューからSpark SQLを選択します。
-
ダイアログボックスが表示されたら、データを追加をクリックして「アンサンブル用のテーブルをカタログから作成」モデルを開きます。
-
利用可能なデータセットが新しいモーダルで開きます。 アセットのリストからデータセットの横にある選択をクリックします。 右側のパネルには、選択したデータセットが一覧表示されます。
-
データセットを追加した後、選択したデータを追加をクリックします。
-
認証が必要なデータセットの資格情報を入力します。認証が完了したら登録を完了をクリックしてSQLエディターを開きます。
データセットの追加と編集¶
最初にデータセットを追加した後、データセットのエイリアスを追加または変更できます。
-
追加をクリックして「アンサンブル用のテーブルをカタログから作成」モデルを再度開きます。 チェックマークは、既に含まれているデータセットを示します。新しいデータセットを追加するには、選択をクリックします。 追加されたすべてのデータセットをクエリーの一部として使用する必要はありません。
-
データセットのエイリアスの名前を変更する場合、またはクエリーからデータセットを削除する場合は、編集をクリックします。 データセットのメニューから以下のタスクを実行することもできます。
備考
Spark SQLの命名規則(特殊文字やスペースなし)に準拠するために、DataRobotではSQLコード内の各データセットを参照するエイリアスが生成されます。 独自のエイリアスを選択するか、生成済みのエイリアスを使用することができます。
クエリーの作成¶
データセットをロードしたら、次のステップは有効なSpark SQLクエリーをSQL入力セクションに入力することです。 DataRobotのSpark SQLドキュメントにアクセスするには、SparkDocsをクリックしてください。
クエリーを入力するには、SQLクエリー構文を手動でエディターに入力するか、データセット名の横にあるメニューを使用して一部またはすべての特徴量を追加します。
備考
非ascii文字を含むエイリアス名または特徴量名をバッククォート(`)で囲む必要があります。 たとえば、正しくエスケープされたシーケンスは`alias%name`.`feature@name`である可能性があります。
メニューからの特徴量の追加¶
データセット名の横にあるメニューをクリックします。
次の操作が可能なペインが開かれます。
- 特徴量名の右にある矢印をクリックして、機能を個別に追加します(1)。
- 特徴量のグループを追加するには、最初に特徴量名の左側にあるチェックボックスで特徴量を選択して、選択した特徴量をSQLに追加を選択します(2)。
-
すべての特徴量を選択または選択解除します。
メニューを使用して特徴量を追加すると、追加された特徴量がカーソルの位置でSQLエディターに移動します。
結果のプレビュー¶
クエリーが完了したら、実行をクリックします。エディターに複数のクエリーがある場合は、特定のセクションを強調表示してから、実行をクリックします。 コンピューティングが完了した後、正常に実行された場合は結果タブが開きます。 プレビューで他の行を表示するには、ウィンドウシェードスクロールを使用します。行のすべての列をスクロールするには、水平スクロールバーを使用します。
クエリーが正常に実行しなかった場合、通知バナーが表示され、エラーの詳細がコンソールに表示されます。
プレビューに関する考慮事項¶
クエリーを実行するとき、実行アクションの結果のプレビューは10,000行または16MBに制限されています。
-
プレビューが16MBを超える場合、command document too large(コマンドドキュメントが大きすぎます)というメッセージが表示されます。
-
プレビューが10,000行を超えた場合、次のようなメッセージが表示されます。データエンジンクエリー実行エラー:出力テーブルが大きすぎます(10000行以上)。 LIMITを使用するか、別のクエリーを使用してください
AIカタログに保存することで、これらの制限が発がすることはありません。
AIカタログへの結果の保存¶
クエリーと結果のデータセットを保存する前に、新しいデータセットの名前や説明を設定タブに入力して、デフォルト名の「無題(アンサンブルのデータセット)」を上書きすることもできます。
デフォルトでは、新しいデータセットのスナップショットが作成されます。 この動作を防止するには、設定で「スナップショットを作成」の選択を解除します。
名前と結果が満足できるものである場合、保存をクリックして、新しいアンサンブルデータセットをAIカタログに書き込んで、登録プロセスを開始します。
クエリーの編集¶
データアセットを保存すると、アセットの情報タブでクエリーを表示および編集できます。 前回の実行で発生したエラーは、ページの上部に表示されます。
エラーを修正するには:
-
クエリーエディターに戻るには、スクリプトを編集するをクリックします。 前回の実行からのすべての結果とエラーは、エディターの下にプリロードされます。
-
クエリーを変更し、実行をクリックして結果を検証します。
-
保存をクリックして、スクリプトを編集(「新しいバージョンを保存する」)するか、新しいデータセットとして保存します。
-
「新しいバージョンを保存する」を選択すると、スクリプトが編集され、データセットの新しいバージョンが再登録されます。 バージョン履歴タブを開くとすべてのバージョンが表示されます。 バージョンをクリックして展開し、SQLクエリーと関連するデータソースの両方を表示します。
備考
「新しいバージョンを保存する」を使用する場合、新しいバージョンは元のデータセットのスキーマと一致する必要があります。 編集の結果として出力されるスキーマを変更しなければならない場合は、代わりに「新しいデータセットとして保存」オプションを使用してください。
-
更新されたクエリーで新しいデータセットを作成するには、「新しいデータセットを保存」を選択します。 名前を入力して保存をクリックします。
DataRobotはデータセットを再登録し、AIカタログに追加します。
-
新しいクエリーを使用して登録が失敗した場合は、スクリプトを編集するリンクを使用してSQLエディターに戻って問題を修正し、新しいバージョンとして保存します。
新しいバージョンの作成¶
さらに、バージョン履歴タブでは「スクリプトから新しいデータセットを作成する」リンクを使用できます。 リンクをクリックして、クエリーエディターに戻ります。 保存をクリックすると、エントリが新しいデータアセットとして保存されます。