Data Prep用のDatabricksコネクター¶
ユーザーペルソナ:Data Prepユーザー、Data Prep管理者、データソース管理者、またはIT/DevOps
備考
この文書は、コネクターの設定中に利用できるすべての構成フィールドについて論じています。 一部のフィールドは、設定の以前の手順で管理者によってすでに入力されている場合があり、表示されない場合があります。 Data Prepのコネクターフレームワークの詳細については、Data Prepコネクターのセットアップを参照してください。 また、管理者がこのコネクタにデータソースのリストで別の名前を付けている可能性があります。
Data Prepの設定¶
このコネクターを使用すると、Databricksに接続して、ライブラリのインポートとエクスポートを行うことができます。次のフィールドを使用して、接続パラメーターを定義します。AzureとAWSのDatabricksに対して認定されています。
このコネクターにより、参照、クエリ、およびエクスポート操作によるインポートが可能になります。
エクスポート時にDatabricksストレージ(つまり、Databricksサービスプロバイダーに応じてADLS Gen2またはS3バケット)に直接ロードされるデータを除いて、すべてのアクションはJDBC接続を介して実行されます。
一般¶
名前:UIでユーザーに表示されるデータソースの名前。
説明:UIでユーザーに表示されるデータソースの説明。
ヒント
Data Prepは複数のデータブリックスアカウントに接続できます。わかりやすい名前を使用すると、ユーザーが適切なデータソースを識別する上で非常に役立ちます。
Databricksサーバーの設定¶
-
Databricksサービスプロバイダー:接続するDatabricksサービスのタイプに応じて、このプロパティを設定します。AzureとAWSでDatabricksをサポートしています。
- AzureでのDatabricks
- AWSでのDatabricks
-
Databricksサーバーの設定タイプ:Databricksに接続するためのデータソースの設定方法に基づいて、このプロパティを設定します。
- 基本
- 詳細設定
-
Databricksサーバー:Databricksサービスをホストするサーバーのホスト名です。
-
Databricksポート:Databricksサーバーのポートです。
-
SSLを使用する:このプロパティにHive設定ファイル(hive-site.xml)の「hive.server2.use.SSL」のプロパティで指定された値を設定します。
-
トランスポートモード:このプロパティにHive設定ファイル(hive-site.xml)の「hive.server2.trantsports.mode」のプロパティで指定された値を設定します。
-
HTTTPのパス:HTTPトランスポートモードでは、このプロパティにURLエンドポイントのパスコンポーネントを指定します。このプロパティには、Hive設定ファイル(hive-site.xml)のhive.server2.thrift.http.pathプロパティで指定された値を設定する必要があります。
-
タイムアウト:操作がタイムアウトするまでの秒数です。ゼロに設定された場合、操作はタイムアウトしません。
-
JDBC Url:高度な設定で、Databricksに接続するためのJDBC Url全体を設定します。詳細については、CData JDBCドライバーのドキュメントを参照してください。
Databricksサーバー認証の設定¶
-
ユーザー:Databricksサーバーでの認証に使用されるユーザー名です。通常、ユーザー名は「トークン」です。
-
パスワード:Databricksでの認証に使用されるパーソナルアクセストークンです。個人用アクセストークンは、Databricksインスタンスの[ユーザー設定]ページに移動し、[アクセストークン]タブを選択することで取得できます。
Databricksログの設定¶
-
冗長性:ログファイルに含まれる詳細の量を決定する冗長性レベルです。これは、本番環境の問題をデバッグするのに非常に役立ちます。
-
ログファイル:Paxサーバー内のドライバーログファイルのパスです。指定されたパスに含まれるすべてのディレクトリが、あらかじめ存在している必要があります
Databricksサーバーのエクスポートストレージレイヤーの設定¶
Azure¶
-
ADLS Gen2データストアのルートディレクトリ:このコネクターでアクセスできる明白なルートパスです。'/'を使用して、ADLS Gen2ファイルシステムのルートフォルダ内にDatabricksデータを格納します。
-
ADLS Gen2ストレージアカウント名:一意のAzure URLのサブドメイン名です。このストレージアカウントは、Databricksクラスターに関連付けられ、アクセスできる必要があります。ADLS Gen2ストレージ アカウント名の長さは3~24文字にする必要があり、数字と小文字のみを使用できます。ADLS Gen2ストレージアカウント名は、Azure内で一意である必要があります。同じ名前のストレージ アカウントが 2 つ以上存在することはできません。
-
ADLS Gen2ファイルシステム名:ストレージアカウント内のDatabricksデータを保存するADLS Gen2ファイルシステムの名前です。これは、「コンテナ」 名と呼ばれることもあります。
-
認証タイプ:ADLS Gen2ストレージに接続する認証のタイプ(「ストレージアカウントアクセスキー」または「Active Directoryユーザー名/パスワード」のいずれか)。
-
ADLS Gen2ストレージアカウントアクセスキー:フィールドにストレージアカウントアクセスキーを入力します。これは、「共有キー」と呼ばれることもあります。
-
ActiveDirectoryユーザー名/パスワード:アカウントに関連付けられているAzure Directoryのユーザー名とパスワードを入力します。
備考
マイクロソフトアカウント内でデータを読み書きするには、Data Prepにアクセスを許可する必要があります。そうしないと、接続しようとしたときにエラーが発生します。アクセスを許可するには、コネクター設定ペインでデータソースのテストをクリックし、アクセス許可のリンクをクリックします。これにより、ログインしてアクセスを許可できるMicrosoftアカウントに移動します。その後でData Prepに戻って続行します。
AWS¶
-
S3バケット名:Amazon S3でDatabricksデータを保存するS3バケットの名前です。このS3バケットは、Databricksクラスターに関連付けられ、アクセスできる必要があります。
-
S3オブジェクトプレフィックス:このコネクターでアクセスできる明白なルートパスです。「/」を使用して、DatabricksのデータをS3バケットのルートフォルダーに保存します。
-
認証タイプ:S3バケットにアクセスするための認証方法です。
-
AWS資格情報:各ユーザーが、ユーザーのAWSアクセスキーに関連付けられているアクセスキーIDとシークレットキーを入力する必要があります。これはデフォルトの設定です。
-
インスタンスプロファイル(IAMロール):このテナント内のすべてのユーザーが、個別の認証を必要とせずにAWSにアクセスできるようにします。
-
IAMクロスアカウント:設定されたS3バケットにアクセスできる別のAWSアカウントのロールを推定し、S3へのアクセスを有効化します。
重要
インスタンスプロファイル(IAMロール)およびIAMクロスアカウントオプションの場合、データプレップがアマゾンEC2ホストにインストールされている必要があります。
-
暗号化タイプ:
- なし
- SSE-S3
- SSE-KMS
-
バケットリージョンロケーター:S3 AWSバケット領域のロケーターストラテジーです。
-
ソケットタイムアウトの秒数:確立された接続でAmazon S3からの応答を待つ秒数です。デフォルト値は5分です。大きなサイズのファイルをエクスポートするには、この値を増やしてください。
-
参照:
- 使用可能なデータベースとテーブルのリストを表示します。
-
インポート:
-
参照:
- テーブル(パーティション化および非パーティション化)を参照し、インポートする名前をクリックします。
-
クエリ:
- 正当なSQL選択クエリの使用
-
-
エクスポート:
- データベースを参照し、テーブルをエクスポートします。
設定レイアウト¶
ADLS Gen2ストレージを使用したAzure上のDatabricks¶
S3バケットストレージを使用したAWS上のDatabricks¶
参照によるインポート¶
参照によるエクスポート¶
Databricksクラスターの設定¶
DataRobotでDatabricksコネクターを設定することに加えて、Sparkの設定をDatabricksクラスターに追加する必要があります。
-
DataBricsクラスターの設定タブに移動し、高度なオプションを展開します。
-
Sparkタブで、以下の構成設定を追加および保存します。
spark.sql.legacy.parquet.datetimeRebaseModeInRead LEGACY spark.driver.maxResultSize 12g
Databricksコネクターの既知の問題と制限¶
次の特徴量セットは、一部の運用環境では機能しない場合があります。これらの問題は、今後のリリースで修正される予定です。
-
Active Directoryの資格情報を使用したAzure DatabricksインスタンスとADLS GEN2ストレージによる認証。
-
クロスアカウントバケットARNを使用したAWS DatabricksインスタンスとAmazon S3サービスストレージによる認証。
-
IAMロールが有効になっているAWS DatabricksインスタンスとAmazon S3サービスストレージによる認証。
-
暗号化されていないS3バケット内のSSE-KMSでデータが暗号化されているAWS Databricksインスタンスから、テーブルをインポートします。
-
暗号化されているS3バケット内のSSE-S3およびSSE-KMSでデータが暗号化されているAWS Databricksインスタンスからテーブルをインポートします。
-
クロスアカウントとIAMロールで認証した後、AWS Databricksインスタンスからテーブルをインポートします。
-
クロスアカウントとIAMロールで認証した後、AWS Databricksインスタンスにエクスポートします。