Databricks¶
Databricksコネクターを使用することで、AzureまたはAWS上のDatabricksのデータにアクセスできます。
サポート対象の認証¶
- パーソナルアクセストークン
- サービスプリンシパル
前提条件¶
DataRobotでDatabricksに接続する前に、認証用の パーソナルアクセストークンまたは サービスプリンシパルに加えて、以下が必要となります。
- Azure Portalアプリの Databricksワークスペース
- Azure Databricksデータベースに保存されたデータ
- AWSの Databricksワークスペース
- AWS Databricksデータベースに保存されたデータ
パーソナルアクセストークンの生成¶
Azure Portalアプリで、Databricksワークスペースのパーソナルアクセストークンを生成します。 このトークンは、DataRobotのDatabricksへの接続の認証に使用されます。
詳細については、Azure Databricksドキュメントを参照してください。
AWSで、Databricksワークスペースのパーソナルアクセストークンを生成します。 このトークンは、DataRobotのDatabricksへの接続の認証に使用されます。
AWSでのDatabricksドキュメントを参照してください。
サービスプリンシパルの作成¶
Azure Portalアプリケーションで、Databricksワークスペースのサービスプリンシパルを作成します。 結果のクライアントIDとクライアントシークレットを使用して、DataRobotで、Databricksへの接続を認証します。
詳細については、Azure Databricksドキュメントを参照してください。 リンクされた手順で、次の情報をコピーします。
- アプリケーションID:DataRobotでの設定中に、クライアントIDフィールドに入力されました。
- OAuthシークレット:DataRobotでの設定中に、クライアントシークレットフィールドに入力されました。
使用するデータにアクセスする権限が、サービスプリンシパルにあることを確認してください。
AWSで、Databricksワークスペースのサービスプリンシパルを作成します。 結果のクライアントIDとクライアントシークレットを使用して、DataRobotで、Databricksへの接続を認証します。
詳細については、Azure Databricksドキュメントを参照してください。
使用するデータにアクセスする権限が、サービスプリンシパルにあることを確認してください。
DataRobotでの接続の設定¶
DataRobotでDatabricksに接続するには(この例はAzureを使用することに注意してください):
- ワークベンチを開き、ユースケースを選択します。
- データソースに接続する手順に従ってください。
-
前のセクションで取得した情報を使用して、 必要な設定パラメーターを入力します。
-
認証で、新しい資格情報をクリックします。 次に、アクセストークンと一意の表示名を入力します。 このデータソースへの資格情報をすでに追加している場合は、保存済みの資格情報から資格情報を選択できます。
認証方法としてサービスプリンシパルを選択した場合、クライアントID、クライアントシークレット、一意の表示名を入力します。
-
保存をクリックします。
必須パラメーター¶
以下の表は、Databricksとの接続を確立するために最低限必要なフィールドの一覧です。
必須フィールド | 説明 | ドキュメンテーション |
---|---|---|
サーバーのホスト名 | 接続先のサーバーのアドレス。 | Azure Databricksドキュメント |
HTTP Path | コンピューティングリソースのURL。 | Azure Databricksドキュメント |
必須フィールド | 説明 | ドキュメンテーション |
---|---|---|
サーバーのホスト名 | 接続先のサーバーのアドレス。 | AWSでのDatabricksドキュメント |
HTTP Path | コンピューティングリソースのURL。 | AWSでのDatabricksドキュメント |
SQLウェアハウスはSQLの実行専用であるため、その結果としてクラスターよりもオーバーヘッドが少なく、多くの場合はパフォーマンスが向上します。 可能な場合は、SQLウェアハウスを使用することをお勧めします。
備考
接続設定でcatalog
パラメーターが指定されている場合、ワークベンチにはそのカタログのスキーマのリストのみが表示されます。 このパラメーターを指定しないと、アクセスできるすべてのカタログがワークベンチに一覧表示されます。
トラブルシューティング¶
問題 | 解決方法 | 説明 |
---|---|---|
DataRobotで操作を実行しようとすると、ファイアウォールが毎回IPアドレスをクリアするよう要求します。 | DataRobotのホワイトリストに登録されたすべてのIPを追加します。 | ホワイトリストの送信元IPアドレスを参照してください。 ホワイトリストに登録されたIPをすでに追加している場合は、既存のIPが完全であることを確認してください。 |
機能に関する注意事項¶
ネイティブDatabricksコネクターを使用した予測はできません。 JDBCドライバーを使用してDatabricksに接続する必要があります。