Skip to content

Databricks

Databricksコネクターを使用することで、AzureまたはAWS上のDatabricksのデータにアクセスできます。

Databricksとの接続における相違点

DataRobotでDatabricksに接続する場合、選択できるオプションは3つあります。2つのJDBCドライバーとネイティブコネクターです。

DataRobotではネイティブコネクターの使用を推奨していますが、選択を行う前に以下の表を確認してください。

  接続タイプ 説明 最適な用途 サポートされていません
1 JDBCドライバー Databricksバージョン2.6.40で認定されたJDBCドライバー。 リモートデータベースへの予測の書き戻し ワークベンチでのデータの操作
2 コネクター ネイティブコネクターと、Databricksとの接続に推奨される方法。 リモートデータベースの参照、データの取込み、データの準備、ワークベンチでのデータの操作 予測の書き戻し
3 JDBCドライバー Databricksバージョン2.6.22で最後に認定された古いJDBCドライバー。 リモートデータベースへの予測の書き戻し ワークベンチでのデータの操作

サポート対象の認証

  • パーソナルアクセストークン
  • サービスプリンシパル

前提条件

DataRobotでDatabricksに接続する前に、認証用の パーソナルアクセストークンまたは サービスプリンシパルに加えて、以下が必要となります。

パーソナルアクセストークンの生成

Azure Portalアプリで、Databricksワークスペースのパーソナルアクセストークンを生成します。 このトークンは、DataRobotのDatabricksへの接続の認証に使用されます。

詳細については、Azure Databricksドキュメントを参照してください。

AWSで、Databricksワークスペースのパーソナルアクセストークンを生成します。 このトークンは、DataRobotのDatabricksへの接続の認証に使用されます。

AWSでのDatabricksドキュメントを参照してください。

サービスプリンシパルの作成

Azure Portalアプリケーションで、Databricksワークスペースのサービスプリンシパルを作成します。 結果のクライアントIDとクライアントシークレットを使用して、DataRobotで、Databricksへの接続を認証します。

詳細については、Azure Databricksドキュメントを参照してください。 リンクされた手順で、次の情報をコピーします。

  • アプリケーションID:DataRobotでの設定中に、クライアントIDフィールドに入力されました。
  • OAuthシークレット:DataRobotでの設定中に、クライアントシークレットフィールドに入力されました。

使用するデータにアクセスする権限が、サービスプリンシパルにあることを確認してください。

AWSで、Databricksワークスペースのサービスプリンシパルを作成します。 結果のクライアントIDとクライアントシークレットを使用して、DataRobotで、Databricksへの接続を認証します。

詳細については、Azure Databricksドキュメントを参照してください。

使用するデータにアクセスする権限が、サービスプリンシパルにあることを確認してください。

DataRobotでの接続の設定

DataRobotでDatabricksに接続するには(この例はAzureを使用することに注意してください):

  1. ワークベンチを開き、ユースケースを選択します。
  2. データソースに接続する手順に従ってください。
  3. 前のセクションで取得した情報を使用して、 必要な設定パラメーターを入力します。

  4. 認証で、新しい資格情報をクリックします。 次に、アクセストークンと一意の表示名を入力します。 このデータソースへの資格情報をすでに追加している場合は、保存済みの資格情報から資格情報を選択できます。

    認証方法としてサービスプリンシパルを選択した場合、クライアントID、クライアントシークレット、一意の表示名を入力します。

  5. 保存をクリックします。

必須パラメーター

以下の表は、Databricksとの接続を確立するために最低限必要なフィールドの一覧です。

必須フィールド 説明 ドキュメンテーション
サーバーのホスト名 接続先のサーバーのアドレス。 Azure Databricks documentation
HTTP Path コンピューティングリソースのURL。 Azure Databricksドキュメント
必須フィールド 説明 ドキュメンテーション
サーバーのホスト名 接続先のサーバーのアドレス。 Databricks on AWS documentation
HTTP Path コンピューティングリソースのURL。 Databricks on AWS documentation

SQLウェアハウスはSQLの実行専用であるため、その結果としてクラスターよりもオーバーヘッドが少なく、多くの場合はパフォーマンスが向上します。 可能な場合は、SQLウェアハウスを使用することをお勧めします。

備考

接続設定でcatalogパラメーターが指定されている場合、ワークベンチにはそのカタログのスキーマのリストのみが表示されます。 このパラメーターを指定しないと、アクセスできるすべてのカタログがワークベンチに一覧表示されます。

トラブルシューティング

問題 解決方法 説明
DataRobotで操作を実行しようとすると、ファイアウォールが毎回IPアドレスをクリアするよう要求します。 DataRobotのホワイトリストに登録されたすべてのIPを追加します。

機能に関する注意事項

ネイティブDatabricksコネクターを使用した予測はできません。 You must connect to Databricks using the JDBC driver.