Skip to content

データ接続

ワークベンチでは、事前定義されたデータソースへのセキュアな接続を簡単に設定および再利用できます。これにより、DataRobotの統合データ準備機能を利用する前に、データをインタラクティブに参照、プレビュー、およびプロファイルすることが可能です。

こちらもご覧ください。

データストアとデータ接続

DataRobotでは、データストアデータ接続は同じ意味で使用され、どちらもデータの保存および管理場所と、そのデータへの動的リンクを指します。 UIでは両方の用語が表示されます。

許可対象の送信元IPアドレス

データ接続を設定する前に、送信元IPが許可されていることを確認してください。

ベクターデータベースにおけるデータコネクターの制限事項

データコネクター(GoogleドライブやSharePointなど)経由で取り込まれたデータは、ファイルレジストリに保存され、ベクターデータベース(VDB)のメタデータとして使用することはできません。 ファイルストレージに含まれるアセットはEDAプロセスによって検証されないため、すべてのメタデータファイルをデータレジストリのデータセットストレージにアップロードする必要があります。 ベクターデータベースにおいて、フィルター、アクセス制御、またはダウンストリーム取得ロジック用のメタデータが必要な場合は、メタデータがデータコネクターをソースとするのではなく、データレジストリのデータセットとして提供されていることを確認してください。

データソースへの接続

データ接続を作成すると、コネクターとJDBCドライバーの両方から外部ソースデータを探索し、それをユースケースに追加できます。 データを参照モーダルには、構造化データをサポートする接続のみが一覧表示されます。

データ接続を作成するには:

  1. データアセットタイルの右上隅にあるデータを追加 > データを参照をクリックし、データを参照モーダルを開きます。

  2. + 接続を追加をクリックします。

  3. 構造化データの追加をサポートする接続の場合は構造化、非構造化データをサポートする接続の場合は非構造化を選択します(VDBの作成時のみ利用できます)。 続いて、データストアを選択します。

    これで、 データ接続を設定できます。

接続の設定

備考

データ接続を設定する際、設定タイプ、認証オプション、必須パラメーターは、選択したデータソースに基づいています。 以下の例では、新しい資格情報を用いたOAuthでSnowflakeを設定する方法を紹介します。

データ接続を設定するには:

  1. 接続を編集モーダルで接続設定タブを選択し、パラメーターまたはJDBC URLのいずれかの設定方法を選択します。

  2. 選択した設定方法に必要なパラメーターを入力します。

  3. 新しい資格情報をクリックし、認証方法を選択します。利用可能な認証方法は選択された接続に基づきます。

    保存済みの資格情報

    以前に 選択したデータソースの資格情報を保存している場合は、資格情報を保存をクリックして、ドロップダウンから適切な資格情報を選択します。

  4. 右上隅の保存をクリックします。 ブラウザーのウィンドウが小さい場合は、上方向にスクロールする必要があります。

    認証方法としてOAuthを選択した場合、 データセットを選択する前にサインインするよう求められます。 サポートされている認証方法と必要なパラメーターの詳細については、サポートされているデータストアのリストを参照してください。

データセットを選択

データ接続の設定が完了すると、アクセスできる データベーススキーマとテーブルを参照することでデータセットを追加できます。

データセットを選択するには:

  1. 追加するテーブルに関連付けられたスキーマを選択します。

  2. 該当するテーブルの左側にあるボックスを選択します。

    データセットを選択すると、以下の操作を行うことができます。

    要素 説明
    1 ユースケースに追加 データアセットをユースケースに追加し、自分や他のチームメンバーが使用できるようにします。
    2 SQLクエリーから追加 SQLクエリーを使用してデータを追加できます。
    3 設定 列の表示、非表示、ピン留めができます。
    4 アクションメニュー 以下のアクションにアクセスできます。
    • プレビュー:スナップショットのプレビューを開き、データセットがユースケースに関連しているかどうかや、ラングラーまたはSQLエディターで修正する必要があるかどうかを判断します。
    • ラングラーで開く:ユースケースにアセットを追加する前に、データの準備を行います。
    • SQLエディターで開く:データセットを強化、変換、整形、およびブレンドするSQLクエリーで構成されたレシピを作成します。
    大規模データセット

    ユースケースに追加する前にデータセットのサイズを小さくする場合は、ラングリングをクリックします。 レシピをパブリッシュするとき、 自動ダウンサンプリングを設定して、Snowflakeが出力データセットをマテリアライズするときの行数を制御することができます。

  3. ユースケースに追加をクリックしてから、動的データ(動的データセットとして追加)またはデータセットのスナップショット(スナップショットとして追加)のいずれかを追加して、スナップショットポリシーを選択します。 データを追加せずに戻るには、閲覧を続行をクリックします。

接続の編集

既存のデータ接続をデータを参照モーダルから変更するには、該当する接続にカーソルを合わせ、編集アイコン をクリックします。 詳細については、接続の編集を参照してください。 このモーダルからは、接続の削除もできます。

ラングリングとSQLエディターのための接続サポート

DataRobotで現在サポートされているすべてのコネクターおよびJDBCドライバーに接続して、データを追加できます。 For a full list of supported data stores, see Supported data stores.

Snowflake、BigQuery、Databricksの接続ではプッシュダウンラングリングが使用され、その他のすべての接続ではSparkラングリングが使用されます。

以下の表は、各ラングリング方法でサポートされる機能をまとめたものです。

ラングリング方法 スナップショットデータセット 動的データセット ライブプレビュー ラングリング ソース内マテリアライズ
プッシュダウンラングリング:Snowflake、BigQuery、Databricks
Sparkラングリング:ローカルファイル、公開URL、およびすべてのサポートされている接続からアップロードされたスナップショット

JDBCドライバーの機能

スナップショットデータセットは、JDBCドライバーの接続からのみ追加できます。