Data Prep用のAmazon Redshiftコネクター¶
ユーザーペルソナ:Data Prepユーザー、Data Prep管理者、IT/DvOps
備考
この文書は、コネクターの設定中に利用できるすべての構成フィールドについて論じています。 一部のフィールドは、設定の以前の手順で管理者によってすでに入力されている場合があり、表示されない場合があります。 Data Prepのコネクターフレームワークの詳細については、Data Prepコネクターのセットアップを参照してください。 また、管理者がこのコネクタにデータソースのリストで別の名前を付けている可能性があります。
Data Prepの設定¶
このコネクターを使用すると、インポートおよびエクスポートソースとしてAmazon Redshiftに接続できます。次のフィールドを使用して、接続パラメーターを定義します。
一般¶
- 名前: UIでユーザーに表示されるデータソースの名前。
- 説明:UIでユーザーに表示されるデータソースの説明。
ヒント
あなたは複数のRedshiftのデータウェアハウスへのデータ準備を接続することができます。わかりやすい名前を使用すると、ユーザーが適切なデータソースを識別する上で非常に役立ちます。
データベース URL¶
- JDBCのURL:JDBC接続文字列。URLにデータベース名を含めることができます。
- JDBC URLの例:jdbc:redshift://examplecluster.abc123xyz789_._us-west-2.redshift.amazonaws.com:5439/dev?ssl=true
- 接続文字列オプションの詳細については、このAWSドキュメントを参照してください。
可視性の設定¶
インポート中にユーザーがデータソースを参照するときに表示されるデータベース、スキーマ、およびテーブルを制御できます。データベース、スキーマ、およびテーブルの場合、次のいずれかを選択できます。
- [表示のみ]ここで指定したデータベース、スキーマ、またはテーブルだけが返されます。
- [非表示]:ここで指定したデータベース、スキーマ、テーブルが非表示になります。
- [すべて表示]:データソース内のすべてを表示するデフォルト設定です。
[表示のみ]または[非表示]オプションを選択すると、オプションを適用するデータベース、スキーマ、またはテーブルを指定するフィールドが表示されます。
備考
これらの設定は、ユーザーがデータソースに対してクエリーを実行する場合は適用されません。クエリー結果は、一致の完全なリストを返します。たとえば、特定のデータベースを[非表示]にした場合でも、ユーザーはそのデータベース内のテーブルからデータをプルするクエリーを実行できます。ただし、そのデータベースは、ユーザーがデータソースを参照するときに表示されません。
インポート設定¶
-
インポート前のSQL: テーブルのスキーマを決定した後、インポートの開始前に実行するSQLステートメントです。
-
インポート後のSQL:インポートの完了後に実行するSQLステートメントです。
エクスポート設定¶
- エクスポート前のSQL:自動作成が有効になっている場合、テーブルの作成後、エクスポートの開始前に実行するSQLステートメント。
- エクスポート後のSQL:エクスポートの完了後に実行するSQLステートメント。
Redshift資格情報¶
ユーザー認証は、共有アカウントまたは個人アカウントを介して行うことができます。選択に応じて、次のフィールドが必須です。
- 個人アカウント:
- ユーザー:データベースへの認証に使用される個人アカウントのユーザー名です。
- パスワード:データベースへの認証に使用される個人アカウントのパスワードです。
- 共有アカウント:
- ユーザー:データベースへの認証に使用される共有アカウントのユーザー名です。
- パスワード:データベースへの認証に使用される共有アカウントのパスワードです。
- ロール:このデータベースにロールが実装されている場合、このユーザーロールを持つ認証済みユーザーは、認証後にクエリーを実行できます。
Amazon S3 クライアントの設定¶
- S3 を使用するエクスポートの指定:このオプションでは、コネクターによって Redshift にデータをエクスポートする際、データをまず Amazon S3 にアップロードしてから Redshift にコピーするのか、あるいは Redshift に直接データを挿入するのかを指定します。
- S3 を使用してエクスポート: データをAmazon S3 にアップロードしてから Redshift にコピーします。これは、よりパフォーマンスの高いエクスポートを可能にするため、大規模なデータセットに推奨されるアプローチです。
- バケット名: ー>: Amazon S3 に保存されたオブジェクトのコレクションを表す S3 バケットの名称です。
- プレフィックス:指定されたプレフィックスで始まるキーのみに結果を制限します。
- ソケットタイムアウトの秒数: 確立された S3 接続からの応答があるまで待機する秒数です。デフォルト値は5分で、大きなファイルのエクスポートを処理するには増やす必要がある場合があります。
- SQLのInsertステートメントを使用してエクスポート:コネクターはRedshiftに直接データを挿入します。このオプションを使用すると、エクスポートが遅くなります。Redshiftからのインポートのみを実行する予定の場合は、このオプションを選択すると、S3アカウントの詳細を入力する必要がなくなります。
備考
コネクターには、バケットに対するs3:ListBucket権限が必要です。バケットのコンテンツには、s3:ListBucket、s3:GetObject、(エクスポートの場合のみ)s3:PutObject 権限が必要です。さらに、バケットポリシーにSourceIP条件ブロックが指定されている場合は、Data Prepサーバーと自動化ジョブの実行に使用するサーバーのIPアドレスを含める必要があります。
詳細については、AmazonS3コネクタのセットアップを参照してください。
Amazon S3 認証の設定¶
- AAWS資格情報:アクセスキーIDとシークレットキーはユーザーのAWSアクセスキーに関連付けられています。
- インスタンスプロファイル(IAMロール):追加フィールドは不要です。
詳細については、AWSのセキュリティ認証を参照してください。
Webプロキシ¶
プロキシサーバーを介してAmazon Redshiftに接続する場合、これらのフィールドでプロキシの詳細を定義します。
- Web プロキシ: プロキシが不要な場合は [なし]、プロキシ サーバー経由で Amazon Redshift RESTエンドポイントに接続する必要がある場合は [プロキシ] を選択します。Webプロキシサーバーが必要な場合、プロキシ接続を有効にするには以下のフィールドが必要です。
- プロキシホスト:Web プロキシ サーバーのホスト名または IP アドレスです。
- プロキシポート:データソースのプロキシサーバー上のポートです。
- プロキシユーザー名:プロキシ サーバーのユーザー名です。
- プロキシパスワード:プロキシサーバーのパスワードです。 *認証されていないプロキシ接続の場合は、ユーザー名とパスワードを空欄にしてください。
データのインポート/エクスポート情報¶
ブラウジング経由¶
上で選択したデータベース、スキーマ、およびテーブルの可視性設定と、指定されたユーザー資格情報に基づき、ブラウジングエクスペリエンスは異なります。
SQLクエリー経由¶
可視性のセクションで説明したように、ユーザーがクエリを介してインポートできるものへの制限は、接続に指定された資格情報で判断される承認にのみ制限されます。