Data Prep用のCloudera CDH6 HDFSコネクター¶
ユーザーペルソナ:Data Prep管理者、データソース管理者、またはIT/DevOps
本機能の提供について
このコネクターは、Data Prep SaaSのお客様はご利用いただけません。
備考
この文書は、コネクターの設定中に利用できるすべての構成フィールドについて論じています。 一部のフィールドは、設定の以前の手順で管理者によってすでに入力されている場合があり、表示されない場合があります。 Data Prepのコネクターフレームワークの詳細については、Data Prepコネクターのセットアップを参照してください。 また、管理者がこのコネクタにデータソースのリストで別の名前を付けている可能性があります。
Data Prepの設定¶
このコネクターを使用すると、HDFS クラスターに接続し、データをインポートおよびエクスポートできます。ここで設定する必要があるフィールドは、選択した認証方法(シンプルまたはKerberos)によって異なります。選択した認証の種類は、コネクター設定に基づいて作成するすべてのデータソースに適用されます。
備考
このコネクターを設定するには、Data Prepサーバー上のファイルシステムへのアクセスと、Hadoopクラスター設定のcore-site.xmlが必要です。この手順については、カスタマーサクセス担当者にお問い合わせください。
一般¶
- 名前: UIでユーザーに表示されるデータソースの名前。
- 説明:UIでユーザーに表示されるデータソースの説明。
ヒント
Data Prepを複数の HDFS クラスターに接続できます。わかりやすい名前を使用すると、ユーザーが適切なデータソースを識別する上で非常に役立ちます。
Hadoop クラスター¶
- 認証方法:シンプル認証またはKerberos認証を選択します。選択した認証の種類は、コネクター設定に基づいて作成するすべてのデータソースに適用されます。シンプル認証やKerberos認証の設定については、選択に応じて以下のセクションを参照してください。
- クラスターコアサイトXMLのパス:Webサーバー上のcore-site.xmlの完全修飾パスです。例: /path/to/core-site.xml
- クラスターHDFSサイトXMLのパス: Webサーバー上のhdfs-site.xmlの完全修飾パスです。例: /path/to/hdfs-site.xml
- Native Hadoopライブラリのパス:Webサーバー上のネイティブHadoopライブラリの完全修飾パスです。例: /path/to/libraries
シンプル構成(シンプル認証の場合のみ)¶
- ユーザー名:アプリケーションWebサーバーは、ここで指定したユーザー名でHDFSクラスターに接続します。
Kerberos認証の構成¶
Kerberosおよびハイブリッド認証には次のパラメーターが必要です。
- プリンシパル: Kerberos認証のプリンシパルです。
- レルム: Kerberos認証のレルムです。
- KDC ホスト名:Kerberos認証のキー配布センターのホスト名です。
- Kerberos認証の構成ファイル:Webサーバー上のKerberos認証の構成ファイルの完全修飾パスです。
- キータブファイル:Webサーバー上のKerberos認証のキータブ ファイルの完全修飾パスです。
- アプリケーションユーザーの使用: ログイン中のアプリケーションユーザーで読み取り、または書き込みを行う場合は、このチェックボックスをオンにし、プロキシユーザーを使用する場合は、このチェックボックスをオフにします。
- プロキシユーザー:クラスターでの認証に使用されるプロキシ。${user.name}はプロキシユーザーとして入力できます。${user.name}は[アプリケーションユーザーの使用]の選択と同様に機能しますが、より柔軟性があります。例:
- ユーザーの認証情報にドメインを追加するには、[プロキシユーザー]フィールドに\domain_name\${user.name}と入力します。Data Prepではユーザー名とドメインが渡されます。
- 例: \Accounts${user.name}はAccountsJoeになります(Joeがユーザー名であると仮定)。
- ユーザー名にテキスト修飾子を適用するには、キー${user.name}に.modifierを追加します。使用できる修飾子は ToLower、ToUpper、ToLowerCase、ToUpperCase、Trim です。
- たとえば、${user.name.toLowerCase}はJoeをjoeに変換します(Joeがユーザー名であると仮定)。
- ユーザーの認証情報にドメインを追加するには、[プロキシユーザー]フィールドに\domain_name\${user.name}と入力します。Data Prepではユーザー名とドメインが渡されます。
設定¶
- データストアのルートディレクトリ:クラスターの「親ディレクトリ」です。インポートおよびエクスポート操作で、データライブラリはこのディレクトリに対して読み書きを行います。ルートのサブディレクトリに対するインポートとエクスポートにも対応しています。
- INT96をDatetimeにマッピング:インポート時にINT96タイプのフィールドをDatetime値に変換します。
資格情報¶
- Hiveユーザー: シンプル認証でHiveへのアクセスに使用するユーザー名です。
- Hiveパスワード:シンプル認証とハイブリッド認証用にHiveへのアクセスに使用されるパスワード。
Hiveのオプション¶
- プレインポートSQL: インポート開始前に実行する、改行で区切られたSQLステートメントです。このSQLは(プレビューとインポートのために)複数回実行される可能性があり、改行で区切られた複数のSQLステートメントになることがあります。
- インポート後のSQL:インポート処理後に実行されるSQL。このSQLは(プレビューとインポートのために)複数回実行される可能性があり、改行で区切られた複数のSQLステートメントになることがあります。
備考
インポート前およびインポート後のSQLはインポートプロセス全体で複数回実行される可能性があります。インポートが実行されるたびにこの設定に基づくSQLが実行されるため、これらの値をコネクタ/データソース設定で指定するときは注意が必要です。*
- エクスポート前のSQL:エクスポートプロセスの前に実行されるSQL。このSQLは1回実行され、改行で区切られた複数のSQLステートメントになる場合があります。
- ポスト エクスポートSQL:エクスポート完了後に実行するSQLステートメントです。このSQLは1回実行され、改行で区切られた複数のSQLステートメントになる場合があります。
データインポート情報¶
ブラウジング経由¶
- 参照:
- 区切りデータセット:コンマ、タブ…
- xml
- JSON
- エクセル:XlsおよびXLSX
- Avro
- Parquet
- 固定な形式
- ファイルを参照し、インポートするファイルを選択します
- サポートされているデータ形式:
- ワイルドカード:
- グロブがサポートされています
SQLクエリー経由¶
SQL選択クエリの使用
エクスポート¶
ブラウザ経由 でインポートの下で一覧表示されているストリームベースの形式の1つを使用してサポートされます。