出力オプション¶
備考
サポートされている出力オプションの詳細なリストについては、「予測バッチでサポートされているデータソース」を参照してください。
出力の場合は、以下を使用できます。
- ローカルファイルストリーミング
- S3 write
- Azure Blob Storage write
- Google Cloud Storage write
- HTTP write
- JDBC write
- Snowflake write
- Synapse write
- BigQuery write
カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。出力に表示される列は、 出力形式 に関するセクションに記載されます。
ローカルファイルストリーミング¶
ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING
状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。リクエストをするために必要なURLは、download
として、ジョブデータのlinks
セクションで使用できます。
{'elapsedTimeSec': 97,
'failedRows': 0,
'jobIntakeSize': 1150602342,
'jobOutputSize': 107791140,
'jobSpec': {'deploymentId': '5dc1a6a9865d6c004dd881ef',
'maxExplanations': 0,
'numConcurrent': 4,
'passthroughColumns': null,
'passthroughColumnsSet': null,
'predictionWarningEnabled': null,
'thresholdHigh': null,
'thresholdLow': null},
'links': {'download': 'https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/',
'self': 'https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/'},
'logs': ['Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000',
'Job started processing at 2019-11-07 18:11:49.781000',
'Job done processing at 2019-11-07 18:13:14.533000'],
'percentageCompleted': 0.0,
'scoredRows': 3000000,
'status': 'COMPLETED',
'statusDetails': 'Job done processing at 2019-11-07 18:13:14.533000'}
DataRobotのデータの取込みおよびスコアリングよりもダウンロードが高速の場合は、ダウンロードは低速に感じられることがあります。これは、DataRobotではスコアリングされたデータは到着するとすぐに(ブロックで)ストリーミングされるためです。
完全な例については、この使用例を参照してください。
S3 write¶
DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。S3に書き込むためには、アクセスキー(IDおよびキー)とオプションのセッショントークンで構成される認証情報をDataRobotで設定する必要があります。
パラメーター | 例 | 説明 |
---|---|---|
type |
s3 |
入力にS3を使用します。 |
url |
s3://bucket-name/results/scored.csv |
書き込みするファイルの絶対URL。 |
credentialId |
5e4bc5555e6e763beb9db147 |
このURLの明示的なアクセス認証情報が必要な場合は必須、そうでない場合はオプションです。認証情報を安全に保管するを参照してください。 |
AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。
備考
AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な認証情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な認証情報を指定できます。続きを読む。
Azure Blob Storage write¶
大容量ファイルのためのもう一つのスコアリングオプションは、Azureです。データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される認証情報をDataRobotで設定する必要があります。
パラメーター | 例 | 説明 |
---|---|---|
type |
azure |
入力にはAzure Blob Storageを使用します。 |
url |
https://myaccount.blob.core.windows.net/datasets/scored.csv |
書き込みするファイルの絶対URL。 |
認証情報ID | 5e4bc5555e6e763beb488dba |
このパラメータは、対象となるURLに対する明示的なアクセス認証が必要な場合は必須です(そうでない場合はオプションとなります)。 認証情報の安全な保存に関する情報を参照してください。 |
Azureの認証情報は暗号化されており、スコアリング時にAzureとの通信において、クライアントを設定する際にのみ解読されます。
Google Cloud Storage write¶
DataRobotは、Google Cloud Storageアダプターもサポートしています。データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される認証情報をDataRobotで設定する必要があります。
パラメーター | 例 | 説明 |
---|---|---|
type |
gcp |
出力にGoogle Cloud Storageを使用します。 |
url |
gcs://bucket-name/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL。 |
認証情報ID | 5e4bc5555e6e763beb488dba |
このURLに対する明示的なアクセス認証情報が必要な場合は必須です(そうでない場合はオプション)。認証情報を安全に保管するを参照にしてください。 |
GCP認証情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。
HTTP write¶
クラウドストレージアダプターに加えて、通常のURLでバッチ予測をポイントすると、DataRobotがデータをストリーミングしてスコアリングを行います。
パラメーター | 例 | 説明 |
---|---|---|
type |
http |
出力にHTTPを使用します。 |
url |
https://example.com/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL |
URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv
http
アダプターは、S3、Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。
JDBC write¶
DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。このため、バッチ予測APIは、安全に保存された認証情報を使用して外部データソースと統合されます。
outputSettings
を使用してデータソースと結果を提供し、以下の詳細を書き戻します。
outputSettings
以下のように、データソースに関する詳細と結果をに書き戻す方法を指定する必要があります。
パラメーター | 例 | 説明 |
---|---|---|
type |
jdbc |
JDBCデータストアを出力として使用します。 |
dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースID。 |
credentialId |
5e4bc5555e6e763beb9db147 |
ユーザー名とパスワードを含む保存認証情報のID。認証情報を安全に保管するを参照にしてください。 |
table |
scoring_data |
オプション。スコアリングされたデータが書き込まれるデータベース表の名前。 |
schema |
public |
オプション。スコアリングされたデータが書き込まれるスキーマの名前。 |
statementType |
update |
ステートメントタイプinsert 、update またはinsert_update |
createTableIfNotExists |
true |
オプション。既存のテーブルが検出されなかった場合は、statementType パラメータで定義された戦略でデータを書き込む前にテーブルの作成を試みます。 |
updateColumns |
['index'] |
statementType がupdate またはinsert_update に設定されたときに更新される列名を含む文字列のリスト。 |
whereColumns |
['refId'] |
statementType がupdate またはinsert に設定されたときに選択される列名を含む文字列のリスト。 |
commitInterval |
600 |
JDBCソースへのコミット間の時間間隔を秒単位で定義します。0 に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 |
備考
生成された出力形式の列名の命名規則がターゲットデータベースでサポートされていない場合は、列名の再マッピング機能を利用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます。(例:名前からスペースを削除する)
ステートメントタイプ¶
ステートメントタイプ | 説明 |
---|---|
insert |
スコアリングされたデータは、INSERT クエリーを使用して保存されます。空の表への書き込みに適しています。 |
update |
スコアリングされたデータは、UPDATE クエリーを使用して保存されます。既存の表への書き込みに適しています。updateColumns で識別された列だけが更新されます。 |
insert_update |
スコアリングされたデータは、INSERT またはUPDATE クエリーのいずれかを使用して保存されます。これは、whereColumns の列に更新に一致する行があるかどうかによって異なります。 |
create_table |
使用非推奨の警告:create_table は現在では非推奨になっています。createTableIfNotExists をTrueに設定した別のオプションを使用してください。使用された場合、スコアリングされたデータはINSERT クエリーを使用して新しいテーブルに保存されます。スコアリングの前にテーブルが存在していてはいけません。 |
ホワイトリストの送信元IPアドレス¶
DataRobotから開始される接続は、以下のIPアドレスのいずれかから発信されます:
ホスト:https://app.datarobot.com | ホスト:https://app.eu.datarobot.com |
---|---|
100.26.66.209 | 18.200.151.211 |
54.204.171.181 | 18.200.151.56 |
54.145.89.18 | 18.200.151.43 |
54.147.212.247 | 54.78.199.18 |
18.235.157.68 | 54.78.189.139 |
3.211.11.187 | 54.78.199.173 |
3.214.131.132 | |
3.89.169.252 |
これらはDataRobotの使用のためにのみ予約されています。
Snowflake write¶
outputSettings
次のようににデータソースの詳細を指定します。
パラメーター | 例 | 説明 |
---|---|---|
type |
snowflake |
アダプタータイプ。 |
dataStoreId |
5e4bc5b35e6e763beb9db14a |
SnowflakeデータソースのID。 |
externalStage |
my_s3_stage |
Snowflake外部ステージの名前。 |
table |
RESULTS |
結果を保存するSnowflakeのテーブルの名前。 |
schema |
PUBLIC |
オプション。スコアリングする表が含まれるスキーマの名前。 |
credentialId |
5e4bc5555e6e763beb9db147 |
Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。 |
cloudStorageType |
s3 |
Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。次の3つのクラウドストレージプロバイダーの1つである場合があります。s3 /azure /gcp デフォルトはs3 です |
cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 |
createTableIfNotExists |
true |
オプション。既存のテーブルが検出されない場合は、作成を試みます。 |
完全な例については、この使用例を参照してください。
Synapse write¶
Synapseをスコアリングに使用するには、にデータソースの詳細をoutputSettings
次のように入力します。
パラメーター | 例 | 説明 |
---|---|---|
type |
synapse |
アダプタータイプ。 |
dataStoreId |
5e4bc5b35e6e763beb9db14a |
SynapseデータソースのID。 |
externalDatasource |
my_data_source |
Synapse外部データソースの名前。 |
table |
RESULTS |
結果を保存するSynapseのテーブルの名前。 |
schema |
dbo |
オプション。スコアリングするテーブルを含むスキーマの名前。 |
credentialId |
5e4bc5555e6e763beb9db147 |
Synapseのユーザー名とパスワードを含む保存済み資格情報のID。 |
cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Azure Blobストレージ用の保存済み資格情報のID。 |
createTableIfNotExists |
true |
オプション。既存のテーブルが検出されない場合は、テーブルの作成を試みます。 |
完全な例については、この使用例を参照してください。
備考
Synapseは,既定のMicrosoft SQL Serverよりも少ない照合数をサポートしています。詳細については、『Synapseドキュメント』を参照してください。
BigQuery write¶
BigQueryをスコアリングに使用するには、にデータソースの詳細をoutputSettings
次のように入力します。
パラメーター | 例 | 説明 |
---|---|---|
type |
bigquery |
出力にGoogle Cloud Storageを使用して、GCSからBigQueryテーブルにデータを取り込みます。 |
dataset |
my_dataset |
使用するBigQueryデータセット |
table |
my_table |
出力に使用するデータセットのBigQueryテーブル |
bucket |
my-bucket-in-gcs |
データのロード元となるバケット |
credentialId |
5e4bc5555e6e763beb488dba |
このバケットに対する明示的なアクセス認証情報が必要な場合は必須です(そうでない場合はオプション)。認証情報の安全な保存を参照してください。 |
完全な例については、この使用例を参照してください。