DataRobot APIのリソース > APIリファレンスドキュメント > バッチ予測API > 予測の出力結果オプション

予測の出力結果オプション¶

予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測先を設定できます。このトピックでは、UIとAPIの両方の出力オプションについて説明します。

備考

サポートされている出力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。

出力オプション	説明
ローカルファイルストリーミング	スコアリングされたデータをURLエンドポイントを介してストリーミングし、ジョブが実行状態に移行したときにすぐにダウンロードできるようにします。
HTTP write	スコアリングのために絶対URLに書き込むデータをストリーミングします。このオプションは、Amazon S3、Azure、およびGoogle Cloud Platformの事前署名されたURLにデータを書き込むことができます。
データベース接続
JDBC write	ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、予測結果をJDBCデータソースに書き戻します。
SAP Datasphereの書き込み	ジョブ定義またはバッチ予測APIを通じて提供されたデータ宛先の詳細を使用して、予測結果をSAP Datasphereデータソースに書き戻します。
クラウドストレージ接続
Azure Blob Storage write	Azure接続文字列で構成されるDataRobot資格情報を使用して、スコアリングされたデータをAzure Blob Storageに書き込みます。
Google Cloud Storage write	Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
Amazon S3 write	アクセスキー（IDとキー）とセッショントークン（オプション）で構成されるDataRobot資格情報を使用して、スコアリングされたデータをパブリックまたはプライベートS3バケットに書き込みます
データウェアハウス接続
BigQuery write	ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、BigQueryでデータをスコアリングします。
Snowflake write	ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、Snowflakeでデータをスコアリングします。
Azure Synapse write	ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、Synapseでデータをスコアリングします。

カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。出力に表示される列は、出力形式に関するセクションに記載されます。

ローカルファイルストリーミング¶

ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。以下のジョブデータJSONの例では、ローカルファイルストリーミングリクエストを作成するために必要なURLは、linksオブジェクトのdownloadキーで使用できます。


{
  "elapsedTimeSec": 97,
  "failedRows": 0,
  "jobIntakeSize": 1150602342,
  "jobOutputSize": 107791140,
  "jobSpec": {
    "deploymentId": "5dc1a6a9865d6c004dd881ef",
    "maxExplanations": 0,
    "numConcurrent": 4,
    "passthroughColumns": null,
    "passthroughColumnsSet": null,
    "predictionWarningEnabled": null,
    "thresholdHigh": null,
    "thresholdLow": null
  },
  "links": {
    "download": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/",
    "self": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/"
  },
  "logs": [
    "Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000",
    "Job started processing at 2019-11-07 18:11:49.781000",
    "Job done processing at 2019-11-07 18:13:14.533000"
  ],
  "percentageCompleted": 0.0,
  "scoredRows": 3000000,
  "status": "COMPLETED",
  "statusDetails": "Job done processing at 2019-11-07 18:13:14.533000"
}

DataRobotでのデータの取り込みおよびスコアリングよりもダウンロード処理の方が早い場合、DataRobotがスコアリングされたデータを到着するとすぐに（チャンクで）ストリーミングするため、ダウンロード速度が遅く感じられることがあります。

完全な例については、このユースケースを参照してください。

HTTP write¶

バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングします。

パラメーター	例	説明
`type`	`http`	出力にHTTPを使用します。
`url`	`https://example.com/datasets/scored.csv`	ファイルが書き込まれた場所を指定する絶対URL。

URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv

httpアダプターは、S3、Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。

JDBC write¶

DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。そのため、バッチ予測APIは、安全に保存された資格情報を使用して外部データソースと統合されます。

以下の表に記載されているように、予測 > ジョブ定義タブまたはバッチ予測API（outputSettings）を使用してデータの宛先の詳細を提供します。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`jdbc`	JDBCデータストアを出力として使用します。
データ接続オプション
+ 接続を選択する	`dataStoreId`	`5e4bc5b35e6e763beb9db14a`	外部データソースID。
資格情報を入力してください	`credentialId`	`5e4bc5555e6e763beb9db147`	（オプション）保存された資格情報のID。資格情報の安全な保存を参照してください。
スキーマ	`schema`	`public`	（オプション）スコアリングされたデータが書き込まれるスキーマの名前。
表	`table`	`scoring_data`	スコアリングされたデータが書き込まれるデータベース表の名前。
データベース	`catalog`	`output_data`	（オプション）出力データを書き込むために指定されたデータベースカタログの名前。
書き込み戦略のオプション
書き込み戦略	`statementType`	`update`	ステートメントタイプ、`insert`、`update`、または`insertUpdate`。
に存在しない場合は表を作成する（挿入、または挿入 + 更新の場合）	`create_table_if_not_exists`	`true`	（オプション）既存の表が検出されなかった場合は、`statementType`パラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。
行識別子（更新、または挿入+更新の場合）	`updateColumns`	`['index']`	（オプション）`statementType`が`update`また`insertUpdate`はに設定されたときに更新される列名を含む文字列のリスト。
行識別子（更新、または挿入+更新の場合）	`where_columns`	`['refId']`	（オプション）`statementType`が`update`または`insertUpdate`に設定されたときに選択される列名を含む文字列のリスト。
高度なオプション
コミット間隔	`commitInterval`	`600`	（オプション）JDBCソースへのコミット間の時間間隔を秒単位で定義します。 `0`に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。デフォルト：`600`

備考

ターゲットデータベースがDataRobotの出力フォーマットの列命名規則をサポートしていない場合、列名の再マッピングを使用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます（たとえば、名前からスペースを削除します）。

ステートメントタイプ¶

書き込み戦略オプションを扱う場合、状況に応じて、次のステートメントタイプを使用してデータを書き込むことができます。

ステートメントタイプ	説明
`insert`	スコアリングされたデータ行は、新しいエントリーとしてターゲットデータベースに挿入されます。空の表への書き込みに適しています。
`update`	結果行の行識別子と一致するターゲットデータベース内のスコアリングされたデータエントリーは、新しい結果で更新されます（`updateColumns`で識別される列）。既存の表への書き込みに適しています。
`insertUpdate`	結果行（`where_columns`）の行識別子と一致するターゲットデータベース内のエントリーは、新しい結果で更新されます（`update`クエリー）。他のすべての結果行は、新しいエントリーとして挿入されます（`insert`クエリー）。
`createTable` (廃止)	DataRobotは`createTable`を推奨しなくなりました。 `create_table_if_not_exists`を`True`に設定した別のオプションを使用してください。使用された場合、スコアリングされたデータは`INSERT`クエリーを使用して新しい表に保存されます。スコアリングの前に表が存在していてはいけません。

許可対象の送信元IPアドレス¶

DataRobotから開始される接続は、以下のIPアドレスのいずれかから行われます。

ホスト：https://app.datarobot.com	ホスト：https://app.eu.datarobot.com	ホスト：https://app.jp.datarobot.com
100.26.66.209	18.200.151.211	52.199.145.51
54.204.171.181	18.200.151.56	52.198.240.166
54.145.89.18	18.200.151.43	52.197.6.249
54.147.212.247	54.78.199.18
18.235.157.68	54.78.189.139
3.211.11.187	54.78.199.173
52.1.228.155	18.200.127.104
3.224.51.250	34.247.41.18
44.208.234.185	99.80.243.135
3.214.131.132	63.34.68.62
3.89.169.252	34.246.241.45
3.220.7.239	52.48.20.136
52.44.188.255
3.217.246.191

備考

これらのIPアドレスは、DataRobot使用のためにのみ予約されています。

SAP Datasphereの書き込み¶

プレミアム機能

SAP Datasphereのサポートは、デフォルトではオフになっています。この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ：SAP Datasphereコネクターを有効にする、SAP Datasphereとバッチ予測の連携を有効にする

SAP Datasphereを使用するには、以下の表に示すように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。

UIフィールド	パラメーター	例	説明
ソースタイプ	`type`	`datasphere`	出力にはSAP Datasphereデータベースを使用します。
データ接続オプション
+ 接続を選択する	`dataStoreId`	`5e4bc5b35e6e763beb9db14a`	外部データソースのID。 UIで、データ接続を選択するか、新しいデータ接続の追加をクリックします。 SAP Datasphere接続のドキュメントを参照してください。
資格情報を入力してください	`credentialId`	`5e4bc5555e6e763beb9db147`	Datasphereの保存された資格情報のID。資格情報の安全な保存を参照してください。
	`catalog`	`/`	書き込み先のテーブルを含むデータベースカタログの名前。
スキーマ	`schema`	`public`	書き込み先のテーブルを含むデータベーススキーマの名前。
表	`table`	`scoring_data`	書き込み先のデータを含むデータベーステーブルの名前。 UIで、テーブルを選択するか、テーブルを作成するをクリックします。

Azure Blob Storage write¶

Azure Blob Storageは、大容量ファイルを書き込むためのオプションです。データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される資格情報をDataRobotで設定する必要があります。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`azure`	出力にはAzure Blob Storageを使用します。
URL	`url`	`https://myaccount.blob.core.windows.net/datasets/scored.csv`	書き込みするファイルの絶対URL。
形式	`format`	`csv`	（オプション）CSV（`csv`）またはParquet（`parquet`）を選択。デフォルト値：CSV
+ 資格情報を追加	credentialId	`5e4bc5555e6e763beb488dba`	UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。このURLに対する明示的なアクセス資格情報が必要な場合は必須です（そうでない場合はオプション）。資格情報の安全な保存を参照してください。

Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信において、クライアントを設定する際にのみ解読されます。

Google Cloud Storage write¶

DataRobotは、Google Cloud Storageアダプターをサポートしています。データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`gcp`	出力にGoogle Cloud Storageを使用します。
URL	`url`	`gcs://bucket-name/datasets/scored.csv`	ファイルが書き込まれた場所を指定する絶対URL。
形式	`format`	`csv`	（オプション）CSV（`csv`）またはParquet（`parquet`）を選択。デフォルト値：CSV
+ 資格情報を追加	`credentialId`	`5e4bc5555e6e763beb488dba`	このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。資格情報の安全な保存を参照してください。

GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。

Amazon S3 write¶

DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。 S3に書き込むためには、アクセスキー（IDおよびキー）とオプションのセッショントークンで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`s3`	出力にS3を使用します。
URL	`url`	`s3://bucket-name/results/scored.csv`	書き込みするファイルの絶対URL。 DataRobotは、クラウドからクラウドへのスコアリングの場合、ディレクトリのスコアリングのみをサポートします。入力にはS3（または他のクラウドプロバイダー）のディレクトリを、出力には`/`で終わるディレクトリを指定します。この設定を使うと、入力ディレクトリのすべてのファイルがスコアリングされ、その結果が元のファイル名で出力ディレクトリに書き込まれます。入力と出力に1つのファイルを指定すると、ジョブが実行されるたびにファイルが上書きされます。ファイルを上書きしたくない場合は、`s3://bucket-name/results/scored_{{ current_run_time }}.csv`のようなファイル名テンプレートを指定します。ドキュメントでテンプレート変数の定義を確認できます。
形式	`format`	`csv`	（オプション）CSV（`csv`）またはParquet（`parquet`）を選択。デフォルト値：CSV
+ 資格情報を追加	`credentialId`	`5e4bc5555e6e763beb9db147`	UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。資格情報の安全な保存を参照してください。
高度なオプション
エンドポイントURL	`endpointUrl`	`https://s3.us-east-1.amazonaws.com`	（オプション）APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。

AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。

備考

AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。詳細については、AWSの記事IAMインスタンスプロファイルの作成を参照してください。

BigQuery write¶

BigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API（outputSettings）を使用してデータの宛先の詳細を指定します。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`bigquery`	出力にGoogle Cloud Storageを使用して、GCSからBigQuery表にデータを取り込みます。
データセット	`dataset`	`my_dataset`	使用するBigQueryデータセット
表	`table`	`my_table`	出力に使用するデータセットのBigQuery表。
バケット名	`bucket`	`my-bucket-in-gcs`	BiqQuery表にロードまたはBiqQuery表からアンロードするためにデータファイルが保存されるGCPバケット。
+ 資格情報を追加	`credentialId`	`5e4bc5555e6e763beb488dba`	このバケットに対する明示的なアクセス資格情報が必要な場合は必須です（そうでない場合はオプション）。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。資格情報の安全な保存を参照してください。

BigQuery出力の書き込み戦略

BigQuery出力の書き込み戦略はinsertです。最初に、出力アダプターはBigQueryテーブルが存在するかどうかを確認します。テーブルが存在する場合、データが挿入されます。テーブルが存在しない場合、テーブルが作成され、データが挿入されます。

完全なAPI例については、例セクションを参照してください。

Snowflake write¶

Snowflakeを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API（outputSettings）を使用してデータの宛先の詳細を指定します。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`snowflake`	アダプタータイプ。
データ接続オプション
+ 接続を選択する	`dataStoreId`	`5e4bc5b35e6e763beb9db14a`	SnowflakeデータソースのID。
資格情報を入力してください	`credentialId`	`5e4bc5555e6e763beb9db147`	（オプション）Snowflakeの保存された資格情報のID。
表	`table`	`RESULTS`	結果を保存するSnowflakeの表の名前。
スキーマ	`schema`	`PUBLIC`	（オプション）スコアリングする表が含まれるスキーマの名前。
データベース	`catalog`	`OUTPUT`	（オプション）出力データを書き込むために指定されたデータベースカタログの名前。
外部ステージオプションを使用する
クラウドストレージタイプ	`cloudStorageType`	`s3`	（オプション）Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。次の3つのクラウドストレージプロバイダーの1つである場合があります。 `s3`/`azure`/`gcp`。デフォルト設定では`s3`が指定されています。
外部ステージ	`externalStage`	`my_s3_stage`	Snowflakeの外部ステージ。 UIで、外部ステージを使用を選択して、外部ステージフィールドを有効にします。
エンドポイントURL（S3のみ）	`endpointUrl`	`https://www.example.com/datasets/`	（オプション）APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 UIで、クラウドストレージタイプのS3オプションについて、詳細オプションを表示をクリックしてエンドポイントURLフィールドを表示します。
+ 資格情報を追加	`cloudStorageCredentialId`	`6e4bc5541e6e763beb9db15c`	（オプション）Snowflakeステージで使用するストレージバックエンド（S3/Azure/GCS）の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。
書き込み戦略のオプション（フォールバックJDBC接続用）
書き込み戦略	`statementType`	`insert`	Snowflake外部ステージを使用している場合`statementType`は`insert`です。ただし、UIには2つの設定オプションがあります。外部ステージを設定していない場合、接続はデフォルトでJDBCになり、挿入または更新を選択できます。
が存在しない場合は表を作成する（挿入用）	`create_table_if_not_exists`	`true`	（オプション）既存の表が検出されない場合は、作成を試みます。
高度なオプション
コミット間隔	`commitInterval`	`600`	（オプション）JDBCソースへのコミット間の時間間隔を秒単位で定義します。 `0`に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。デフォルト：`600`

完全なAPI例については、例セクションを参照してください。

Azure Synapse write¶

Azure Synapseを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API（outputSettings）を使用してデータの宛先の詳細を指定します。

UIフィールド	パラメーター	例	説明
宛先タイプ	`type`	`synapse`	アダプタータイプ。
データ接続オプション
+ 接続を選択する	`dataStoreId`	`5e4bc5b35e6e763beb9db14a`	SynapseデータソースのID。
資格情報を入力してください	`credentialId`	`5e4bc5555e6e763beb9db147`	（オプション）Synapseの保存された資格情報のID。
表	`table`	`RESULTS`	結果を保存するSynapseの表の名前。
スキーマ	`schema`	`dbo`	（オプション）スコアリングする表を含むスキーマの名前。
外部ステージオプションを使用する
外部データソース	`externalDatasource`	`my_data_source`	Synapseで外部データソース用に作成された識別子の名前。
+ 資格情報を追加	`cloudStorageCredentialId`	`6e4bc5541e6e763beb9db15c`	（オプション）Azure Blobストレージ用の保存済み資格情報のID。
書き込み戦略のオプション（フォールバックJDBC接続用）
書き込み戦略	`statementType`	`insert`	Synapse外部ステージを使用している場合`statementType`は`insert`です。ただし、UIには2つの設定オプションがあります。外部ステージを設定していない場合、接続はデフォルトでJDBCになり、挿入、更新、または挿入 + 更新を選択できます。
に存在しない場合は表を作成する（挿入、または挿入 + 更新の場合）	`create_table_if_not_exists`	`true`	（オプション）既存の表が検出されなかった場合は、`statementType`パラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。
表が存在しない場合は作成する	`create_table_if_not_exists`	`true`	（オプション）既存の表が検出されない場合は、表の作成を試みます。
高度なオプション
コミット間隔	`commitInterval`	`600`	（オプション）JDBCソースへのコミット間の時間間隔を秒単位で定義します。 `0`に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。デフォルト：`600`

完全なAPI例については、例セクションを参照してください。

このページは役に立ちましたか？

ありがとうございます。どのような点が役に立ちましたか？

より良いコンテンツを提供するには、どうすればよいでしょうか？

アンケートにご協力いただき、ありがとうございました。