予測の出力結果オプション¶
予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測先を設定できます。 このトピックでは、UIとAPIの両方の出力オプションについて説明します。
備考
サポートされている出力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。
| 出力オプション | 説明 |
|---|---|
| ローカルファイルストリーミング | スコアリングされたデータをURLエンドポイントを介してストリーミングし、ジョブが実行状態に移行したときにすぐにダウンロードできるようにします。 |
| HTTP write | Stream scored data to an absolute URL for writing. このオプションは、Amazon S3、Azure、およびGoogle Cloud Platformの事前署名されたURLにデータを書き込むことができます。 |
| データベース接続 | |
| JDBC write | ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、予測結果をJDBCデータソースに書き戻します。 |
| SAP Datasphereの書き込み | ジョブ定義またはバッチ予測APIを通じて提供されたデータ宛先の詳細を使用して、予測結果をSAP Datasphereデータソースに書き戻します。 |
| Trino write | Write prediction results back to a Trino database with data destination details supplied through a job definition or the Batch Prediction API. |
| クラウドストレージ接続 | |
| Azure Blob Storage write | Azure接続文字列で構成されるDataRobot資格情報を使用して、スコアリングされたデータをAzure Blob Storageに書き込みます。 |
| Google Cloud Storage write | Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。 |
| Amazon S3 write | アクセスキー(IDとキー)とセッショントークン(オプション)で構成されるDataRobot資格情報を使用して、スコアリングされたデータをパブリックまたはプライベートS3バケットに書き込みます |
| データウェアハウス接続 | |
| BigQuery write | Write prediction results to BigQuery with data destination details supplied through a job definition or the Batch Prediction API. |
| Snowflake write | Write prediction results to Snowflake with data destination details supplied through a job definition or the Batch Prediction API. |
| Azure Synapse write | Write prediction results to Synapse with data destination details supplied through a job definition or the Batch Prediction API. |
カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。 出力に表示される列は、出力形式に関するセクションに記載されます。
ローカルファイルストリーミング¶
ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。 以下のジョブデータJSONの例では、ローカルファイルストリーミングリクエストを作成するために必要なURLは、linksオブジェクトのdownloadキーで使用できます。
{
"elapsedTimeSec": 97,
"failedRows": 0,
"jobIntakeSize": 1150602342,
"jobOutputSize": 107791140,
"jobSpec": {
"deploymentId": "5dc1a6a9865d6c004dd881ef",
"maxExplanations": 0,
"numConcurrent": 4,
"passthroughColumns": null,
"passthroughColumnsSet": null,
"predictionWarningEnabled": null,
"thresholdHigh": null,
"thresholdLow": null
},
"links": {
"download": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/",
"self": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/"
},
"logs": [
"Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000",
"Job started processing at 2019-11-07 18:11:49.781000",
"Job done processing at 2019-11-07 18:13:14.533000"
],
"percentageCompleted": 0.0,
"scoredRows": 3000000,
"status": "COMPLETED",
"statusDetails": "Job done processing at 2019-11-07 18:13:14.533000"
}
DataRobotでのデータの取り込みおよびスコアリングよりもダウンロード処理の方が早い場合、DataRobotがスコアリングされたデータを到着するとすぐに(チャンクで)ストリーミングするため、ダウンロード速度が遅く感じられることがあります。
完全な例については、このユースケースを参照してください。
HTTP write¶
バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングします。
| パラメーター | 例 | 説明 |
|---|---|---|
type |
http |
出力にHTTPを使用します。 |
url |
https://example.com/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL。 |
The URL can optionally contain a username and password such as: https://username:password@example.com/datasets/scored.csv.
httpアダプターは、S3、Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。
JDBC write¶
DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。 そのため、バッチ予測APIは、安全に保存された資格情報を使用して外部データソースと統合されます。
以下の表に記載されているように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings)を使用してデータの宛先の詳細を提供します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
jdbc |
JDBCデータストアを出力として使用します。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースID。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)保存された資格情報のID。 資格情報の安全な保存を参照してください。 |
| スキーマ | schema |
public |
(オプション)スコアリングされたデータが書き込まれるスキーマの名前。 |
| 表 | table |
scoring_data |
スコアリングされたデータが書き込まれるデータベース表の名前。 |
| データベース | catalog |
output_data |
(オプション)出力データを書き込むために指定されたデータベースカタログの名前。 |
| 書き込み戦略のオプション | |||
| 書き込み戦略 | statementType |
update |
ステートメントタイプ、insert、update、またはinsertUpdate。 |
に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されなかった場合は、statementTypeパラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。 |
| 行識別子 (更新、または挿入+更新の場合) |
updateColumns |
['index'] |
(オプション)statementTypeがupdateまたinsertUpdateはに設定されたときに更新される列名を含む文字列のリスト。 |
| 行識別子 (更新、または挿入+更新の場合) |
where_columns |
['refId'] |
(オプション)statementTypeがupdateまたはinsertUpdateに設定されたときに選択される列名を含む文字列のリスト。 |
| 高度なオプション | |||
| コミット間隔 | commitInterval |
600 |
(Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
備考
ターゲットデータベースがDataRobotの出力フォーマットの列命名規則をサポートしていない場合、列名の再マッピングを使用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます(たとえば、名前からスペースを削除します)。
ステートメントタイプ¶
書き込み戦略オプションを扱う場合、状況に応じて、次のステートメントタイプを使用してデータを書き込むことができます。
| ステートメントタイプ | 説明 |
|---|---|
insert |
スコアリングされたデータ行は、新しいエントリーとしてターゲットデータベースに挿入されます。 空の表への書き込みに適しています。 |
update |
結果行の行識別子と一致するターゲットデータベース内のスコアリングされたデータエントリーは、新しい結果で更新されます(updateColumnsで識別される列)。 既存の表への書き込みに適しています。 |
insertUpdate |
結果行(where_columns)の行識別子と一致するターゲットデータベース内のエントリーは、新しい結果で更新されます(updateクエリー)。 他のすべての結果行は、新しいエントリーとして挿入されます(insertクエリー)。 |
createTable (廃止) |
DataRobotはcreateTableを推奨しなくなりました。 create_table_if_not_existsをTrueに設定した別のオプションを使用してください。 使用された場合、スコアリングされたデータはINSERTクエリーを使用して新しい表に保存されます。 The table must not exist before writing. |
許可対象の送信元IPアドレス¶
DataRobotから開始される接続は、許可されたIPアドレスから行われます。 許可対象の送信元IPアドレスで全リストをご覧ください。
SAP Datasphereの書き込み¶
プレミアム機能
SAP Datasphereのサポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:SAP Datasphereコネクターを有効にする、SAP Datasphereとバッチ予測の連携を有効にする
SAP Datasphereを使用するには、以下の表に示すように、予測 > ジョブ定義タブまたは バッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
datasphere |
出力にはSAP Datasphereデータベースを使用します。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 SAP Datasphere接続のドキュメントを参照してください。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Datasphereの保存された資格情報のID。 資格情報の安全な保存を参照してください。 |
catalog |
/ |
書き込み先のテーブルを含むデータベースカタログの名前。 | |
| スキーマ | schema |
public |
書き込み先のテーブルを含むデータベーススキーマの名前。 |
| 表 | table |
scoring_data |
書き込み先のデータを含むデータベーステーブルの名前。 UIで、テーブルを選択するか、テーブルを作成するをクリックします。 |
Trino write¶
To use Trino, supply data destination details using the Predictions > Job Definitions tab or the Batch Prediction API (outputSettings) as described in the table below.
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
trino |
Use a Trino database for output. |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 |
| + Credentials | credentialId |
5e96092ef7e8773ddbdbabed |
The credentials to use for the external Trino database connection. |
| カタログ | catalog |
starburst_catalog |
The Trino database catalog to store the output table. |
| スキーマ | schema |
analytics |
The Trino schema to store the output table. |
| 表 | table |
prediction_results |
The Trino table in which to write output data. |
Trino column name case requirement
Use lowercase only for column names in the dataset used to train a project. Trino sanitizes column names automatically (unquoted identifiers are lowercased), so mixed-case or uppercase column names can cause column inconsistency errors when reading from Trino for batch scoring. This applies even when creating tables with quoted column names—Trino still stores them as lowercase. For more information, see trinodb/trino#17.
Azure Blob Storage write¶
Azure Blob Storageは、大容量ファイルを書き込むためのオプションです。 データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される資格情報をDataRobotで設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
azure |
出力にはAzure Blob Storageを使用します。 |
| URL | url |
https://myaccount.blob.core.windows.net/datasets/scored.csv |
書き込みするファイルの絶対URL。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 資格情報の安全な保存を参照してください。 |
Azure credentials are encrypted and only decrypted when used to set up the client for communication with Azure when writing.
Google Cloud Storage write¶
DataRobotは、Google Cloud Storageアダプターをサポートしています。 データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
gcp |
出力にGoogle Cloud Storageを使用します。 |
| URL | url |
gcs://bucket-name/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。資格情報の安全な保存を参照してください。 |
GCP credentials are encrypted and are only decrypted when used to set up the client for communication with GCP when writing.
Amazon S3 write¶
DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。 S3に書き込むためには、アクセスキー(IDおよびキー)とオプションのセッショントークンで構成される資格情報をDataRobotで設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
s3 |
出力にS3を使用します。 |
| URL | url |
s3://bucket-name/results/scored.csv |
書き込みするファイルの絶対URL。 DataRobotは、クラウドからクラウドへのスコアリングの場合、ディレクトリのスコアリングのみをサポートします。 入力にはS3(または他のクラウドプロバイダー)のディレクトリを、出力には/で終わるディレクトリを指定します。 この設定を使うと、入力ディレクトリのすべてのファイルがスコアリングされ、その結果が元のファイル名で出力ディレクトリに書き込まれます。 入力と出力に1つのファイルを指定すると、ジョブが実行されるたびにファイルが上書きされます。 ファイルを上書きしたくない場合は、s3://bucket-name/results/scored_{{ current_run_time }}.csvのようなファイル名テンプレートを指定します。 ドキュメントでテンプレート変数の定義を確認できます。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb9db147 |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
| 高度なオプション | |||
| エンドポイントURL | endpointUrl |
https://s3.us-east-1.amazonaws.com |
(オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 |
AWS credentials are encrypted and only decrypted when used to set up the client for communication with AWS when writing.
備考
AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSの記事IAMインスタンスプロファイルの作成を参照してください。
BigQuery write¶
BigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
bigquery |
出力にGoogle Cloud Storageを使用して、GCSからBigQuery表にデータを取り込みます。 |
| データセット | dataset |
my_dataset |
使用するBigQueryデータセット |
| 表 | table |
my_table |
出力に使用するデータセットのBigQuery表。 |
| バケット名 | bucket |
my-bucket-in-gcs |
BiqQuery表にロードまたはBiqQuery表からアンロードするためにデータファイルが保存されるGCPバケット。 |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。 資格情報の安全な保存を参照してください。 |
BigQuery出力の書き込み戦略
BigQuery出力の書き込み戦略はinsertです。 最初に、出力アダプターはBigQueryテーブルが存在するかどうかを確認します。 テーブルが存在する場合、データが挿入されます。 テーブルが存在しない場合、テーブルが作成され、データが挿入されます。
完全なAPI例については、例セクションを参照してください。
Snowflake write¶
Snowflakeを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
snowflake |
アダプタータイプ。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SnowflakeデータソースのID。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)Snowflakeの保存された資格情報のID。 |
| 表 | table |
RESULTS |
結果を保存するSnowflakeの表の名前。 |
| スキーマ | schema |
PUBLIC |
(Optional) The name of the schema containing the table where results are written. |
| データベース | catalog |
OUTPUT |
(オプション)出力データを書き込むために指定されたデータベースカタログの名前。 |
| 外部ステージオプションを使用する | |||
| クラウドストレージタイプ | cloudStorageType |
s3 |
(オプション)Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3/azure/gcp。 デフォルト設定ではs3が指定されています。 |
| 外部ステージ | externalStage |
my_s3_stage |
Snowflakeの外部ステージ。 UIで、外部ステージを使用を選択して、外部ステージフィールドを有効にします。 |
| エンドポイントURL(S3のみ) | endpointUrl |
https://www.example.com/datasets/ |
(オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 UIで、クラウドストレージタイプのS3オプションについて、詳細オプションを表示をクリックしてエンドポイントURLフィールドを表示します。 |
| + 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
(オプション)Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 |
| 書き込み戦略のオプション(フォールバックJDBC接続用) | |||
| 書き込み戦略 | statementType |
insert |
Snowflake外部ステージを使用している場合statementTypeはinsertです。 ただし、UIには2つの設定オプションがあります。
|
が存在しない場合は表を作成する(挿入用) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されない場合は、作成を試みます。 |
| 高度なオプション | |||
| コミット間隔 | commitInterval |
600 |
(Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
完全なAPI例については、例セクションを参照してください。
Azure Synapse write¶
Azure Synapseを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| 宛先タイプ | type |
synapse |
アダプタータイプ。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SynapseデータソースのID。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)Synapseの保存された資格情報のID。 |
| 表 | table |
RESULTS |
結果を保存するSynapseの表の名前。 |
| スキーマ | schema |
dbo |
(Optional) Name of the schema containing the table where results are written. |
| 外部ステージオプションを使用する | |||
| 外部データソース | externalDatasource |
my_data_source |
Synapseで外部データソース用に作成された識別子の名前。 |
| + 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
(オプション)Azure Blobストレージ用の保存済み資格情報のID。 |
| 書き込み戦略のオプション(フォールバックJDBC接続用) | |||
| 書き込み戦略 | statementType |
insert |
Synapse外部ステージを使用している場合statementTypeはinsertです。 ただし、UIには2つの設定オプションがあります。
|
に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されなかった場合は、statementTypeパラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。 |
| 表が存在しない場合は作成する | create_table_if_not_exists |
true |
(オプション)既存の表が検出されない場合は、表の作成を試みます。 |
| 高度なオプション | |||
| コミット間隔 | commitInterval |
600 |
(Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
完全なAPI例については、例セクションを参照してください。