Skip to content

予測の出力結果オプション

予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測先を設定できます。 このトピックでは、UIとAPIの両方の出力オプションについて説明します。

備考

サポートされている出力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。

出力オプション 説明
ローカルファイルストリーミング スコアリングされたデータをURLエンドポイントを介してストリーミングし、ジョブが実行状態に移行したときにすぐにダウンロードできるようにします。
HTTP write Stream scored data to an absolute URL for writing. このオプションは、Amazon S3、Azure、およびGoogle Cloud Platformの事前署名されたURLにデータを書き込むことができます。
データベース接続
JDBC write ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、予測結果をJDBCデータソースに書き戻します。
SAP Datasphereの書き込み ジョブ定義またはバッチ予測APIを通じて提供されたデータ宛先の詳細を使用して、予測結果をSAP Datasphereデータソースに書き戻します。
Trino write Write prediction results back to a Trino database with data destination details supplied through a job definition or the Batch Prediction API.
クラウドストレージ接続
Azure Blob Storage write Azure接続文字列で構成されるDataRobot資格情報を使用して、スコアリングされたデータをAzure Blob Storageに書き込みます。
Google Cloud Storage write Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
Amazon S3 write アクセスキー(IDとキー)とセッショントークン(オプション)で構成されるDataRobot資格情報を使用して、スコアリングされたデータをパブリックまたはプライベートS3バケットに書き込みます
データウェアハウス接続
BigQuery write Write prediction results to BigQuery with data destination details supplied through a job definition or the Batch Prediction API.
Snowflake write Write prediction results to Snowflake with data destination details supplied through a job definition or the Batch Prediction API.
Azure Synapse write Write prediction results to Synapse with data destination details supplied through a job definition or the Batch Prediction API.

カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。 出力に表示される列は、出力形式に関するセクションに記載されます。

ローカルファイルストリーミング

ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。 以下のジョブデータJSONの例では、ローカルファイルストリーミングリクエストを作成するために必要なURLは、linksオブジェクトのdownloadキーで使用できます。

{
  "elapsedTimeSec": 97,
  "failedRows": 0,
  "jobIntakeSize": 1150602342,
  "jobOutputSize": 107791140,
  "jobSpec": {
    "deploymentId": "5dc1a6a9865d6c004dd881ef",
    "maxExplanations": 0,
    "numConcurrent": 4,
    "passthroughColumns": null,
    "passthroughColumnsSet": null,
    "predictionWarningEnabled": null,
    "thresholdHigh": null,
    "thresholdLow": null
  },
  "links": {
    "download": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/",
    "self": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/"
  },
  "logs": [
    "Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000",
    "Job started processing at 2019-11-07 18:11:49.781000",
    "Job done processing at 2019-11-07 18:13:14.533000"
  ],
  "percentageCompleted": 0.0,
  "scoredRows": 3000000,
  "status": "COMPLETED",
  "statusDetails": "Job done processing at 2019-11-07 18:13:14.533000"
} 

DataRobotでのデータの取り込みおよびスコアリングよりもダウンロード処理の方が早い場合、DataRobotがスコアリングされたデータを到着するとすぐに(チャンクで)ストリーミングするため、ダウンロード速度が遅く感じられることがあります。

完全な例については、このユースケースを参照してください。

HTTP write

バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングします。

パラメーター 説明
type http 出力にHTTPを使用します。
url https://example.com/datasets/scored.csv ファイルが書き込まれた場所を指定する絶対URL。

The URL can optionally contain a username and password such as: https://username:password@example.com/datasets/scored.csv.

httpアダプターは、S3Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。

JDBC write

DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。 そのため、バッチ予測APIは、安全に保存された資格情報を使用して外部データソースと統合されます。

以下の表に記載されているように、予測 > ジョブ定義タブまたはバッチ予測APIoutputSettings)を使用してデータの宛先の詳細を提供します。

UIフィールド パラメーター 説明
宛先タイプ type jdbc JDBCデータストアを出力として使用します。
Data connection parameters
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースID。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 (オプション)保存された資格情報のID。 資格情報の安全な保存を参照してください。
スキーマ schema public (オプション)スコアリングされたデータが書き込まれるスキーマの名前。
table scoring_data スコアリングされたデータが書き込まれるデータベース表の名前。
データベース catalog output_data (オプション)出力データを書き込むために指定されたデータベースカタログの名前。
書き込み戦略のオプション
書き込み戦略 statementType update ステートメントタイプ、insertupdate、またはinsertUpdate

に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合)
create_table_if_not_exists true (オプション)既存の表が検出されなかった場合は、statementTypeパラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。
行識別子
(更新、または挿入+更新の場合)
updateColumns ['index'] (オプション)statementTypeupdateまたinsertUpdateはに設定されたときに更新される列名を含む文字列のリスト。
行識別子
(更新、または挿入+更新の場合)
where_columns ['refId'] (オプション)statementTypeupdateまたはinsertUpdateに設定されたときに選択される列名を含む文字列のリスト。
高度なオプション
コミット間隔 commitInterval 600 (Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600

備考

ターゲットデータベースがDataRobotの出力フォーマットの列命名規則をサポートしていない場合、列名の再マッピングを使用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます(たとえば、名前からスペースを削除します)。

ステートメントタイプ

書き込み戦略オプションを扱う場合、状況に応じて、次のステートメントタイプを使用してデータを書き込むことができます。

ステートメントタイプ 説明
insert スコアリングされたデータ行は、新しいエントリーとしてターゲットデータベースに挿入されます。 空の表への書き込みに適しています。
update 結果行の行識別子と一致するターゲットデータベース内のスコアリングされたデータエントリーは、新しい結果で更新されます(updateColumnsで識別される列)。 既存の表への書き込みに適しています。
insertUpdate 結果行(where_columns)の行識別子と一致するターゲットデータベース内のエントリーは、新しい結果で更新されます(updateクエリー)。 他のすべての結果行は、新しいエントリーとして挿入されます(insertクエリー)。
createTable (廃止) DataRobotはcreateTableを推奨しなくなりました。 create_table_if_not_existsTrueに設定した別のオプションを使用してください。 使用された場合、スコアリングされたデータはINSERTクエリーを使用して新しい表に保存されます。 The table must not exist before writing.

許可対象の送信元IPアドレス

DataRobotから開始される接続は、許可されたIPアドレスから行われます。 許可対象の送信元IPアドレスで全リストをご覧ください。

SAP Datasphereの書き込み

プレミアム機能

SAP Datasphereのサポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ:SAP Datasphereコネクターを有効にする、SAP Datasphereとバッチ予測の連携を有効にする

SAP Datasphereを使用するには、以下の表に示すように、予測 > ジョブ定義タブまたは バッチ予測API(outputSettings)を使用してデータの宛先の詳細を指定します。

UIフィールド パラメーター 説明
宛先タイプ type datasphere 出力にはSAP Datasphereデータベースを使用します。
Data connection parameters
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 SAP Datasphere接続のドキュメントを参照してください。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Datasphereの保存された資格情報のID。 資格情報の安全な保存を参照してください。
catalog / 書き込み先のテーブルを含むデータベースカタログの名前。
スキーマ schema public 書き込み先のテーブルを含むデータベーススキーマの名前。
table scoring_data 書き込み先のデータを含むデータベーステーブルの名前。 UIで、テーブルを選択するか、テーブルを作成するをクリックします。

Trino write

To use Trino, supply data destination details using the Predictions > Job Definitions tab or the Batch Prediction API (outputSettings) as described in the table below.

UIフィールド パラメーター 説明
宛先タイプ type trino Use a Trino database for output.
Data connection parameters
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。
+ Credentials credentialId 5e96092ef7e8773ddbdbabed The credentials to use for the external Trino database connection.
カタログ catalog starburst_catalog The Trino database catalog to store the output table.
スキーマ schema analytics The Trino schema to store the output table.
table prediction_results The Trino table in which to write output data.

Trino column name case requirement

Use lowercase only for column names in the dataset used to train a project. Trino sanitizes column names automatically (unquoted identifiers are lowercased), so mixed-case or uppercase column names can cause column inconsistency errors when reading from Trino for batch scoring. This applies even when creating tables with quoted column names—Trino still stores them as lowercase. For more information, see trinodb/trino#17.

Azure Blob Storage write

Azure Blob Storageは、大容量ファイルを書き込むためのオプションです。 データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
宛先タイプ type azure 出力にはAzure Blob Storageを使用します。
URL url https://myaccount.blob.core.windows.net/datasets/scored.csv 書き込みするファイルの絶対URL。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 資格情報の安全な保存を参照してください。

Azure credentials are encrypted and only decrypted when used to set up the client for communication with Azure when writing.

Google Cloud Storage write

DataRobotは、Google Cloud Storageアダプターをサポートしています。 データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
宛先タイプ type gcp 出力にGoogle Cloud Storageを使用します。
URL url gcs://bucket-name/datasets/scored.csv ファイルが書き込まれた場所を指定する絶対URL。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。資格情報の安全な保存を参照してください。

GCP credentials are encrypted and are only decrypted when used to set up the client for communication with GCP when writing.

Amazon S3 write

DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。 S3に書き込むためには、アクセスキー(IDおよびキー)とオプションのセッショントークンで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
宛先タイプ type s3 出力にS3を使用します。
URL url s3://bucket-name/results/scored.csv 書き込みするファイルの絶対URL。 DataRobotは、クラウドからクラウドへのスコアリングの場合、ディレクトリのスコアリングのみをサポートします。 入力にはS3(または他のクラウドプロバイダー)のディレクトリを、出力には/で終わるディレクトリを指定します。 この設定を使うと、入力ディレクトリのすべてのファイルがスコアリングされ、その結果が元のファイル名で出力ディレクトリに書き込まれます。 入力と出力に1つのファイルを指定すると、ジョブが実行されるたびにファイルが上書きされます。 ファイルを上書きしたくない場合は、s3://bucket-name/results/scored_{{ current_run_time }}.csvのようなファイル名テンプレートを指定します。 ドキュメントでテンプレート変数の定義を確認できます。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb9db147 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。
高度なオプション
エンドポイントURL endpointUrl https://s3.us-east-1.amazonaws.com (オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。

AWS credentials are encrypted and only decrypted when used to set up the client for communication with AWS when writing.

備考

AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSの記事IAMインスタンスプロファイルの作成を参照してください。

BigQuery write

BigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測APIoutputSettings)を使用してデータの宛先の詳細を指定します。

UIフィールド パラメーター 説明
宛先タイプ type bigquery 出力にGoogle Cloud Storageを使用して、GCSからBigQuery表にデータを取り込みます。
データセット dataset my_dataset 使用するBigQueryデータセット
table my_table 出力に使用するデータセットのBigQuery表。
バケット名 bucket my-bucket-in-gcs BiqQuery表にロードまたはBiqQuery表からアンロードするためにデータファイルが保存されるGCPバケット。
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。 資格情報の安全な保存を参照してください。

BigQuery出力の書き込み戦略

BigQuery出力の書き込み戦略はinsertです。 最初に、出力アダプターはBigQueryテーブルが存在するかどうかを確認します。 テーブルが存在する場合、データが挿入されます。 テーブルが存在しない場合、テーブルが作成され、データが挿入されます。

完全なAPI例については、例セクションを参照してください。

Snowflake write

Snowflakeを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測APIoutputSettings)を使用してデータの宛先の詳細を指定します。

UIフィールド パラメーター 説明
宛先タイプ type snowflake アダプタータイプ。
Data connection parameters
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SnowflakeデータソースのID。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 (オプション)Snowflakeの保存された資格情報のID。
table RESULTS 結果を保存するSnowflakeの表の名前。
スキーマ schema PUBLIC (Optional) The name of the schema containing the table where results are written.
データベース catalog OUTPUT (オプション)出力データを書き込むために指定されたデータベースカタログの名前。
外部ステージオプションを使用する
クラウドストレージタイプ cloudStorageType s3 (オプション)Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3/azure/gcp。 デフォルト設定ではs3が指定されています。
外部ステージ externalStage my_s3_stage Snowflakeの外部ステージ。 UIで、外部ステージを使用を選択して、外部ステージフィールドを有効にします。
エンドポイントURL(S3のみ) endpointUrl https://www.example.com/datasets/ (オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 UIで、クラウドストレージタイプS3オプションについて、詳細オプションを表示をクリックしてエンドポイントURLフィールドを表示します。
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c (オプション)Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。
書き込み戦略のオプション(フォールバックJDBC接続用)
書き込み戦略 statementType insert Snowflake外部ステージを使用している場合statementTypeinsertです。 ただし、UIには2つの設定オプションがあります。
  • 外部ステージを設定していない場合、接続はデフォルトでJDBCになり、挿入または更新を選択できます。

が存在しない場合は表を作成する(挿入用)
create_table_if_not_exists true (オプション)既存の表が検出されない場合は、作成を試みます。
高度なオプション
コミット間隔 commitInterval 600 (Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600

完全なAPI例については、例セクションを参照してください。

Azure Synapse write

Azure Synapseを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測APIoutputSettings)を使用してデータの宛先の詳細を指定します。

UIフィールド パラメーター 説明
宛先タイプ type synapse アダプタータイプ。
Data connection parameters
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SynapseデータソースのID。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 (オプション)Synapseの保存された資格情報のID。
table RESULTS 結果を保存するSynapseの表の名前。
スキーマ schema dbo (Optional) Name of the schema containing the table where results are written.
外部ステージオプションを使用する
外部データソース externalDatasource my_data_source Synapseで外部データソース用に作成された識別子の名前
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c (オプション)Azure Blobストレージ用の保存済み資格情報のID。
書き込み戦略のオプション(フォールバックJDBC接続用)
書き込み戦略 statementType insert Synapse外部ステージを使用している場合statementTypeinsertです。 ただし、UIには2つの設定オプションがあります。
  • 外部ステージを設定していない場合、接続はデフォルトでJDBCになり、挿入更新、または挿入 + 更新を選択できます。

に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合)
create_table_if_not_exists true (オプション)既存の表が検出されなかった場合は、statementTypeパラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。
表が存在しない場合は作成する create_table_if_not_exists true (オプション)既存の表が検出されない場合は、表の作成を試みます。
高度なオプション
コミット間隔 commitInterval 600 (Optional) Defines a time interval, in seconds, between commits to the target database. 0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600

完全なAPI例については、例セクションを参照してください。