予測の出力結果オプション¶
予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測先を設定できます。 このトピックでは、UIとAPIの両方の出力オプションについて説明します。
備考
サポートされている出力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。
出力オプション | 説明 |
---|---|
ローカルファイルストリーミング | スコアリングされたデータをURLエンドポイントを介してストリーミングし、ジョブが実行状態に移行したときにすぐにダウンロードできるようにします。 |
HTTP write | スコアリングのために絶対URLに書き込むデータをストリーミングします。 このオプションは、Amazon S3、Azure、およびGoogle Cloud Platformの事前署名されたURLにデータを書き込むことができます。 |
データベース接続 | |
JDBC write | ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、予測結果をJDBCデータソースに書き戻します。 |
クラウドストレージ接続 | |
Amazon S3 write | アクセスキー(IDとキー)とセッショントークン(オプション)で構成されるDataRobot資格情報を使用して、スコアリングされたデータをパブリックまたはプライベートS3バケットに書き込みます |
Azure Blob Storage write | Azure接続文字列で構成されるDataRobot資格情報を使用して、スコアリングされたデータをAzure Blob Storageに書き込みます。 |
Google Cloud Storage write | Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。 |
データウェアハウス接続 | |
BigQuery write | ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、BigQueryでデータをスコアリングします。 |
Snowflake write | ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、Snowflakeでデータをスコアリングします。 |
Azure Synapse write | ジョブ定義またはバッチ予測APIで提供されたデータ送信先の詳細を使用して、Synapseでデータをスコアリングします。 |
カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。 出力に表示される列は、出力形式に関するセクションに記載されます。
ローカルファイルストリーミング¶
ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING
状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。 以下のジョブデータJSONの例では、ローカルファイルストリーミングリクエストを作成するために必要なURLは、links
オブジェクトのdownload
キーで使用できます。
{
"elapsedTimeSec": 97,
"failedRows": 0,
"jobIntakeSize": 1150602342,
"jobOutputSize": 107791140,
"jobSpec": {
"deploymentId": "5dc1a6a9865d6c004dd881ef",
"maxExplanations": 0,
"numConcurrent": 4,
"passthroughColumns": null,
"passthroughColumnsSet": null,
"predictionWarningEnabled": null,
"thresholdHigh": null,
"thresholdLow": null
},
"links": {
"download": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/",
"self": "https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/"
},
"logs": [
"Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000",
"Job started processing at 2019-11-07 18:11:49.781000",
"Job done processing at 2019-11-07 18:13:14.533000"
],
"percentageCompleted": 0.0,
"scoredRows": 3000000,
"status": "COMPLETED",
"statusDetails": "Job done processing at 2019-11-07 18:13:14.533000"
}
DataRobotでのデータの取り込みおよびスコアリングよりもダウンロード処理の方が早い場合、DataRobotがスコアリングされたデータを到着するとすぐに(チャンクで)ストリーミングするため、ダウンロード速度が遅く感じられることがあります。
完全な例については、このユースケースを参照してください。
HTTP write¶
通常のURLでバッチ予測をポイントすると、DataRobotがデータをストリーミングしてスコアリングを行います。
パラメーター | 例 | 説明 |
---|---|---|
type |
http |
出力にHTTPを使用します。 |
url |
https://example.com/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL。 |
URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv
http
アダプターは、S3、Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。
JDBC write¶
DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。 そのため、バッチ予測APIは、安全に保存された資格情報を使用して外部データソースと統合されます。
以下の表に記載されているように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings
)を使用してデータの宛先の詳細を提供します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
jdbc |
JDBCデータストアを出力として使用します。 |
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースID。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)ユーザー名とパスワードを含む保存資格情報のID。 資格情報の安全な保存を参照してください。 |
表 | table |
scoring_data |
スコアリングされたデータが書き込まれるデータベース表の名前。 |
スキーマ | schema |
public |
(オプション)スコアリングされたデータが書き込まれるスキーマの名前。 |
データベース | catalog |
output_data |
(オプション)出力データを書き込むために指定されたデータベースカタログの名前。 |
書き込み戦略のオプション | |||
書き込み戦略 | statementType |
update |
ステートメントタイプ、insert 、update 、またはinsertUpdate 。 |
に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されなかった場合は、statementType パラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。 |
行識別子 (更新、または挿入+更新の場合) |
updateColumns |
['index'] |
(オプション)statementType がupdate またinsertUpdate はに設定されたときに更新される列名を含む文字列のリスト。 |
行識別子 (更新、または挿入+更新の場合) |
where_columns |
['refId'] |
(オプション)statementType がupdate またはinsertUpdate に設定されたときに選択される列名を含む文字列のリスト。 |
高度なオプション | |||
コミット間隔 | commitInterval |
600 |
(オプション)JDBCソースへのコミット間の時間間隔を秒単位で定義します。 0 に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
備考
ターゲットデータベースがDataRobotの出力フォーマットの列命名規則をサポートしていない場合、列名の再マッピングを使用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます(たとえば、名前からスペースを削除します)。
ステートメントタイプ¶
書き込み戦略オプションを扱う場合、状況に応じて、次のステートメントタイプを使用してデータを書き込むことができます。
ステートメントタイプ | 説明 |
---|---|
insert |
スコアリングされたデータ行は、新しいエントリーとしてターゲットデータベースに挿入されます。 空の表への書き込みに適しています。 |
update |
結果行の行識別子と一致するターゲットデータベース内のスコアリングされたデータエントリーは、新しい結果で更新されます(updateColumns で識別される列)。 既存の表への書き込みに適しています。 |
insertUpdate |
結果行(where_columns )の行識別子と一致するターゲットデータベース内のエントリーは、新しい結果で更新されます(update クエリー)。 他のすべての結果行は、新しいエントリーとして挿入されます(insert クエリー)。 |
createTable (廃止) |
DataRobotはcreateTable を推奨しなくなりました。 create_table_if_not_exists をTrue に設定した別のオプションを使用してください。 使用された場合、スコアリングされたデータはINSERT クエリーを使用して新しい表に保存されます。 スコアリングの前に表が存在していてはいけません。 |
許可対象の送信元IPアドレス¶
DataRobotから開始される接続は、以下のIPアドレスのいずれかから行われます。
ホスト:https://app.datarobot.com | ホスト:https://app.eu.datarobot.com | ホスト:https://app.jp.datarobot.com |
---|---|---|
100.26.66.209 | 18.200.151.211 | 52.199.145.51 |
54.204.171.181 | 18.200.151.56 | 52.198.240.166 |
54.145.89.18 | 18.200.151.43 | 52.197.6.249 |
54.147.212.247 | 54.78.199.18 | |
18.235.157.68 | 54.78.189.139 | |
3.211.11.187 | 54.78.199.173 | |
52.1.228.155 | 18.200.127.104 | |
3.224.51.250 | 34.247.41.18 | |
44.208.234.185 | 99.80.243.135 | |
3.214.131.132 | 63.34.68.62 | |
3.89.169.252 | 34.246.241.45 | |
3.220.7.239 | 52.48.20.136 | |
52.44.188.255 | ||
3.217.246.191 |
備考
これらのIPアドレスは、DataRobot使用のためにのみ予約されています。
Amazon S3 write¶
DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。 S3に書き込むためには、アクセスキー(IDおよびキー)とオプションのセッショントークンで構成される資格情報をDataRobotで設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
s3 |
入力にS3を使用します。 |
URL | url |
s3://bucket-name/results/scored.csv |
書き込みするファイルの絶対URL。 DataRobotは、クラウドからクラウドへのスコアリングの場合、ディレクトリのスコアリングのみをサポートします。 入力にはS3(または他のクラウドプロバイダー)のディレクトリを、出力には/ で終わるディレクトリを指定します。 この設定を使うと、入力ディレクトリのすべてのファイルがスコアリングされ、その結果が元のファイル名で出力ディレクトリに書き込まれます。 入力と出力に1つのファイルを指定すると、ジョブが実行されるたびにファイルが上書きされます。 ファイルを上書きしたくない場合は、s3://bucket-name/results/scored_{{ current_run_time }}.csv のようなファイル名テンプレートを指定します。 ドキュメントでテンプレート変数の定義を確認できます。 |
形式 | format |
csv |
(オプション)CSV(csv )またはParquet(parquet )を選択。 デフォルト値:CSV |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb9db147 |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
高度なオプション | |||
エンドポイントURL | endpointUrl |
https://s3.us-east-1.amazonaws.com |
(オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 |
AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。
備考
AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSの記事IAMインスタンスプロファイルの作成を参照してください。
Azure Blob Storage write¶
Azure Blob Storageは、大きなファイルをスコアリングするためのオプションです。 データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される資格情報をDataRobotで設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
azure |
入力にはAzure Blob Storageを使用します。 |
URL | url |
https://myaccount.blob.core.windows.net/datasets/scored.csv |
書き込みするファイルの絶対URL。 |
形式 | format |
csv |
(オプション)CSV(csv )またはParquet(parquet )を選択。 デフォルト値:CSV |
+ 資格情報を追加 | credentialId | 5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 資格情報の安全な保存を参照してください。 |
Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信において、クライアントを設定する際にのみ解読されます。
Google Cloud Storage write¶
DataRobotは、Google Cloud Storageアダプターもサポートしています。 データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
gcp |
出力にGoogle Cloud Storageを使用します。 |
URL | url |
gcs://bucket-name/datasets/scored.csv |
ファイルが書き込まれた場所を指定する絶対URL。 |
形式 | format |
csv |
(オプション)CSV(csv )またはParquet(parquet )を選択。 デフォルト値:CSV |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。資格情報の安全な保存を参照してください。 |
GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。
BigQuery write¶
スコアリングにBigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings
)を使用してデータの宛先の詳細を指定します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
bigquery |
出力にGoogle Cloud Storageを使用して、GCSからBigQuery表にデータを取り込みます。 |
データセット | dataset |
my_dataset |
使用するBigQueryデータセット |
表 | table |
my_table |
出力に使用するデータセットのBigQuery表。 |
バケット名 | bucket |
my-bucket-in-gcs |
BiqQuery表にロードまたはBiqQuery表からアンロードするためにデータファイルが保存されるGCPバケット。 |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。 資格情報の安全な保存を参照してください。 |
BigQuery出力の書き込み戦略
BigQuery出力の書き込み戦略はinsert
です。 最初に、出力アダプターはBigQueryテーブルが存在するかどうかを確認します。 テーブルが存在する場合、データが挿入されます。 テーブルが存在しない場合、テーブルが作成され、データが挿入されます。
完全なAPI例については、例セクションを参照してください。
Snowflake write¶
スコアリングにSnowflakeを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings
)を使用してデータの宛先の詳細を指定します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
snowflake |
アダプタータイプ。 |
接続オプション | |||
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SnowflakeデータソースのID。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。 |
表 | table |
RESULTS |
結果を保存するSnowflakeの表の名前。 |
スキーマ | schema |
PUBLIC |
(オプション)スコアリングする表が含まれるスキーマの名前。 |
データベース | catalog |
OUTPUT |
(オプション)出力データを書き込むために指定されたデータベースカタログの名前。 |
外部ステージオプションを使用する | |||
クラウドストレージタイプ | cloudStorageType |
s3 |
(オプション)Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3 /azure /gcp 。 デフォルト設定ではs3 が指定されています。 |
外部ステージ | externalStage |
my_s3_stage |
Snowflakeの外部ステージ。 UIで、外部ステージを使用を選択して、外部ステージフィールドを有効にします。 |
エンドポイントURL(S3のみ) | endpointUrl |
https://www.example.com/datasets/ |
(オプション)APIゲートウェイや別のS3互換のストレージサービスを使用するなど、S3への接続に使用するエンドポイントをオーバーライドします。 UIで、クラウドストレージタイプのS3オプションについて、詳細オプションを表示をクリックしてエンドポイントURLフィールドを表示します。 |
+ 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
(オプション)Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 |
書き込み戦略のオプション(フォールバックJDBC接続用) | |||
書き込み戦略 | statementType |
insert |
Snowflake外部ステージを使用している場合statementType はinsert です。 ただし、UIには2つの設定オプションがあります。
|
が存在しない場合は表を作成する(挿入用) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されない場合は、作成を試みます。 |
高度なオプション | |||
コミット間隔 | commitInterval |
600 |
(オプション)JDBCソースへのコミット間の時間間隔を秒単位で定義します。 0 に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
完全なAPI例については、例セクションを参照してください。
Azure Synapse write¶
Synapseをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(outputSettings
)を使用してデータの宛先の詳細を指定します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
宛先タイプ | type |
synapse |
アダプタータイプ。 |
接続オプション | |||
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SynapseデータソースのID。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
(オプション)Synapseのユーザー名とパスワードを含む保存済み資格情報のID。 |
表 | table |
RESULTS |
結果を保存するSynapseの表の名前。 |
スキーマ | schema |
dbo |
(オプション)スコアリングする表を含むスキーマの名前。 |
外部ステージオプションを使用する | |||
外部データソース | externalDatasource |
my_data_source |
Synapseで外部データソース用に作成された識別子の名前。 |
+ 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
(オプション)Azure Blobストレージ用の保存済み資格情報のID。 |
書き込み戦略のオプション(フォールバックJDBC接続用) | |||
書き込み戦略 | statementType |
insert |
Synapse外部ステージを使用している場合statementType はinsert です。 ただし、UIには2つの設定オプションがあります。
|
に存在しない場合は表を作成する(挿入、または挿入 + 更新の場合) |
create_table_if_not_exists |
true |
(オプション)既存の表が検出されなかった場合は、statementType パラメーターで定義された戦略でデータを書き込む前に表の作成を試みます。 |
表が存在しない場合は作成する | create_table_if_not_exists |
true |
(オプション)既存の表が検出されない場合は、表の作成を試みます。 |
高度なオプション | |||
コミット間隔 | commitInterval |
600 |
(オプション)JDBCソースへのコミット間の時間間隔を秒単位で定義します。 0 に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。 デフォルト:600 |
完全なAPI例については、例セクションを参照してください。
備考
Azure Synapseは、既定のMicrosoft SQL Serverよりも少ない照合数をサポートしています。 詳細については、Azure Synapseドキュメントを参照してください。