Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

出力オプション

備考

サポートされている出力オプションの詳細なリストについては、「予測バッチでサポートされているデータソース」を参照してください。

出力の場合は、以下を使用できます。

カスタムCSV形式を使用する場合は、CSVを処理するすべての出力オプションはその形式に従います。出力に表示される列は、 出力形式 に関するセクションに記載されます。

ローカルファイルストリーミング

ジョブが出力オプションとしてローカルファイルストリーミングで設定されている場合、ジョブがRUNNING状態になるとすぐにスコアリングされたデータのダウンロードを開始できます。リクエストをするために必要なURLは、downloadとして、ジョブデータのlinksセクションで使用できます。

{'elapsedTimeSec': 97,
 'failedRows': 0,
 'jobIntakeSize': 1150602342,
 'jobOutputSize': 107791140,
 'jobSpec': {'deploymentId': '5dc1a6a9865d6c004dd881ef',
              'maxExplanations': 0,
              'numConcurrent': 4,
              'passthroughColumns': null,
              'passthroughColumnsSet': null,
              'predictionWarningEnabled': null,
              'thresholdHigh': null,
              'thresholdLow': null},
 'links': {'download': 'https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/download/',
            'self': 'https://app.datarobot.com/api/v2/batchPredictions/5dc45e583c36a100e45276da/'},
 'logs': ['Job created by user@example.org from 203.0.113.42 at 2019-11-07 18:11:36.870000',
          'Job started processing at 2019-11-07 18:11:49.781000',
          'Job done processing at 2019-11-07 18:13:14.533000'],
 'percentageCompleted': 0.0,
 'scoredRows': 3000000,
 'status': 'COMPLETED',
 'statusDetails': 'Job done processing at 2019-11-07 18:13:14.533000'}

DataRobotのデータの取込みおよびスコアリングよりもダウンロードが高速の場合は、ダウンロードは低速に感じられることがあります。これは、DataRobotではスコアリングされたデータは到着するとすぐに(ブロックで)ストリーミングされるためです。

完全な例については、この使用例を参照してください。

S3 write

DataRobotはスコアリングされたデータを、パブリックとプライベートバケットの両方に保存できます。S3に書き込むためには、アクセスキー(IDおよびキー)とオプションのセッショントークンで構成される認証情報をDataRobotで設定する必要があります。

パラメーター 説明
type s3 入力にS3を使用します。
url s3://bucket-name/results/scored.csv 書き込みするファイルの絶対URL。
credentialId 5e4bc5555e6e763beb9db147 このURLの明示的なアクセス認証情報が必要な場合は必須、そうでない場合はオプションです。認証情報を安全に保管するを参照してください。

AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。

備考

AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な認証情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な認証情報を指定できます。続きを読む

Azure Blob Storage write

大容量ファイルのためのもう一つのスコアリングオプションは、Azureです。データセットをAzure Blob Storageに保存するには、Azure Connection文字列で構成される認証情報をDataRobotで設定する必要があります。

パラメーター 説明
type azure 入力にはAzure Blob Storageを使用します。
url https://myaccount.blob.core.windows.net/datasets/scored.csv 書き込みするファイルの絶対URL。
認証情報ID 5e4bc5555e6e763beb488dba このパラメータは、対象となるURLに対する明示的なアクセス認証が必要な場合は必須です(そうでない場合はオプションとなります)。 認証情報の安全な保存に関する情報を参照してください。

Azureの認証情報は暗号化されており、スコアリング時にAzureとの通信において、クライアントを設定する際にのみ解読されます。

Google Cloud Storage write

DataRobotは、Google Cloud Storageアダプターもサポートしています。データセットをGoogle Cloud Storageに保存するには、JSON形式のアカウントキーで構成される認証情報をDataRobotで設定する必要があります。

パラメーター 説明
type gcp 出力にGoogle Cloud Storageを使用します。
url gcs://bucket-name/datasets/scored.csv ファイルが書き込まれた場所を指定する絶対URL。
認証情報ID 5e4bc5555e6e763beb488dba このURLに対する明示的なアクセス認証情報が必要な場合は必須です(そうでない場合はオプション)。認証情報を安全に保管するを参照にしてください。

GCP認証情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。

HTTP write

クラウドストレージアダプターに加えて、通常のURLでバッチ予測をポイントすると、DataRobotがデータをストリーミングしてスコアリングを行います。

パラメーター 説明
type http 出力にHTTPを使用します。
url https://example.com/datasets/scored.csv ファイルが書き込まれた場所を指定する絶対URL

URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv

httpアダプターは、S3Azure、またはGCPから事前署名済みURLへのデータの書き込みに使用できます。

JDBC write

DataRobotは予測結果のJDBCデータソースへの書き戻しをサポートしています。このため、バッチ予測APIは、安全に保存された認証情報を使用して外部データソースと統合されます。

outputSettingsを使用してデータソースと結果を提供し、以下の詳細を書き戻します。

outputSettings以下のように、データソースに関する詳細と結果をに書き戻す方法を指定する必要があります。

パラメーター 説明
type jdbc JDBCデータストアを出力として使用します。
dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースID。
credentialId 5e4bc5555e6e763beb9db147 ユーザー名とパスワードを含む保存認証情報のID。認証情報を安全に保管するを参照にしてください。
table scoring_data オプション。スコアリングされたデータが書き込まれるデータベース表の名前。
schema public オプション。スコアリングされたデータが書き込まれるスキーマの名前。
statementType update ステートメントタイプinsertupdateまたはinsert_update
createTableIfNotExists true オプション。既存のテーブルが検出されなかった場合は、statementTypeパラメータで定義された戦略でデータを書き込む前にテーブルの作成を試みます。
updateColumns ['index'] statementTypeupdateまたはinsert_updateに設定されたときに更新される列名を含む文字列のリスト。
whereColumns ['refId'] statementTypeupdateまたはinsertに設定されたときに選択される列名を含む文字列のリスト。
commitInterval 600 JDBCソースへのコミット間の時間間隔を秒単位で定義します。0に設定した場合、バッチ予測操作ではコミットの前にジョブ全体が書き込まれます。

備考

生成された出力形式の列名の命名規則がターゲットデータベースでサポートされていない場合は、列名の再マッピング機能を利用して、出力列名をターゲットデータベースがサポートする形式に書き換えることができます。(例:名前からスペースを削除する)

ステートメントタイプ

ステートメントタイプ 説明
insert スコアリングされたデータは、INSERTクエリーを使用して保存されます。の表への書き込みに適しています。
update スコアリングされたデータは、UPDATEクエリーを使用して保存されます。既存の表への書き込みに適しています。updateColumnsで識別された列だけが更新されます。
insert_update スコアリングされたデータは、INSERTまたはUPDATEクエリーのいずれかを使用して保存されます。これは、whereColumnsの列に更新に一致する行があるかどうかによって異なります。
create_table 使用非推奨の警告:create_tableは現在では非推奨になっています。createTableIfNotExistsをTrueに設定した別のオプションを使用してください。使用された場合、スコアリングされたデータはINSERTクエリーを使用して新しいテーブルに保存されます。スコアリングの前にテーブルが存在していてはいけません。

ホワイトリストの送信元IPアドレス

DataRobotから開始される接続は、以下のIPアドレスのいずれかから発信されます:

ホスト:https://app.datarobot.com ホスト:https://app.eu.datarobot.com
100.26.66.209 18.200.151.211
54.204.171.181 18.200.151.56
54.145.89.18 18.200.151.43
54.147.212.247 54.78.199.18
18.235.157.68 54.78.189.139
3.211.11.187 54.78.199.173
3.214.131.132
3.89.169.252

これらはDataRobotの使用のためにのみ予約されています。

Snowflake write

outputSettings次のようににデータソースの詳細を指定します。

パラメーター 説明
type snowflake アダプタータイプ。
dataStoreId 5e4bc5b35e6e763beb9db14a SnowflakeデータソースのID。
externalStage my_s3_stage Snowflake外部ステージの名前。
table RESULTS 結果を保存するSnowflakeのテーブルの名前。
schema PUBLIC オプション。スコアリングする表が含まれるスキーマの名前。
credentialId 5e4bc5555e6e763beb9db147 Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。
cloudStorageType s3 Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。次の3つのクラウドストレージプロバイダーの1つである場合があります。s3/azure/gcpデフォルトはs3です
cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。
createTableIfNotExists true オプション。既存のテーブルが検出されない場合は、作成を試みます。

完全な例については、この使用例を参照してください。

Synapse write

Synapseをスコアリングに使用するには、にデータソースの詳細をoutputSettings次のように入力します。

パラメーター 説明
type synapse アダプタータイプ。
dataStoreId 5e4bc5b35e6e763beb9db14a SynapseデータソースのID。
externalDatasource my_data_source Synapse外部データソースの名前。
table RESULTS 結果を保存するSynapseのテーブルの名前。
schema dbo オプション。スコアリングするテーブルを含むスキーマの名前。
credentialId 5e4bc5555e6e763beb9db147 Synapseのユーザー名とパスワードを含む保存済み資格情報のID。
cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Azure Blobストレージ用の保存済み資格情報のID。
createTableIfNotExists true オプション。既存のテーブルが検出されない場合は、テーブルの作成を試みます。

完全な例については、この使用例を参照してください。

備考

Synapseは,既定のMicrosoft SQL Serverよりも少ない照合数をサポートしています。詳細については、『Synapseドキュメント』を参照してください。

BigQuery write

BigQueryをスコアリングに使用するには、にデータソースの詳細をoutputSettings次のように入力します。

パラメーター 説明
type bigquery 出力にGoogle Cloud Storageを使用して、GCSからBigQueryテーブルにデータを取り込みます。
dataset my_dataset 使用するBigQueryデータセット
table my_table 出力に使用するデータセットのBigQueryテーブル
bucket my-bucket-in-gcs データのロード元となるバケット
credentialId 5e4bc5555e6e763beb488dba このバケットに対する明示的なアクセス認証情報が必要な場合は必須です(そうでない場合はオプション)。認証情報の安全な保存を参照してください。

完全な例については、この使用例を参照してください。


更新しました April 15, 2022
Back to top