Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

入力オプション

備考

サポートされている取り込みオプションの詳細なリストについては、予測バッチでサポートされているデータソースを参照してください。

入力の場合は、以下を使用できます。

カスタムCSV形式を使用中の場合は、CSVを処理するすべての入力オプションはその形式に従います。

ローカルファイルストリーミング

ローカルファイル入力には特別のオプションはありませんが、csvUploadジョブデータのリンクで 指定したURLへのリクエスト を使用して、ジョブのスコアリングデータをアップロードする必要があります。PUTジョブが開始されます(または、予測インスタンスが既に使用されている場合は、ジョブが処理キューに入れられます)。

選択した予測インスタンスキューのその他のキュージョブがない場合は、アップロード中でもスコアリングが開始されます。

この使用例を参照してください。

備考

スコアリングデータを送信し忘れると、ジョブは「初期化中」状態のままになります。

S3スコアリング

大きいファイルの場合、入力にはS3を使用することが推奨されます。DataRobotは、パブリックおよびプライベート両方のバケットからファイルを取り込むことができます。S3からスコアリングするには、アクセスキー(IDとキー)およびセッショントークン(オプション)で構成される認証情報をDataRobotで設定する必要があります。

パラメーター 説明
type s3 DataRobotでは、S3での取り込みを推奨しています。
url s3://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
credentialId 5e4bc5555e6e763beb488dba このURLの明示的なアクセス認証情報が必要な場合は必須、そうでない場合はオプションです。認証情報を安全に保管するを参照してください。

AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。

備考

AWS内でプライベートAIクラウドを運用する場合、IAMインスタンスプロファイルを使用してアプリケーションインスタンスに暗黙の認証情報を提供することで、ジョブデータに明示的な認証情報を提示せずにS3バケットにアクセスすることが可能です。詳細については、「AWSドキュメント」を参照してください。

Azure Blob Storageのスコアリング

大容量ファイルのためのもう一つのスコアリングオプションは、Azureです。Azure Blob Storageからスコアリングするには、Azure Connection Stringを使用してDataRobotで認証情報を設定する必要があります。

パラメーター 説明
type azure 入力にはAzure Blob Storageを使用します。
url https://myaccount.blob.core.windows.net/datasets/scoring.csv スコアリングするファイルの絶対URL。
認証情報ID 5e4bc5555e6e763beb488dba このパラメータは、このURLの明示的なアクセス認証情報が必要な場合は必須(そうでない場合はオプション)です。認証情報の安全な保存に関する情報を参照してください。

Azureの認証情報は暗号化されており、スコアリング時にAzureとの通信のにおいて、クライアントを設定する際にのみ解読されます。

Google Cloud Storageのスコアリング

DataRobotは、Google Cloud Storageアダプターもサポートしています。Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される認証情報をDataRobotで設定する必要があります。

パラメーター 説明
type gcp 入力にはGoogle Cloud Storageを使用します。
url gcs://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
認証情報ID 5e4bc5555e6e763beb488dba このURLの明示的なアクセス認証情報が必要な場合は必須、そうでない場合はオプションです。認証情報を安全に保管するを参照してください。

GCP認証情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。

HTTPのスコアリング

クラウドストレージアダプターに加えて、バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングしてスコアリングしてくれます:

パラメーター 説明
type http 入力にはHTTPを使用します。
url https://example.com/datasets/scoring.csv スコアリングするファイルの絶対URL。

URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv

httpアダプタは、S3Azure、またはGCPの署名済みURLからデータを取り込むために使用できます。

AIカタログデータセットのスコアリング

AIカタログのデータセットから入力データを読み込むには、以下のオプションがあります:

パラメーター 説明
datasetId 5e4bc5b35e6e763beb9db14a AIカタログデータセットID。
datasetVersionId 5e4bc5555e6e763beb488dba オプション。AIカタログデータセットバージョンID。

datasetVersionIdが指定されていない場合は、指定したデータセットの最新バージョンがデフォルトとなります。

備考

指定されたAIカタログデータセットについては、スコアリングするバージョンが正常に取り込まれているとともに、スナップショットとなっている必要があります。

JDBCスコアリング

DataRobotは、jdbc入力タイプとしてを指定することで、バッチ予測のJDBCと互換性のあるデータベースからの読み取りをサポートしています。PUTリクエストにはファイルが必要ないため、予備検定がうまく行った場合は、スコアリングは直ちに開始され、ジョブは「実行中」に移行します。

これをサポートするために、このバッチ予測APIは外部のデータソースおよびデータ認証情報に安全に保存された認証情報を使用して統合します。

次のようにintakeSettingsにデータソースの詳細を指定します。

パラメーター 説明
type jdbc JDBCデータストアを出力として使用します。
dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。
credentialId 5e4bc5555e6e763beb9db147 ユーザー名とパスワードを含む保存認証情報のID。認証情報を安全に保管するを参照してください。
fetchSize (deprecated) 1000 使用非推奨:fetchSize は、最適なスループットを得るために動的に推測されるようになったので不要になりました。オプション。スループットとメモリー使用のバランスを取るために、カスタムfetchSize (一度に読む行数)が設定されます。[1、100000]の範囲内であること。デフォルトは1000。
table scoring_data オプション。スコアリングするデータが含まれるデータベース表の名前。
schema public オプション。スコアリングする表が含まれるスキーマの名前。
query SELECT feature1, feature2, feature3 AS readmitted FROM diabetes オプション。データベースに対して実行するカスタムクエリー。

備考

tableおよびschemaまたはqueryを指定する必要があります。

完全な例については、例のセクションを参照してください。

ホワイトリストの送信元IPアドレス

DataRobotから開始される接続は、以下のIPアドレスのいずれかから発信されます:

ホスト:https://app.datarobot.com ホスト:https://app.eu.datarobot.com
100.26.66.209 18.200.151.211
54.204.171.181 18.200.151.56
54.145.89.18 18.200.151.43
54.147.212.247 54.78.199.18
18.235.157.68 54.78.189.139
3.211.11.187 54.78.199.173
3.214.131.132
3.89.169.252

これらはDataRobotの使用のためにのみ予約されています。

Snowflakeスコアリング

JDBCを使用してデータを転送すると、IOPS(1秒あたりの入力/出力操作)の点でコストがかかり、データウェアハウスの費用がかさむ可能性があります。このアダプターは、クラウドストレージと一括挿入を使用してハイブリッドJDBCクラウドストレージソリューションを作成することで、予測スコアリング時のデータベースエンジンの負荷を軽減させます。

次のようにintakeSettingsにデータソースの詳細を指定します。

パラメーター 説明
type snowflake アダプタータイプ。
dataStoreId 5e4bc5b35e6e763beb9db14a SnowflakeデータソースのID。
externalStage my_s3_stage Snowflake外部ステージの名前。
table SCORING_DATA オプション。スコアリングするデータを含むSnowflakeのテーブルの名前。
schema PUBLIC オプション。スコアリングするテーブルを含むスキーマの名前。
query SELECT feature1, feature2, feature3 FROM diabetes オプション。データベースに対して実行するカスタムクエリー。
credentialId 5e4bc5555e6e763beb9db147 Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。
cloudStorageType s3 Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。次の3つのクラウドストレージプロバイダーの1つである場合があります。s3/azure/gcpデフォルトはs3です
cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。

完全な例については、例のセクションを参照してください。

Synapseスコアリング

Synapseをスコアリングに使用するには、にデータソースの詳細を次のintakeSettingsように入力します。

パラメーター 説明
type synapse アダプタータイプ。
dataStoreId 5e4bc5b35e6e763beb9db14a SynapseデータソースのID。
externalDatasource my_data_source Synapse外部データソースの名前。
table SCORING_DATA オプション。スコアリングするデータを含むSynapseのテーブルの名前。
schema dbo オプション。スコアリングするテーブルを含むスキーマの名前。
query SELECT feature1, feature2, feature3 FROM diabetes オプション。データベースに対して実行するカスタムクエリー。
credentialId 5e4bc5555e6e763beb9db147 Synapseのユーザー名とパスワードを含む保存済み資格情報のID。
cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Azure Blobストレージ用の保存済み資格情報のID。

完全な例については、例のセクションを参照してください。

備考

Synapseは,既定のMicrosoft SQL Serverよりも少ない照合数をサポートしています。詳細については、「Synapseドキュメント」を参照してください。

BigQueryのスコアリング

BigQueryをスコアリングに使用するには、にデータソースの詳細を次のintakeSettingsように入力します。

パラメーター 説明
type bigquery BigQuery APIを使用して、Google Cloud Storageにデータをアンロードし、それを入力として使用します。
dataset my_dataset 使用するBigQueryデータセット
table my_table BigQueryのテーブルまたはビューは入力として使用されるデータセットです。
bucket my-bucket-in-gcs データをエクスポートするバケット
credentialId 5e4bc5555e6e763beb488dba このバケットに対する明示的なアクセス認証情報が必要な場合は必須です(そうでない場合はオプション)。認証情報の安全な保存を参照してください。

完全な例については、この使用例を参照してください。


更新しました April 15, 2022
Back to top