予測入力オプション¶
予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測ソースを設定できます。 このトピックでは、UIとAPIの両方の取り込みオプションについて説明します。
備考
サポートされている入力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。
取込みオプション | 説明 |
---|---|
ローカルファイルストリーミング | URLエンドポイントを介して入力データをストリーミングし、ジョブが実行状態に移行したときにすぐに処理できるようにします。 |
AIカタログ/データレジストリデータセットのスコアリング | DataRobotのAIカタログ/データレジストリで、データセットのスナップショットから入力データを読み込みます。 |
ラングラーレシピ(プレビュー) | DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込みます。 |
HTTPスコアリング | スコアリングのために絶対URLから入力データをストリーミングします。 このオプションによって、Amazon S3、Azure、Google Cloud Platformの事前署名付きURLからデータを読み込むことができます。 |
クラウドストレージの取込み | |
Amazon S3のスコアリング | アクセスキー(IDとキー)とセッショントークン(オプション)からなるDataRobot資格情報で、パブリックまたはプライベートS3バケットから入力データを読み込みます。より大きなファイルの場合は、このオプションをお勧めします。 |
Azure Blob Storageスコアリング | Azure接続文字列からなるDataRobot資格情報で、Azure Blob Storageから入力データを読み込みます。 |
Google Cloud Storageスコアリング | JSON形式のアカウントキーからなるDataRobot資格情報で、Google Cloud Storageから入力データを読み込みます。 |
データベースの取込み | |
JDBCスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、JDBC互換のデータベースから予測データを読み込みます。 |
データウェアハウスの取込み | |
BigQueryスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、BigQueryでデータをスコアリングします。 |
Snowflakeスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Snowflakeでデータをスコアリングします。 |
Synapseスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Synapseでデータをスコアリングします。 |
カスタムCSV形式を使用中の場合は、CSVを処理するすべての入力オプションはその形式に従います。
ローカルファイルストリーミング¶
ローカルファイルの取込みには、特別なオプションはありません。 この取込みオプションでは、ジョブデータのcsvUpload
リンクで指定されたURLへのPUT
リクエストを使用して、ジョブのスコアリングデータをアップロードする必要があります。 ジョブが開始されます(または、予測インスタンスが既に使用されている場合は、ジョブが処理キューに入れられます)。
選択した予測インスタンスキューのその他のキュージョブがない場合は、アップロード中でもスコアリングが開始されます。
このユースケースを参照してください。
備考
スコアリングデータを送信し忘れると、ジョブは「初期化中」状態のままになります。
Multipart upload¶
Because the local file intake process requires that you upload scoring data for a job using a PUT
request to the URL specified in the csvUpload
parameter, by default, a single PUT
request starts the job (or queues it for processing if the prediction instance is occupied). バッチ予測のマルチパートアップロードを使用すると、デフォルトの動作をオーバーライドして、複数のファイルからスコアリングデータをアップロードできます。 このアップロードプロセスでは、複数のPUT
リクエストの後に単一のPOST
リクエスト(finalizeMultipart
)を必要とし、手動でマルチパートアップロードを完了させます。 This feature can be helpful when you want to upload large datasets over a slow connection or if you experience frequent network instability.
備考
バッチ予測APIとローカルファイルの取り込みの詳細については、バッチ予測APIと予測取り込みオプションを参照してください。
マルチパートアップロードのエンドポイント¶
この機能により、次のマルチパートアップロードのエンドポイントがバッチ予測APIに追加されます。
エンドポイント | 説明 |
---|---|
PUT /api/v2/batchPredictions/:id/csvUpload/part/0/ |
スコアリングデータを複数の部分でcsvUpload で指定されたURLにアップロードします。 アップロードの各部分について、0 を1つずつ順番に増やします。 |
POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/ |
マルチパートアップロードプロセスを完了します。 完了する前に、アップロードの各部分が終了していることを確認してください。 |
ローカルファイルの取り込み設定¶
ローカルファイルアダプターの取り込み設定により、バッチ予測APIのマルチパートアップロードをサポートする2つの新しいプロパティが追加されました。
プロパティ | タイプ | デフォルト | 説明 |
---|---|---|---|
intakeSettings.multipart |
ブーリアン | false |
|
intakeSettings.async |
ブーリアン | true |
|
マルチパート取り込み設定¶
新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFile
アダプターのintakeSettings
を設定します。
{
"intakeSettings": {
"type": "localFile",
"multipart": true
}
}
これらのプロパティでは、ローカルファイルのアップロードワークフローを変更するため、以下を行う必要があります。
-
任意の数の連番ファイルをアップロードします。
-
アップロードが完了すると、必要なすべてのファイルが正常にアップロードされたことを示します。
非同期取り込み設定¶
非同期を有効にして新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFile
アダプターのintakeSettings
を設定します。
備考
multipart
設定とは別にasync
取り込み設定を使用することもできます。
{
"intakeSettings": {
"type": "localFile",
"multipart": true,
"async": false
}
}
バッチ予測の特徴量とは、最初のファイルアップロードでスコアリングジョブが開始され、特定の予測インスタンスに対して一度に1つのバッチ予測ジョブのみを実行できるということです。 この機能は、低速接続で大規模なデータセットをアップロードする場合に問題が発生する可能性があります。 このような場合、クライアントのアップロード速度によってボトルネックが発生し、他のジョブの処理がブロックされる可能性があります。 この潜在的なボトルネックを回避するために、上記の例に示すようにasync
にfalse
を設定できます。 この設定により、バッチ予測ジョブのキューへの送信が延期されます。
"async": false
の場合、ジョブがバッチ予測キューに入るポイントは、multipart
設定によって異なります。
-
"multipart": true
の場合、ジョブはPOST
リクエストの後にキューに送信され、finalizeMultipart
を解決します。 -
"multipart": false
の場合、最初のファイル取り込みPUT
リクエストが解決された後、ジョブはキューに送信されます。
マルチパートアップロードリクエストの例¶
3部構成のマルチパートバッチ予測ジョブをアップロードするために必要なバッチ予測APIリクエストは次のようになります。
PUT /api/v2/batchPredictions/:id/csvUpload/part/0/
PUT /api/v2/batchPredictions/:id/csvUpload/part/1/
PUT /api/v2/batchPredictions/:id/csvUpload/part/2/
POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/
アップロードされた各部分は、ヘッダー付きの完全なCSVファイルです。
マルチパートアップロードの中止¶
終了したくないマルチパートアップロードを開始する場合は、既存のbatchPredictions
中止ルートへのDELETE
リクエストを使用できます。
DELETE /api/v2/batchPredictions/:id/
AIカタログデータセットのスコアリング¶
AIカタログ/データレジストリデータセットから入力データを読み込む場合は、以下のオプションを使用できます。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
dataset |
UIで、AIカタログを選択します(NextGenではデータレジストリ)。 |
+ AIカタログからソースを選択 | datasetId |
5e4bc5b35e6e763beb9db14a |
AIカタログのデータセットID。 UIで、データセットを検索して選択し、このデータセットを使用(または、NextGenで確認)をクリックします。 |
+ バージョンを選択 | datasetVersionId |
5e4bc5555e6e763beb488dba |
AIカタログのデータセットバージョンID(オプション) UIでは、特定のバージョンを使用チェックボックスを選択して、+ バージョンを選択フィールドを有効にします。 バージョンを検索して選択します。 datasetVersionId が指定されていない場合は、指定したデータセットの最新バージョンがデフォルトとなります。 |
備考
指定したAIカタログデータセットの場合は、スコアリングするバージョンは正常に取り込まれたものであり、スナップショットである必要があります。
ラングラーレシピデータセットのスコアリング¶
DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込むには、次のオプションを使用できます。
Wrangler data connection
Wrangler recipes for batch prediction jobs only support data wrangled from a Snowflake data connection.
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
recipe |
UIで、ラングラーレシピを選択します。 |
+ ラングラーレシピを選択 | recipeId |
65fb040a42c170ee46230133 |
ラングラーレシピのデータセットID。 NextGenの予測ジョブUIで、ラングリングされたデータセットを検索して選択し、確認をクリックします。 |
Amazon S3のスコアリング¶
大きいファイルの場合、入力にはS3を使用することが推奨されます。 DataRobotは、パブリックおよびプライベート両方のバケットからファイルを取り込むことができます。 Amazon S3からスコアリングするには、アクセスキー(IDとキー)およびセッショントークン(オプション)で構成される資格情報をDataRobotで設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
s3 |
DataRobotでは、S3での取り込みを推奨しています。 |
URL | url |
s3://bucket-name/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
形式 | format |
csv |
(オプション)CSV(デフォルト)または寄木細工。 |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。
備考
AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSドキュメントを参照してください。
Azure Blob Storageスコアリング¶
大容量ファイルのためのもう一つのスコアリングオプションは、Azureです。 Azure Blob Storageからスコアリングするには、Azure Connection Stringを使用してDataRobotで資格情報を設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
azure |
入力にはAzure Blob Storageを使用します。 |
URL | url |
https://myaccount.blob.core.windows.net/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
形式 | format |
csv |
(オプション)CSV(デフォルト)または寄木細工。 |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信のにおいて、クライアントを設定する際にのみ解読されます。
Google Cloud Storageスコアリング¶
DataRobotは、Google Cloud Storageアダプターもサポートしています。 Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
gcp |
入力にはGoogle Cloud Storageを使用します。 |
URL | url |
gcs://bucket-name/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
形式 | format |
csv |
(オプション)CSV(デフォルト)または寄木細工。 |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。
HTTPスコアリング¶
クラウドストレージアダプターに加えて、バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングしてスコアリングしてくれます。
パラメーター | 例 | 説明 |
---|---|---|
type |
http |
入力にはHTTPを使用します。 |
url |
https://example.com/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv
http
アダプタは、S3、Azure、またはGCPの署名済みURLからデータを取り込むために使用できます。
JDBCスコアリング¶
DataRobotは、バッチ予測のJDBCと互換性のあるデータベースからの読み取りをサポートしています。
バッチ予測APIでJDBCを使用するには、入力タイプとしてjdbc
を指定します。 PUT
リクエストにはファイルが必要ないため、予備検定がうまく行った場合は、スコアリングは直ちに開始され、ジョブは「実行中」に移行します。 これをサポートするために、このバッチ予測APIは外部データソースおよびデータ資格情報に安全に保存された資格情報を使用して統合します。
次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings
)を使用してデータソースの詳細を提供します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
jdbc |
JDBCデータストアを出力として使用します。 |
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
ユーザー名とパスワードを含む保存資格情報のID。 資格情報の安全な保存を参照してください。 |
使用非推奨のオプション | fetchSize (deprecated) |
1000 |
使用非推奨:fetchSize は、最適なスループットを得るために動的に推測されるようになったので不要になりました。 (オプション)スループットとメモリー使用のバランスを取るために、カスタムfetchSize (一度に読む行数)が設定されます。 [1、100000]の範囲内であること。デフォルトは1000。 |
表 | table |
scoring_data |
(オプション)スコアリングするデータが含まれるデータベース表の名前。 |
スキーマ | schema |
public |
(オプション)スコアリングする表が含まれるスキーマの名前。 |
備考
table
およびschema
、またはquery
を指定する必要があります。
完全なAPI例については、例セクションを参照してください。
許可対象の送信元IPアドレス¶
DataRobotから開始される接続は、以下のIPアドレスのいずれかから行われます。
ホスト:https://app.datarobot.com | ホスト:https://app.eu.datarobot.com | ホスト:https://app.jp.datarobot.com |
---|---|---|
100.26.66.209 | 18.200.151.211 | 52.199.145.51 |
54.204.171.181 | 18.200.151.56 | 52.198.240.166 |
54.145.89.18 | 18.200.151.43 | 52.197.6.249 |
54.147.212.247 | 54.78.199.18 | |
18.235.157.68 | 54.78.189.139 | |
3.211.11.187 | 54.78.199.173 | |
52.1.228.155 | 18.200.127.104 | |
3.224.51.250 | 34.247.41.18 | |
44.208.234.185 | 99.80.243.135 | |
3.214.131.132 | 63.34.68.62 | |
3.89.169.252 | 34.246.241.45 | |
3.220.7.239 | 52.48.20.136 | |
52.44.188.255 | ||
3.217.246.191 |
備考
これらのIPアドレスは、DataRobot使用のためにのみ予約されています。
BigQueryスコアリング¶
スコアリングにBigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings
)を使用してデータソースの詳細を指定します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
bigquery |
BigQuery APIを使用して、Google Cloud Storageにデータをアンロードし、それを入力として使用します。 |
データセット | dataset |
my_dataset |
使用するBigQueryデータセット |
表 | table |
my_table |
BigQueryの表またはビューは入力として使用されるデータセットです。 |
バケット | bucket |
my-bucket-in-gcs |
データをエクスポートするバケット |
+ 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報を追加フィールドを有効にします。 資格情報の安全な保存を参照してください。 |
完全なAPI例については、例セクションを参照してください。
Snowflakeスコアリング¶
JDBCを使用してデータを転送すると、IOPS(1秒あたりの入力/出力操作)の点でコストがかかり、データウェアハウスの費用がかさむ可能性があります。 このアダプターは、クラウドストレージと一括挿入を使用してハイブリッドJDBCクラウドストレージソリューションを作成することで、予測スコアリング時のデータベースエンジンの負荷を軽減させます。
次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings
)を使用してデータソースの詳細を提供します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
snowflake |
アダプタータイプ。 |
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SnowflakeデータソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。 |
表 | table |
SCORING_DATA |
(オプション)スコアリングするデータを含むSnowflakeの表の名前。 |
スキーマ | schema |
PUBLIC |
(オプション)スコアリングする表を含むスキーマの名前。 |
SQLクエリー | query |
SELECT feature1, feature2, feature3 FROM diabetes |
(オプション)データベースに対して実行するカスタムクエリー。 |
クラウドストレージタイプ | cloudStorageType |
s3 |
Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3 /azure /gcp 。 |
外部ステージ | externalStage |
my_s3_stage |
Snowflakeの外部ステージ。 UIで、外部ステージを使用をオンに切り替えて、外部ステージフィールドを有効にします。 |
+ 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 |
完全なAPI例については、例セクションを参照してください。
Synapseスコアリング¶
Synapseをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings
)を使用してデータソースの詳細を指定します。
UIフィールド | パラメーター | 例 | 説明 |
---|---|---|---|
ソースタイプ | type |
synapse |
アダプタータイプ。 |
+ 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SynapseデータソースのID。 UIで、Synapseデータ接続を選択するか、新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。 |
外部データソース | externalDatasource |
my_data_source |
Synapse外部データソースの名前。 |
表 | table |
SCORING_DATA |
(オプション)スコアリングするデータを含むSynapseの表の名前。 |
スキーマ | schema |
dbo |
(オプション)スコアリングする表を含むスキーマの名前。 |
SQLクエリー | query |
SELECT feature1, feature2, feature3 FROM diabetes |
(オプション)データベースに対して実行するカスタムクエリー。 |
資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Synapseのユーザー名とパスワードを含む保存済み資格情報のID。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
+ 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Azure Blobストレージ用の保存済み資格情報のID。 UIで、この外部データソースには資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。 |
完全なAPI例については、例セクションを参照してください。
備考
Synapseは、デフォルトのMicrosoft SQL Serverよりも少ない照合をサポートします。 詳細については、Synapseドキュメントを参照してください。