予測入力オプション¶
予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測ソースを設定できます。 このトピックでは、UIとAPIの両方の取り込みオプションについて説明します。
備考
サポートされている入力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。
| 取込みオプション | 説明 |
|---|---|
| ローカルファイルストリーミング | URLエンドポイントを介して入力データをストリーミングし、ジョブが実行状態に移行したときにすぐに処理できるようにします。 |
| HTTPスコアリング | スコアリングのために絶対URLから入力データをストリーミングします。 このオプションによって、Amazon S3、Azure、Google Cloud Platformの事前署名付きURLからデータを読み込むことができます。 |
| データベース接続 | |
| JDBCスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、JDBC互換のデータベースから予測データを読み込みます。 |
| SAP Datasphereスコアリング | ジョブ定義またはバッチ予測APIを通じて提供されたデータソースの詳細を使用して、SAP Datasphereデータベースから予測データを読み取ります。 |
| Trino scoring | Read prediction data from a Trino database with data source details supplied through a job definition or the Batch Prediction API. |
| クラウドストレージ接続 | |
| Azure Blob Storageスコアリング | Azure接続文字列からなるDataRobot資格情報で、Azure Blob Storageから入力データを読み込みます。 |
| Google Cloud Storageスコアリング(GCP) | JSON形式のアカウントキーからなるDataRobot資格情報で、Google Cloud Storageから入力データを読み込みます。 |
| Amazon S3のスコアリング | アクセスキー(IDとキー)とセッショントークン(オプション)からなるDataRobot資格情報で、パブリックまたはプライベートS3バケットから入力データを読み込みます。より大きなファイルの場合は、このオプションをお勧めします。 |
| データウェアハウス接続 | |
| BigQueryスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、BigQueryでデータをスコアリングします。 |
| Snowflakeスコアリング | ジョブ定義またはバッチ予測APIを通じて提供されたデータソースの詳細を使い、Snowflakeを使用してデータをスコアリングします。 |
| Azure Synapseスコアリング | ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Synapseでデータをスコアリングします。 |
| その他の接続 | |
| AIカタログ/データレジストリデータセットのスコアリング | DataRobotのAIカタログ/データレジストリで、データセットのスナップショットから入力データを読み込みます。 |
| ラングラーレシピのスコアリング | DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込みます。 |
カスタムCSV形式を使用中の場合は、CSVを処理するすべての入力オプションはその形式に従います。
ローカルファイルストリーミング¶
ローカルファイルの取込みには、特別なオプションはありません。 この取込みオプションでは、ジョブデータのcsvUploadリンクで指定されたURLへのPUTリクエストを使用して、ジョブのスコアリングデータをアップロードする必要があります。 ジョブが開始されます(または、予測インスタンスが既に使用されている場合は、ジョブが処理キューに入れられます)。
選択した予測インスタンスキューのその他のキュージョブがない場合は、アップロード中でもスコアリングが開始されます。
このユースケースを参照してください。
備考
スコアリングデータを送信し忘れると、ジョブは「初期化中」状態のままになります。
マルチパートアップロード¶
ローカルファイルの取込み処理では、csvUploadパラメーターで指定されたURLに、PUTリクエストを使用して、ジョブのスコアリングデータをアップロードする必要があるため、デフォルトでは、単一のPUTリクエストがジョブを開始します(予測インスタンスが占有されている場合は、処理のためにキューに入れます)。 バッチ予測のマルチパートアップロードを使用すると、デフォルトの動作をオーバーライドして、複数のファイルからスコアリングデータをアップロードできます。 このアップロードプロセスでは、複数のPUTリクエストの後に単一のPOSTリクエスト(finalizeMultipart)を必要とし、手動でマルチパートアップロードを完了させます。 この機能は、低速接続で大規模なデータセットをアップロードしたい場合や、ネットワークが頻繁に不安定になる場合に役立ちます。
備考
バッチ予測APIとローカルファイルの取り込みの詳細については、バッチ予測APIと予測取り込みオプションを参照してください。
マルチパートアップロードのエンドポイント¶
この機能により、次のマルチパートアップロードのエンドポイントがバッチ予測APIに追加されます。
| エンドポイント | 説明 |
|---|---|
PUT /api/v2/batchPredictions/:id/csvUpload/part/0/ |
スコアリングデータを複数の部分でcsvUploadで指定されたURLにアップロードします。 アップロードの各部分について、0を1つずつ順番に増やします。 |
POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/ |
マルチパートアップロードプロセスを完了します。 完了する前に、アップロードの各部分が終了していることを確認してください。 |
ローカルファイルの取り込み設定¶
ローカルファイルアダプターの取り込み設定により、バッチ予測APIのマルチパートアップロードをサポートする2つの新しいプロパティが追加されました。
| プロパティ | タイプ | デフォルト | 説明 |
|---|---|---|---|
intakeSettings.multipart |
ブーリアン | false |
|
intakeSettings.async |
ブーリアン | true |
|
マルチパート取り込み設定¶
新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFileアダプターのintakeSettingsを設定します。
{
"intakeSettings": {
"type": "localFile",
"multipart": true
}
}
これらのプロパティでは、ローカルファイルのアップロードワークフローを変更するため、以下を行う必要があります。
-
任意の数の連番ファイルをアップロードします。
-
アップロードが完了すると、必要なすべてのファイルが正常にアップロードされたことを示します。
非同期取り込み設定¶
非同期を有効にして新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFileアダプターのintakeSettingsを設定します。
備考
multipart設定とは別にasync取り込み設定を使用することもできます。
{
"intakeSettings": {
"type": "localFile",
"multipart": true,
"async": false
}
}
バッチ予測の特徴量とは、最初のファイルアップロードでスコアリングジョブが開始され、特定の予測インスタンスに対して一度に1つのバッチ予測ジョブのみを実行できるということです。 この機能は、低速接続で大規模なデータセットをアップロードする場合に問題が発生する可能性があります。 このような場合、クライアントのアップロード速度によってボトルネックが発生し、他のジョブの処理がブロックされる可能性があります。 この潜在的なボトルネックを回避するために、上記の例に示すようにasyncにfalseを設定できます。 この設定により、バッチ予測ジョブのキューへの送信が延期されます。
"async": falseの場合、ジョブがバッチ予測キューに入るポイントは、multipart設定によって異なります。
-
"multipart": trueの場合、ジョブはPOSTリクエストの後にキューに送信され、finalizeMultipartを解決します。 -
"multipart": falseの場合、最初のファイル取り込みPUTリクエストが解決された後、ジョブはキューに送信されます。
マルチパートアップロードリクエストの例¶
3部構成のマルチパートバッチ予測ジョブをアップロードするために必要なバッチ予測APIリクエストは次のようになります。
PUT /api/v2/batchPredictions/:id/csvUpload/part/0/
PUT /api/v2/batchPredictions/:id/csvUpload/part/1/
PUT /api/v2/batchPredictions/:id/csvUpload/part/2/
POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/
アップロードされた各部分は、ヘッダー付きの完全なCSVファイルです。
マルチパートアップロードの中止¶
終了したくないマルチパートアップロードを開始する場合は、既存のbatchPredictions中止ルートへのDELETEリクエストを使用できます。
DELETE /api/v2/batchPredictions/:id/
HTTPスコアリング¶
クラウドストレージアダプターに加えて、バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングしてスコアリングしてくれます。
| パラメーター | 例 | 説明 |
|---|---|---|
type |
http |
入力にはHTTPを使用します。 |
url |
https://example.com/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv
httpアダプタは、S3、Azure、またはGCPの署名済みURLからデータを取り込むために使用できます。
JDBCスコアリング¶
DataRobotは、バッチ予測のJDBCと互換性のあるデータベースからの読み取りをサポートしています。 バッチ予測APIでJDBCを使用するには、入力タイプとしてjdbcを指定します。 PUTリクエストにはファイルが必要ないため、予備検定がうまく行った場合は、スコアリングは直ちに開始され、ジョブは「実行中」に移行します。 これをサポートするために、このバッチ予測APIは外部データソースおよびデータ資格情報に安全に保存された資格情報を使用して統合します。
次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings)を使用してデータソースの詳細を提供します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
jdbc |
取り込みにはJDBCデータストアを使用します。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
保存された資格情報のID。 資格情報の安全な保存を参照してください。 |
| スキーマ | schema |
public |
(オプション)スコアリングする表が含まれるスキーマの名前。 |
| 表 | table |
scoring_data |
(オプション)スコアリングするデータが含まれるデータベース表の名前。 |
| SQLクエリー | query |
SELECT feature1, feature2, feature3 AS readmitted FROM diabetes |
(オプション)データベースに対して実行するカスタムクエリー。 |
| 使用非推奨のオプション | |||
| フェッチサイズ | fetchSize (deprecated) |
1000 |
使用非推奨:fetchSizeは、最適なスループットを得るために動的に推測されるようになったので不要になりました。 (オプション)スループットとメモリー使用のバランスを取るために、カスタムfetchSize(一度に読む行数)が設定されます。 [1、100000]の範囲内であること。デフォルトは1000。 |
備考
tableおよびschema、またはqueryを指定する必要があります。
完全なAPI例については、例セクションを参照してください。
データウェアハウス接続
JDBCを使用してデータを転送すると、IOPS(1秒あたりの入力/出力操作)の点でコストがかかり、データウェアハウスの費用がかさむ可能性があります。 データウェアハウスアダプターは、クラウドストレージと一括挿入を使用して、JDBCとクラウドストレージのハイブリッドソリューションを作成することで、予測スコアリング時のデータベースエンジンの負荷を軽減します。 詳細については、 BigQuery、 Snowflake、および Synapseデータウェアハウスアダプターのセクションを参照してください。
許可対象の送信元IPアドレス¶
DataRobotから開始される接続は、許可されたIPアドレスから行われます。 許可対象の送信元IPアドレスで全リストをご覧ください。
SAP Datasphereスコアリング¶
プレミアム機能
SAP Datasphereのサポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:SAP Datasphereコネクターを有効にする、SAP Datasphereとバッチ予測の連携を有効にする
SAP Datasphereをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測API(intakeSettings)を使用してデータソースの詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
datasphere |
取り込みにはSAP Datasphereデータベースを使用します。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 SAP Datasphere接続のドキュメントを参照してください。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Datasphereの保存された資格情報のID。 資格情報の安全な保存を参照してください。 |
catalog |
/ |
スコアリング対象のテーブルを含むデータベースカタログの名前。 | |
| スキーマ | schema |
public |
スコアリング対象のテーブルを含むデータベーススキーマの名前。 |
| 表 | table |
scoring_data |
スコアリングするデータが含まれるデータベース表の名前。 |
Trino scoring¶
To use Trino, supply data source details using the Predictions > Job Definitions tab or the Batch Prediction API (intakeSettings) as described in the table below.
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
trino |
Use a Trino database for intake. |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 |
| + 資格情報を追加 | credentialId |
5e96092ef7e8773ddbdbabed |
The ID of stored credentials for the external Trino database connection. |
| カタログ | catalog |
starburst_catalog |
The Trino database catalog containing the source table. |
| スキーマ | schema |
analytics |
The Trino schema containing the source table. |
| 表 | table |
input_data_table |
The Trino table from which to read input data. |
Trino column name case requirement
Use lowercase only for column names in the dataset used to train a project. Trino sanitizes column names automatically (unquoted identifiers are lowercased), so mixed-case or uppercase column names can cause column inconsistency errors when reading from Trino for batch scoring. This applies even when creating tables with quoted column names—Trino still stores them as lowercase. For more information, see trinodb/trino#17.
Azure Blob Storageスコアリング¶
大容量ファイルのためのスコアリングオプションは、Azureです。 Azure Blob Storageからスコアリングするには、Azure Connection Stringを使用してDataRobotで資格情報を設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
azure |
入力にはAzure Blob Storageを使用します。 |
| URL | url |
https://myaccount.blob.core.windows.net/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 資格情報の安全な保存を参照してください。 |
Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信のにおいて、クライアントを設定する際にのみ解読されます。
Google Cloud Storageスコアリング¶
DataRobotは、Google Cloud Storageアダプターをサポートしています。 Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
gcp |
入力にはGoogle Cloud Storageを使用します。 |
| URL | url |
gcs://bucket-name/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。
Amazon S3のスコアリング¶
大きいファイルの場合、入力にはS3を使用することが推奨されます。 DataRobotは、パブリックおよびプライベート両方のバケットからファイルを取り込むことができます。 Amazon S3からスコアリングするには、アクセスキー(IDとキー)およびセッショントークン(オプション)で構成される資格情報をDataRobotで設定する必要があります。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
s3 |
DataRobotでは、S3での取り込みを推奨しています。 |
| URL | url |
s3://bucket-name/datasets/scoring.csv |
スコアリングするファイルの絶対URL。 |
| 形式 | format |
csv |
(オプション)CSV(csv)またはParquet(parquet)を選択。 デフォルト値:CSV |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。
備考
AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSドキュメントを参照してください。
BigQueryスコアリング¶
スコアリングにBigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings)を使用してデータソースの詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
bigquery |
BigQuery APIを使用して、Google Cloud Storageにデータをアンロードし、それを入力として使用します。 |
| データセット | dataset |
my_dataset |
使用するBigQueryデータセット |
| 表 | table |
my_table |
BigQueryの表またはビューは入力として使用されるデータセットです。 |
| バケット | bucket |
my-bucket-in-gcs |
データをエクスポートするバケット |
| + 資格情報を追加 | credentialId |
5e4bc5555e6e763beb488dba |
このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。 UIで、この接続には資格情報が必要ですを選択して、+ 資格情報を追加フィールドを有効にします。 資格情報の安全な保存を参照してください。 |
完全なAPI例については、例セクションを参照してください。
Snowflakeスコアリング¶
To use Snowflake for scoring, supply data source details using the Predictions > Job Definitions tab or the Batch Prediction API (intakeSettings) as described in the table below.
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
snowflake |
アダプタータイプ。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SnowflakeデータソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Snowflakeの保存された資格情報のID。 |
| 表 | table |
SCORING_DATA |
(オプション)スコアリングするデータを含むSnowflakeの表の名前。 |
| スキーマ | schema |
PUBLIC |
(オプション)スコアリングする表を含むスキーマの名前。 |
| SQLクエリー | query |
SELECT feature1, feature2, feature3 FROM diabetes |
(オプション)データベースに対して実行するカスタムクエリー。 |
| クラウドストレージタイプ | cloudStorageType |
s3 |
Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3/azure/gcp。 |
| 外部ステージ | externalStage |
my_s3_stage |
Snowflakeの外部ステージ。 UIで、外部ステージを使用をオンに切り替えて、外部ステージフィールドを有効にします。 |
| + 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 |
完全なAPI例については、例セクションを参照してください。
Azure Synapseスコアリング¶
Synapseをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測API(intakeSettings)を使用してデータソースの詳細を指定します。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
synapse |
アダプタータイプ。 |
| Data connection parameters | |||
| + 接続を選択する | dataStoreId |
5e4bc5b35e6e763beb9db14a |
SynapseデータソースのID。 UIで、Synapseデータ接続を選択するか、新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。 |
| 外部データソース | externalDatasource |
my_data_source |
Synapse外部データソースの名前。 |
| 表 | table |
SCORING_DATA |
(オプション)スコアリングするデータを含むSynapseの表の名前。 |
| スキーマ | schema |
dbo |
(オプション)スコアリングする表を含むスキーマの名前。 |
| SQLクエリー | query |
SELECT feature1, feature2, feature3 FROM diabetes |
(オプション)データベースに対して実行するカスタムクエリー。 |
| 資格情報を入力してください | credentialId |
5e4bc5555e6e763beb9db147 |
Synapseの保存された資格情報のID。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。 |
| + 資格情報を追加 | cloudStorageCredentialId |
6e4bc5541e6e763beb9db15c |
Azure Blobストレージ用の保存済み資格情報のID。 UIで、この外部データソースには資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。 |
完全なAPI例については、例セクションを参照してください。
備考
Synapseは、デフォルトのMicrosoft SQL Serverよりも少ない照合をサポートします。 詳細については、Synapseドキュメントを参照してください。
AIカタログ/データレジストリデータセットのスコアリング¶
AIカタログ/データレジストリデータセットから入力データを読み込む場合は、以下のオプションを使用できます。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
dataset |
UIで、AIカタログを選択します(NextGenではデータレジストリ)。 |
| + AIカタログからソースを選択 | datasetId |
5e4bc5b35e6e763beb9db14a |
AIカタログのデータセットID。 UIで、データセットを検索して選択し、このデータセットを使用(または、NextGenで確認)をクリックします。 |
| + バージョンを選択 | datasetVersionId |
5e4bc5555e6e763beb488dba |
AIカタログのデータセットバージョンID(オプション) UIでは、特定のバージョンを使用チェックボックスを選択して、+ バージョンを選択フィールドを有効にします。 バージョンを検索して選択します。 datasetVersionIdが指定されていない場合は、指定したデータセットの最新バージョンがデフォルトとなります。 |
備考
指定したAIカタログデータセットの場合は、スコアリングするバージョンは正常に取り込まれたものであり、スナップショットである必要があります。
ラングラーレシピデータセットのスコアリング¶
DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込むには、次のオプションを使用できます。
ラングラーデータの接続
バッチ予測ジョブのWranglerレシピは、Snowflakeデータ接続またはAIカタログ/データレジストリから取り出したデータをサポートします。
| UIフィールド | パラメーター | 例 | 説明 |
|---|---|---|---|
| ソースタイプ | type |
recipe |
UIで、ラングラーレシピを選択します。 |
| + ラングラーレシピを選択 | recipeId |
65fb040a42c170ee46230133 |
ラングラーレシピのデータセットID。 NextGenの予測ジョブUIで、ラングリングされたデータセットを検索して選択し、確認をクリックします。 |