Skip to content

予測入力オプション

予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測ソースを設定できます。 このトピックでは、UIとAPIの両方の取り込みオプションについて説明します。

備考

サポートされている入力オプションの詳細なリストについては、バッチ予測でサポートされているデータソースを参照してください。

取込みオプション 説明
ローカルファイルストリーミング URLエンドポイントを介して入力データをストリーミングし、ジョブが実行状態に移行したときにすぐに処理できるようにします。
HTTPスコアリング スコアリングのために絶対URLから入力データをストリーミングします。 このオプションによって、Amazon S3、Azure、Google Cloud Platformの事前署名付きURLからデータを読み込むことができます。
データベース接続
JDBCスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、JDBC互換のデータベースから予測データを読み込みます。
SAP Datasphereスコアリング ジョブ定義またはバッチ予測APIを通じて提供されたデータソースの詳細を使用して、SAP Datasphereデータベースから予測データを読み取ります。
クラウドストレージ接続
Azure Blob Storageスコアリング Azure接続文字列からなるDataRobot資格情報で、Azure Blob Storageから入力データを読み込みます。
Google Cloud Storageスコアリング(GCP) JSON形式のアカウントキーからなるDataRobot資格情報で、Google Cloud Storageから入力データを読み込みます。
Amazon S3のスコアリング アクセスキー(IDとキー)とセッショントークン(オプション)からなるDataRobot資格情報で、パブリックまたはプライベートS3バケットから入力データを読み込みます。より大きなファイルの場合は、このオプションをお勧めします。
データウェアハウス接続
BigQueryスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、BigQueryでデータをスコアリングします。
Snowflakeスコアリング ジョブ定義またはバッチ予測APIを通じて提供されたデータソースの詳細を使い、Snowflakeを使用してデータをスコアリングします。
Azure Synapseスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Synapseでデータをスコアリングします。
その他の接続
AIカタログ/データレジストリデータセットのスコアリング DataRobotのAIカタログ/データレジストリで、データセットのスナップショットから入力データを読み込みます。
ラングラーレシピのスコアリング DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込みます。

カスタムCSV形式を使用中の場合は、CSVを処理するすべての入力オプションはその形式に従います。

ローカルファイルストリーミング

ローカルファイルの取込みには、特別なオプションはありません。 この取込みオプションでは、ジョブデータのcsvUploadリンクで指定されたURLへのPUTリクエストを使用して、ジョブのスコアリングデータをアップロードする必要があります。 ジョブが開始されます(または、予測インスタンスが既に使用されている場合は、ジョブが処理キューに入れられます)。

選択した予測インスタンスキューのその他のキュージョブがない場合は、アップロード中でもスコアリングが開始されます。

このユースケースを参照してください。

備考

スコアリングデータを送信し忘れると、ジョブは「初期化中」状態のままになります。

マルチパートアップロード

ローカルファイルの取込み処理では、csvUploadパラメーターで指定されたURLに、PUTリクエストを使用して、ジョブのスコアリングデータをアップロードする必要があるため、デフォルトでは、単一のPUTリクエストがジョブを開始します(予測インスタンスが占有されている場合は、処理のためにキューに入れます)。 バッチ予測のマルチパートアップロードを使用すると、デフォルトの動作をオーバーライドして、複数のファイルからスコアリングデータをアップロードできます。 このアップロードプロセスでは、複数のPUTリクエストの後に単一のPOSTリクエスト(finalizeMultipart)を必要とし、手動でマルチパートアップロードを完了させます。 この機能は、低速接続で大規模なデータセットをアップロードしたい場合や、ネットワークが頻繁に不安定になる場合に役立ちます。

備考

バッチ予測APIとローカルファイルの取り込みの詳細については、バッチ予測API予測取り込みオプションを参照してください。

マルチパートアップロードのエンドポイント

この機能により、次のマルチパートアップロードのエンドポイントがバッチ予測APIに追加されます。

エンドポイント 説明
PUT /api/v2/batchPredictions/:id/csvUpload/part/0/ スコアリングデータを複数の部分でcsvUploadで指定されたURLにアップロードします。 アップロードの各部分について、0を1つずつ順番に増やします。
POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/ マルチパートアップロードプロセスを完了します。 完了する前に、アップロードの各部分が終了していることを確認してください。

ローカルファイルの取り込み設定

ローカルファイルアダプターの取り込み設定により、バッチ予測APIのマルチパートアップロードをサポートする2つの新しいプロパティが追加されました。

プロパティ タイプ デフォルト 説明
intakeSettings.multipart ブーリアン false
  • truePUTリクエストを介して複数のファイルを送信し、POSTリクエスト(finalizeMultipart)を介してプロセスを手動で完了する必要があります。
  • falsePUTリクエストで1つのファイルが送信された後、取り込み量を確定します。
intakeSettings.async ブーリアン true
  • true:ファイル取り込みの最初のPUTリクエストが行われると、スコアリングジョブを開始します。
  • falsePUTリクエストが解決するか、finalizeMultipartPOSTリクエストが解決するまで、スコアリングジョブを延期します。
マルチパート取り込み設定

新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFileアダプターのintakeSettingsを設定します。

{
    "intakeSettings": {
        "type": "localFile",
        "multipart": true
    }
} 

これらのプロパティでは、ローカルファイルのアップロードワークフローを変更するため、以下を行う必要があります。

  • 任意の数の連番ファイルをアップロードします。

  • アップロードが完了すると、必要なすべてのファイルが正常にアップロードされたことを示します。

非同期取り込み設定

非同期を有効にして新しいマルチパートアップロードのワークフローを有効にするには、次のサンプルリクエストに示すように、localFileアダプターのintakeSettingsを設定します。

備考

multipart設定とは別にasync取り込み設定を使用することもできます。

{
    "intakeSettings": {
        "type": "localFile",
        "multipart": true,
        "async": false
    }
} 

バッチ予測の特徴量とは、最初のファイルアップロードでスコアリングジョブが開始され、特定の予測インスタンスに対して一度に1つのバッチ予測ジョブのみを実行できるということです。 この機能は、低速接続で大規模なデータセットをアップロードする場合に問題が発生する可能性があります。 このような場合、クライアントのアップロード速度によってボトルネックが発生し、他のジョブの処理がブロックされる可能性があります。 この潜在的なボトルネックを回避するために、上記の例に示すようにasyncfalseを設定できます。 この設定により、バッチ予測ジョブのキューへの送信が延期されます。

"async": falseの場合、ジョブがバッチ予測キューに入るポイントは、multipart設定によって異なります。

  • "multipart": trueの場合、ジョブはPOSTリクエストの後にキューに送信され、finalizeMultipartを解決します。

  • "multipart": falseの場合、最初のファイル取り込みPUTリクエストが解決された後、ジョブはキューに送信されます。

マルチパートアップロードリクエストの例

3部構成のマルチパートバッチ予測ジョブをアップロードするために必要なバッチ予測APIリクエストは次のようになります。

PUT /api/v2/batchPredictions/:id/csvUpload/part/0/

PUT /api/v2/batchPredictions/:id/csvUpload/part/1/

PUT /api/v2/batchPredictions/:id/csvUpload/part/2/

POST /api/v2/batchPredictions/:id/csvUpload/finalizeMultipart/ 

アップロードされた各部分は、ヘッダー付きの完全なCSVファイルです。

マルチパートアップロードの中止

終了したくないマルチパートアップロードを開始する場合は、既存のbatchPredictions中止ルートへのDELETEリクエストを使用できます。

DELETE /api/v2/batchPredictions/:id/ 

HTTPスコアリング

クラウドストレージアダプターに加えて、バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングしてスコアリングしてくれます。

パラメーター 説明
type http 入力にはHTTPを使用します。
url https://example.com/datasets/scoring.csv スコアリングするファイルの絶対URL。

URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv

httpアダプタは、S3Azure、またはGCPの署名済みURLからデータを取り込むために使用できます。

JDBCスコアリング

DataRobotは、バッチ予測のJDBCと互換性のあるデータベースからの読み取りをサポートしています。 バッチ予測APIでJDBCを使用するには、入力タイプとしてjdbcを指定します。 PUTリクエストにはファイルが必要ないため、予備検定がうまく行った場合は、スコアリングは直ちに開始され、ジョブは「実行中」に移行します。 これをサポートするために、このバッチ予測APIは外部データソースおよびデータ資格情報に安全に保存された資格情報を使用して統合します。

次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を提供します。

UIフィールド パラメーター 説明
ソースタイプ type jdbc 取り込みにはJDBCデータストアを使用します。
データ接続オプション
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 保存された資格情報のID。 資格情報の安全な保存を参照してください。
スキーマ schema public (オプション)スコアリングする表が含まれるスキーマの名前。
table scoring_data (オプション)スコアリングするデータが含まれるデータベース表の名前。
SQLクエリー query SELECT feature1, feature2, feature3 AS readmitted FROM diabetes (オプション)データベースに対して実行するカスタムクエリー。
使用非推奨のオプション
フェッチサイズ fetchSize (deprecated) 1000 使用非推奨fetchSizeは、最適なスループットを得るために動的に推測されるようになったので不要になりました。 (オプション)スループットとメモリー使用のバランスを取るために、カスタムfetchSize(一度に読む行数)が設定されます。 [1、100000]の範囲内であること。デフォルトは1000。

備考

tableおよびschema、またはqueryを指定する必要があります。

完全なAPI例については、例セクションを参照してください。

データウェアハウス接続

JDBCを使用してデータを転送すると、IOPS(1秒あたりの入力/出力操作)の点でコストがかかり、データウェアハウスの費用がかさむ可能性があります。 データウェアハウスアダプターは、クラウドストレージと一括挿入を使用して、JDBCとクラウドストレージのハイブリッドソリューションを作成することで、予測スコアリング時のデータベースエンジンの負荷を軽減します。 詳細については、 BigQuerySnowflake、および Synapseデータウェアハウスアダプターのセクションを参照してください。

許可対象の送信元IPアドレス

DataRobotから開始される接続は、許可されたIPアドレスから行われます。 許可対象の送信元IPアドレスで全リストをご覧ください。

SAP Datasphereスコアリング

プレミアム機能

SAP Datasphereのサポートは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ:SAP Datasphereコネクターを有効にする、SAP Datasphereとバッチ予測の連携を有効にする

SAP Datasphereをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたは バッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type datasphere 取り込みにはSAP Datasphereデータベースを使用します。
データ接続オプション
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。 UIで、データ接続を選択するか、 新しいデータ接続の追加をクリックします。 SAP Datasphere接続のドキュメントを参照してください。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Datasphereの保存された資格情報のID。 資格情報の安全な保存を参照してください。
catalog / スコアリング対象のテーブルを含むデータベースカタログの名前。
スキーマ schema public スコアリング対象のテーブルを含むデータベーススキーマの名前。
table scoring_data スコアリングするデータが含まれるデータベース表の名前。

Azure Blob Storageスコアリング

大容量ファイルのためのスコアリングオプションは、Azureです。 Azure Blob Storageからスコアリングするには、Azure Connection Stringを使用してDataRobotで資格情報を設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type azure 入力にはAzure Blob Storageを使用します。
URL url https://myaccount.blob.core.windows.net/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 資格情報の安全な保存を参照してください。

Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信のにおいて、クライアントを設定する際にのみ解読されます。

Google Cloud Storageスコアリング

DataRobotは、Google Cloud Storageアダプターをサポートしています。 Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type gcp 入力にはGoogle Cloud Storageを使用します。
URL url gcs://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。

GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。

Amazon S3のスコアリング

大きいファイルの場合、入力にはS3を使用することが推奨されます。 DataRobotは、パブリックおよびプライベート両方のバケットからファイルを取り込むことができます。 Amazon S3からスコアリングするには、アクセスキー(IDとキー)およびセッショントークン(オプション)で構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type s3 DataRobotでは、S3での取り込みを推奨しています。
URL url s3://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(csv)またはParquet(parquet)を選択。
デフォルト値:CSV
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。

AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。

備考

AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSドキュメントを参照してください。

BigQueryスコアリング

スコアリングにBigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type bigquery BigQuery APIを使用して、Google Cloud Storageにデータをアンロードし、それを入力として使用します。
データセット dataset my_dataset 使用するBigQueryデータセット
table my_table BigQueryの表またはビューは入力として使用されるデータセットです。
バケット bucket my-bucket-in-gcs データをエクスポートするバケット
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。

UIで、この接続には資格情報が必要ですを選択して、+ 資格情報を追加フィールドを有効にします。 資格情報の安全な保存を参照してください。

完全なAPI例については、例セクションを参照してください。

Snowflakeスコアリング

Snowflakeをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type snowflake アダプタータイプ。
データ接続オプション
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SnowflakeデータソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Snowflakeの保存された資格情報のID。
table SCORING_DATA (オプション)スコアリングするデータを含むSnowflakeの表の名前。
スキーマ schema PUBLIC (オプション)スコアリングする表を含むスキーマの名前。
SQLクエリー query SELECT feature1, feature2, feature3 FROM diabetes (オプション)データベースに対して実行するカスタムクエリー。
クラウドストレージタイプ cloudStorageType s3 Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3/azure/gcp
外部ステージ externalStage my_s3_stage Snowflakeの外部ステージ。 UIで、外部ステージを使用をオンに切り替えて、外部ステージフィールドを有効にします。
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。

完全なAPI例については、例セクションを参照してください。

Azure Synapseスコアリング

Synapseをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type synapse アダプタータイプ。
データ接続オプション
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SynapseデータソースのID。 UIで、Synapseデータ接続を選択するか、新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。
外部データソース externalDatasource my_data_source Synapse外部データソースの名前
table SCORING_DATA (オプション)スコアリングするデータを含むSynapseの表の名前。
スキーマ schema dbo (オプション)スコアリングする表を含むスキーマの名前。
SQLクエリー query SELECT feature1, feature2, feature3 FROM diabetes (オプション)データベースに対して実行するカスタムクエリー。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Synapseの保存された資格情報のID。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Azure Blobストレージ用の保存済み資格情報のID。 UIで、この外部データソースには資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。

完全なAPI例については、例セクションを参照してください。

備考

Synapseは、デフォルトのMicrosoft SQL Serverよりも少ない照合をサポートします。 詳細については、Synapseドキュメントを参照してください。

AIカタログ/データレジストリデータセットのスコアリング

AIカタログ/データレジストリデータセットから入力データを読み込む場合は、以下のオプションを使用できます。

UIフィールド パラメーター 説明
ソースタイプ type dataset UIで、AIカタログを選択します(NextGenではデータレジストリ)。
+ AIカタログからソースを選択 datasetId 5e4bc5b35e6e763beb9db14a AIカタログのデータセットID。

UIで、データセットを検索して選択し、このデータセットを使用(または、NextGenで確認)をクリックします。
+ バージョンを選択 datasetVersionId 5e4bc5555e6e763beb488dba AIカタログのデータセットバージョンID(オプション)

UIでは、特定のバージョンを使用チェックボックスを選択して、+ バージョンを選択フィールドを有効にします。 バージョンを検索して選択します。 datasetVersionIdが指定されていない場合は、指定したデータセットの最新バージョンがデフォルトとなります。

備考

指定したAIカタログデータセットの場合は、スコアリングするバージョンは正常に取り込まれたものであり、スナップショットである必要があります。

ラングラーレシピデータセットのスコアリング

DataRobot NextGenワークベンチで作成したラングラーレシピの入力データを Snowflakeデータ接続から読み込むには、次のオプションを使用できます。

ラングラーデータの接続

バッチ予測ジョブのWranglerレシピは、Snowflakeデータ接続またはAIカタログ/データレジストリから取り出したデータをサポートします。

UIフィールド パラメーター 説明
ソースタイプ type recipe UIで、ラングラーレシピを選択します。
+ ラングラーレシピを選択 recipeId 65fb040a42c170ee46230133 ラングラーレシピのデータセットID。

NextGenの予測ジョブUIで、ラングリングされたデータセットを検索して選択し、確認をクリックします。