Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

予測入力オプション

予測 > ジョブ定義タブまたはバッチ予測APIを使用して、予測ソースを設定できます。 このトピックでは、UIとAPIの両方の取り込みオプションについて説明します。

備考

サポートされている取り込みオプションの詳細なリストについては、予測バッチでサポートされているデータソースを参照してください。

取込みオプション 説明
ローカルファイルストリーミング URLエンドポイントを介して入力データをストリーミングし、ジョブが実行状態に移行したときにすぐに処理できるようにします。
AIカタログ/データレジストリデータセットのスコアリング DataRobotのAIカタログ/データレジストリで、データセットのスナップショットから入力データを読み込みます。
ラングラーレシピ(プレビュー) Read input data from a wrangler recipe created in the DataRobot NextGen Workbench from a Snowflake data connection.
HTTPスコアリング スコアリングのために絶対URLから入力データをストリーミングします。 このオプションによって、Amazon S3、Azure、Google Cloud Platformの事前署名付きURLからデータを読み込むことができます。
クラウドストレージの取込み
Amazon S3のスコアリング アクセスキー(IDとキー)とセッショントークン(オプション)からなるDataRobot資格情報で、パブリックまたはプライベートS3バケットから入力データを読み込みます。より大きなファイルの場合は、このオプションをお勧めします。
Azure Blob Storageスコアリング Azure接続文字列からなるDataRobot資格情報で、Azure Blob Storageから入力データを読み込みます。
Google Cloud Storageスコアリング JSON形式のアカウントキーからなるDataRobot資格情報で、Google Cloud Storageから入力データを読み込みます。
データベースの取込み
JDBCスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、JDBC互換のデータベースから予測データを読み込みます。
データウェアハウスの取込み
BigQueryスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、BigQueryでデータをスコアリングします。
Snowflakeスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Snowflakeでデータをスコアリングします。
Synapseスコアリング ジョブ定義またはバッチ予測APIで提供されたデータ送信元の詳細を使用して、Synapseでデータをスコアリングします。

カスタムCSV形式を使用中の場合は、CSVを処理するすべての入力オプションはその形式に従います。

ローカルファイルストリーミング

ローカルファイルの取込みには、特別なオプションはありません。 この取込みオプションでは、ジョブデータのcsvUploadリンクで指定されたURLへのPUTリクエストを使用して、ジョブのスコアリングデータをアップロードする必要があります。 ジョブが開始されます(または、予測インスタンスが既に使用されている場合は、ジョブが処理キューに入れられます)。

選択した予測インスタンスキューのその他のキュージョブがない場合は、アップロード中でもスコアリングが開始されます。

このユースケースを参照してください。

備考

スコアリングデータを送信し忘れると、ジョブは「初期化中」状態のままになります。

AIカタログデータセットのスコアリング

To read input data from an AI Catalog / Data Registry dataset, the following options are available:

UIフィールド パラメーター 説明
ソースタイプ type dataset UIで、AIカタログを選択します(NextGenではデータレジストリ)。
+ AIカタログからソースを選択 datasetId 5e4bc5b35e6e763beb9db14a The AI Catalog dataset ID.

In the UI, search for the dataset, select the dataset, then click Use the dataset (or Confirm in NextGen).
+ バージョンを選択 datasetVersionId 5e4bc5555e6e763beb488dba AIカタログのデータセットバージョンID(オプション)

UIでは、特定のバージョンを使用チェックボックスを選択して、+ バージョンを選択フィールドを有効にします。 バージョンを検索して選択します。 datasetVersionIdが指定されていない場合は、指定したデータセットの最新バージョンがデフォルトとなります。

備考

指定したAIカタログデータセットの場合は、スコアリングするバージョンは正常に取り込まれたものであり、スナップショットである必要があります。

Wrangler recipe dataset scoring

The following options are available to read input data from a wrangler recipe created in the DataRobot NextGen Workbench from a Snowflake data connection:

本機能の提供について

Wrangler recipes for Batch Prediction Jobs are off by default and only support data wrangled from a Snowflake data connection. この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。

機能フラグ:バッチ予測ジョブでラングラーレシピを有効にする、ワークベンチでのレシピ管理を有効にする

UIフィールド パラメーター 説明
ソースタイプ type レシピ UIで、ラングラーレシピを選択します。
+ ラングラーレシピを選択 recipeId 65fb040a42c170ee46230133 The Wrangler Recipe dataset ID.

In the NextGen prediction jobs UI, search for the wrangled dataset, select the dataset, then click Confirm.

Amazon S3のスコアリング

大きいファイルの場合、入力にはS3を使用することが推奨されます。 DataRobotは、パブリックおよびプライベート両方のバケットからファイルを取り込むことができます。 Amazon S3からスコアリングするには、アクセスキー(IDとキー)およびセッショントークン(オプション)で構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type s3 DataRobotでは、S3での取り込みを推奨しています。
URL url s3://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(デフォルト)または寄木細工。
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。

AWS資格情報は暗号化され、スコアリング時にAWSとの通信用にクライアントをセットアップするときにのみ解読されます。

備考

AWS内でプライベートAIクラウドを実行中の場合は、ジョブデータに明示的な資格情報を提供しないでS3バケットにアクセスするIAMインスタンスプロファイルを使用して、アプリケーションインスタンスの明示的な資格情報を指定できます。 詳細については、AWSドキュメントを参照してください。

Azure Blob Storageスコアリング

大容量ファイルのためのもう一つのスコアリングオプションは、Azureです。 Azure Blob Storageからスコアリングするには、Azure Connection Stringを使用してDataRobotで資格情報を設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type azure 入力にはAzure Blob Storageを使用します。
URL url https://myaccount.blob.core.windows.net/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(デフォルト)または寄木細工。
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。

Azureの資格情報は暗号化されており、スコアリング時にAzureとの通信のにおいて、クライアントを設定する際にのみ解読されます。

Google Cloud Storageスコアリング

DataRobotは、Google Cloud Storageアダプターもサポートしています。 Google Cloud Storageからスコアリングを行うには、JSON形式のアカウントキーで構成される資格情報をDataRobotで設定する必要があります。

UIフィールド パラメーター 説明
ソースタイプ type gcp 入力にはGoogle Cloud Storageを使用します。
URL url gcs://bucket-name/datasets/scoring.csv スコアリングするファイルの絶対URL。
形式 format csv (オプション)CSV(デフォルト)または寄木細工。
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。

GCP資格情報は暗号化されており、スコアリング時にGCPとの通信において、クライアントを設定する際にのみ解読されます。

HTTPスコアリング

クラウドストレージアダプターに加えて、バッチ予測を通常のURLに指定すると、DataRobotがデータをストリーミングしてスコアリングしてくれます。

パラメーター 説明
type http 入力にはHTTPを使用します。
url https://example.com/datasets/scoring.csv スコアリングするファイルの絶対URL。

URLには、オプションで次のようなユーザー名とパスワードを含めることができます。https://username:password@example.com/datasets/scoring.csv

httpアダプタは、S3Azure、またはGCPの署名済みURLからデータを取り込むために使用できます。

JDBCスコアリング

DataRobotは、バッチ予測のJDBCと互換性のあるデータベースからの読み取りをサポートしています。

バッチ予測APIでJDBCを使用するには、入力タイプとしてjdbcを指定します。 PUTリクエストにはファイルが必要ないため、予備検定がうまく行った場合は、スコアリングは直ちに開始され、ジョブは「実行中」に移行します。 これをサポートするために、このバッチ予測APIは外部データソースおよびデータ資格情報に安全に保存された資格情報を使用して統合します。

次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を提供します。

UIフィールド パラメーター 説明
ソースタイプ type jdbc JDBCデータストアを出力として使用します。
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a 外部データソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 ユーザー名とパスワードを含む保存資格情報のID。 資格情報の安全な保存を参照してください。
使用非推奨のオプション fetchSize (deprecated) 1000 使用非推奨:fetchSizeは、最適なスループットを得るために動的に推測されるようになったので不要になりました。 (オプション)スループットとメモリー使用のバランスを取るために、カスタムfetchSize(一度に読む行数)が設定されます。 [1、100000]の範囲内であること。デフォルトは1000。
table scoring_data (オプション)スコアリングするデータが含まれるデータベース表の名前。
スキーマ schema public (オプション)スコアリングする表が含まれるスキーマの名前。

備考

tableおよびschema、またはqueryを指定する必要があります。

完全なAPI例については、例セクションを参照してください。

許可対象の送信元IPアドレス

DataRobotから開始される接続は、以下のIPアドレスのいずれかから行われます。

ホスト:https://app.datarobot.com ホスト:https://app.eu.datarobot.com
100.26.66.209 18.200.151.211
54.204.171.181 18.200.151.56
54.145.89.18 18.200.151.43
54.147.212.247 54.78.199.18
18.235.157.68 54.78.189.139
3.211.11.187 54.78.199.173
52.1.228.155 18.200.127.104
3.224.51.250 34.247.41.18
44.208.234.185 99.80.243.135
3.214.131.132 63.34.68.62
3.89.169.252 34.246.241.45
3.220.7.239 52.48.20.136
52.44.188.255
3.217.246.191

備考

これらのIPアドレスは、DataRobot使用のためにのみ予約されています。

BigQueryスコアリング

スコアリングにBigQueryを使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type bigquery BigQuery APIを使用して、Google Cloud Storageにデータをアンロードし、それを入力として使用します。
データセット dataset my_dataset 使用するBigQueryデータセット
table my_table BigQueryの表またはビューは入力として使用されるデータセットです。
バケット bucket my-bucket-in-gcs データをエクスポートするバケット
+ 資格情報を追加 credentialId 5e4bc5555e6e763beb488dba このバケットに対する明示的なアクセス資格情報が必要な場合は必須です(そうでない場合はオプション)。

UIで、この接続には資格情報が必要ですを選択して、+ 資格情報を追加フィールドを有効にします。 資格情報の安全な保存を参照してください。

完全なAPI例については、例セクションを参照してください。

Snowflakeスコアリング

JDBCを使用してデータを転送すると、IOPS(1秒あたりの入力/出力操作)の点でコストがかかり、データウェアハウスの費用がかさむ可能性があります。 このアダプターは、クラウドストレージと一括挿入を使用してハイブリッドJDBCクラウドストレージソリューションを作成することで、予測スコアリング時のデータベースエンジンの負荷を軽減させます。

次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を提供します。

UIフィールド パラメーター 説明
ソースタイプ type snowflake アダプタータイプ。
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SnowflakeデータソースのID。 UIで、Snowflakeデータ接続を選択するか、新しいデータ接続を追加をクリックします。 アカウントと承認のフィールドに入力します。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Snowflakeのユーザー名とパスワードを含む保存済み資格情報のID。
table SCORING_DATA (オプション)スコアリングするデータを含むSnowflakeの表の名前。
スキーマ schema PUBLIC (オプション)スコアリングする表を含むスキーマの名前。
SQLクエリー query SELECT feature1, feature2, feature3 FROM diabetes (オプション)データベースに対して実行するカスタムクエリー。
クラウドストレージタイプ cloudStorageType s3 Snowflake外部ステージで使用するクラウドストレージバックエンドのタイプ。 次の3つのクラウドストレージプロバイダーの1つである場合があります。 s3/azure/gcp
外部ステージ externalStage my_s3_stage Snowflakeの外部ステージ。 UIで、外部ステージを使用をオンに切り替えて、外部ステージフィールドを有効にします。
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Snowflakeステージで使用するストレージバックエンド(S3/Azure/GCS)の保存済み資格情報のID。 UIで、このURLは資格情報が必要ですを選択して、+資格情報の追加フィールドを有効にします。

完全なAPI例については、例セクションを参照してください。

Synapseスコアリング

Synapseをスコアリングに使用するには、次の表で説明するように、予測 > ジョブ定義タブまたはバッチ予測APIintakeSettings)を使用してデータソースの詳細を指定します。

UIフィールド パラメーター 説明
ソースタイプ type synapse アダプタータイプ。
+ 接続を選択する dataStoreId 5e4bc5b35e6e763beb9db14a SynapseデータソースのID。 UIで、Synapseデータ接続を選択するか、新しいデータ接続の追加をクリックします。 アカウントと承認のフィールドに入力します。
外部データソース externalDatasource my_data_source Synapse外部データソースの名前
table SCORING_DATA (オプション)スコアリングするデータを含むSynapseの表の名前。
スキーマ schema dbo (オプション)スコアリングする表を含むスキーマの名前。
SQLクエリー query SELECT feature1, feature2, feature3 FROM diabetes (オプション)データベースに対して実行するカスタムクエリー。
資格情報を入力してください credentialId 5e4bc5555e6e763beb9db147 Synapseのユーザー名とパスワードを含む保存済み資格情報のID。 このURLの明示的なアクセス資格情報が必要な場合は必須、そうでない場合はオプションです。 資格情報の安全な保存を参照してください。
+ 資格情報を追加 cloudStorageCredentialId 6e4bc5541e6e763beb9db15c Azure Blobストレージ用の保存済み資格情報のID。 UIで、この外部データソースには資格情報が必要ですを選択して、+ 資格情報の追加フィールドを有効にします。

完全なAPI例については、例セクションを参照してください。

備考

Synapseは、デフォルトのMicrosoft SQL Serverよりも少ない照合をサポートします。 詳細については、Synapseドキュメントを参照してください。


更新しました April 8, 2024