AWS S3からのデータのインポート¶
このセクションでは、Amazon Web Services S3バケットからDataRobot AIカタログにデータを取り込み、機械学習のモデリングに使用できるようにする方法を説明します。
S3バケットに保存されたオブジェクトに基づいて機械学習モデルを構築するには、以下の手順を実行します。
-
AWS S3のデータセットオブジェクトに移動し、オブジェクトのURLをコピーします。
-
DataRobotでAIカタログタブを選択します。
-
カタログに追加をクリックし、URLを選択します。
-
URLから追加ウィンドウで、オブジェクトのURLを貼り付けて保存をクリックします。
DataRobotは、ローカルマシンからCSVファイルをアップロードするときと同様に、データを自動的に読み取り、データ型とデータのスキーマを推測します。
-
データが正常にアップロードされたので、右上隅にあるプロジェクトを作成をクリックして機械学習プロジェクトを開始します。
プライベートS3バケット¶
プライベートS3バケットからDataRobotにデータを取り込むこともできます。 たとえば、S3の事前署名付きURLから一時的なリンクを作成し、DataRobotがそれを使用してファイルを取得できます。
これを行う簡単な方法は、AWS Command Line Interface (CLI)を使用することです。
CLIをインストールして設定したら、次のようなコマンドを使用します。
aws s3 presign --expires-in 600 s3://bucket-name/path/to/file.csv
https://bucket-name.s3.amazonaws.com/path/to/file.csv?AWSAccessKeyId=<key>
この例で作成されたURLでは、誰でもプライベートバケットbucket-name
からプライベートファイルfile.csv
を読み取ることができます。 expires-in
パラメーターは、作成時に署名付きリンクを600秒間使用できるようにします。
独自のDataRobotインストール環境がある場合は、次のこともできます。
- アプリケーションのDataRobotサービスアカウントに、IAM権限を付与して、プライベートS3バケットを読み取ります。 DataRobotは、アクセス権限を持つ任意のS3ロケーションから取り込むことができます。
- S3データへのアクセスを制限するには、DataRobotにログインするユーザーのS3インパーソネーションを実装します。 これにはLDAP認証が必要であり、ユーザーに対して承認されたロールがLDAPの属性内で指定されます。
これらのオプションはどちらもs3://
URIパスを受け入れます。