DataRobotへの直接インポート¶
このセクションでは、DataRobotにデータをインポートする詳細なステップを説明します。 データをインポートする前に、DataRobotのデータガイドラインを確認して、ファイル形式やサイズを含むデータセットを理解します。
備考
このセクションでは、データソースが設定されていることを前提に説明します。 データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成についてはJDBC接続手順を参照してください。
使用を開始するには¶
モデルを作成するためには、まずデータをインポートしなければなりません。 使用を開始するには:
-
以下のいずれかの方法で新規のDataRobotプロジェクトを作成します。
-
DataRobotにサインインして、左上のDataRobotのロゴをクリックします。
-
右上にあるプロジェクトフォルダを開き、新規プロジェクトの作成リンクをクリックします。
-
-
新規プロジェクトページが表示されたら、受け入れ可能なファイルタイプをページにインポートする方法を選択します。 (受け入れ可能なファイルタイプは画面の最下部に一覧表示されています。) 特定のアップロード方法がクラスターで無効化されている場合、対応する取込みボタンはグレー表示されます。
インポート方法¶
DataRobotにサインインすると、データをインポートしてプロジェクトを開始できます。 データをインポートする方法を以下に示します。
備考
以下のセクションで説明する通り、一部のインポート方法は組織内のユーザーが使用するためには、事前に設定する必要があります。
方法 | 説明 |
---|---|
ドラッグアンドドロップ | データセットをDataRobotにドラッグしてアップロードを開始します。 |
既存のデータソースの使用 | 設定されたデータソースからインポートします。 |
URLからのデータセットのインポート | データをインポートするURLを指定します。 |
ローカルファイルのインポート | ローカルファイルを参照してインポートします。 |
S3からのファイルのインポート | AWS S3バケットからアップロードします。 |
Google Cloud Storageからのファイルのインポート | Google Cloudから直接インポートします。 |
Azure Blob Storageからのファイルのインポート | Azure Blobから直接インポートします。 |
備考
クラスターでは特定のアップロード方法を無効にすることができます。無効になった方法に関するボタンが表示されない場合があります。 設定されたインポート方法については、システム管理者にお問い合わせください。
より大きなデータセットの場合、DataRobotは、データを事前に表示し、プロジェクトオプションを選択できる特殊な処理を提供します。
ドラッグアンドドロップ¶
ドラッグアンドドロップを使用するには、ファイルをアプリケーションにドロップします。 しかし、サイズの大きいファイル(100MB以上)をドロップする場合は、アップロードプロセスがハングする可能性があります。 その場合、以下のように対応してください。
-
再試行する。
-
サポートされている形式にファイルを圧縮して、再試行する。
-
ファイルをリモートデータストア(S3など)に保存して、サイズの大きいファイルでの安定性が高いURL取込みを使用する。
-
セキュリティの懸念がある場合、一時的に署名されたS3 URLを使用します。
既存のデータソースの使用¶
この方法は、データソースが既に設定されている場合に使用できます。 データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成の詳細についてはJDBC接続手順を参照してください。
備考
DataRobotがデータソースオプションから取り込む場合、プロジェクトで使用する選択したデータベース行のコピーを作成します。
既存のデータソースを使用するには、以下の手順を実行します。
-
新しいプロジェクト画面でデータソースをクリックします。
-
目的のデータソースを選択して次へをクリックします。
-
データベース設定に対して保存された資格情報を使用するか、新しい資格情報を入力します。
-
保存してサインインをクリックします。
URLからのデータセットのインポート¶
URLからデータをインポートするには、以下の手順を実行します。
-
新しいプロジェクト画面でURLをクリックします。
-
データセットのURLを入力します。 これは、ローカル、HTTP、HTTPS、Google Cloud Storage、Azure Blob Storage、またはS3です。
備考
URLを使用してGoogle Cloud、Azure Blob Storage、またはS3からインポートする機能を、組織のインストールに合わせて設定する必要があります。
-
プロジェクトを作成をクリックして新しいプロジェクトを作成します。
ローカルファイルのインポート¶
データをクライアントにコピーしてブラウザからアップロードする代わりに、URLリンク(file:///local/file/location
など)を指定できます。 クラスターに接続されたネットワークストレージドライブからファイルがDataRobotに取り込まれます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
マネージドAIプラットフォームユーザーは、ローカルにマウントされたファイルをDataRobotに直接ロードできる機能を使用できません。
S3からのファイルのインポート¶
このインポート方法が設定されたセルフマネージドAIプラットフォームインストールでは、S3へのリンクを(たとえばhttps://s3.amazonaws.com/bucket/file?AWSAccessKeyId…
ではなく)s3://<bucket-name>/<file-name.csv>
として指定することにより、URLを介してS3ファイルを取り込むことができます。 オブジェクトおよび区分けをパブリックに設定せずにS3からファイルを取込むことができます。
備考
この方法は、マネージドAIプラットフォームユーザーでは使用できません。 代わりに、次のいずれかの方法を使用してS3ファイルをインポートしてください。
- Amazon S3データ接続の使用。
- 認証付きのS3バケットへのパブリックアクセスを許可する事前署名済みURLを生成すると、直接URLを使用してデータセットの取込みができます。
Google Cloud Storageからのファイルのインポート¶
gs://<bucket-name>/<file-name.csv>
のリンクを直接使用して Google Cloud Storageに格納されているファイルを直接インポートするようDataRobotを設定できます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
gs://<bucket-name>/<file-name.csv>
のリンクを使用してファイルをインポートする機能は、マネージドAIプラットフォームユーザーでは使用できません。
Azure Blob Storageからのファイルのインポート¶
azure_blob://<container-name>/<file-name.csv>
のリンクを使用して、Azure Blob Storageに保存されているファイルを直接インポートすることができます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
azure_blob://<container-name>/<file-name.csv>
のリンクを使用してファイルをインポートする機能は、マネージドAIプラットフォームユーザーでは使用できません。
プロジェクトの作成と分析¶
データソースを選択してデータをインポートした後、DataRobotは新しいプロジェクトを作成します。 最初の探索的データ解析ステップは、EDA1と呼ばれます。 (DataRobotでの大規模データセットの処理方法については、「高速EDA」に関するセクションを参照してください。)
進捗メッセージが表示され、ファイルの処理状況が示されます。
EDA1が完了すると、開始画面が表示されます。 ここから下にスクロールするか、参照リンクをクリックしてデータサマリーを表示します。 予測に使用するターゲット特徴量を指定することもできます。
データセクションでは、以下の操作を行うことができます。
-
元データを見るをクリック(1)すると、DataRobotがモデル構築に使用する元のデータテーブルの最大1MBのランダムサンプルを表すモーダルが表示されます。
-
データ表示内の特徴量名の上にカーソルを置いてターゲットを設定(2)します。
-
特徴量セットを操作(3)します。
各特徴量のヒストグラムを表示することもできます。 ヒストグラムは、特徴量とそのデータセットとの関係性を理解するのに役立つように、 表示を変更するためのオプションがいくつか用意されています。
次のステップでターゲット特徴量を設定してモデルの構築を開始すると、多くの情報が利用可能になります。