DataRobotへの直接インポート¶
このセクションでは、DataRobotにデータをインポートする詳細なステップを説明します。データをインポートする前に、DataRobotのデータガイドラインを確認して、ファイル形式やサイズを含むデータセットを理解します。
注意
このセクションでは、データソースが設定されていることを前提に説明します。データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成についてはJDBC接続手順を参照してください。
使用を開始するには¶
モデルを作成するためには、まずデータをインポートしなければなりません。使用を開始するには:
-
以下のいずれかの方法で新規のDataRobotプロジェクトを作成します:
-
DataRobotにサインインして、左上隅のDataRobotのロゴをクリックします。
-
右上隅にあるプロジェクトフォルダを開き、新規プロジェクトの作成リンクをクリックします。
-
-
新規プロジェクトページが表示されたら、受け入れ可能なファイルタイプをページにインポートする方法を選択します。(受け入れ可能なファイルタイプは画面の最下部に一覧表示されています。)特定のアップロード方法がクラスターで無効化されている場合、対応する取込みボタンはグレー表示されます。
インポート方法¶
DataRobotにサインインすると、データをインポートしてプロジェクトを開始できます。データをインポートする方法を以下に示します。
備考
以下のセクションで説明する通り、一部のインポート方法は組織内のユーザーが使用するためには、事前に設定する必要があります。
方法 | 説明 |
---|---|
ドラッグアンドドロップ | データセットをDataRobotにドラッグしてアップロードを開始します。 |
既存のデータソースの使用 | 設定されたデータソースからインポートします。 |
URLからのデータセットのインポート | データをインポートするURLを指定します。 |
ローカルファイルのインポート | ローカルファイルを参照してインポートします。 |
S3からのファイルのインポート | AWS S3バケットからアップロードします。 |
Google クラウド Storageからのファイルのインポート | Google クラウドから直接インポートします。 |
Azure Blob Storageからのファイルのインポート | Azure Blobから直接インポートします。 |
HDFSからのデータセットのインポート | Hadoopから直接インポートします。 |
備考
クラスターでは特定のアップロード方法を無効にすることができます。無効になった方法に関するボタンが表示されない場合があります。設定されたインポート方法については、システム管理者にお問い合わせください。
より大きなデータセットの場合、DataRobotは、データを事前に表示し、プロジェクトオプションを選択できる特殊な処理を提供します。
ドラッグアンドドロップ¶
ドラッグアンドドロップを使用するには、ファイルをアプリにドラッグします。備考:ただし、大きなファイル(Greater Than 100MB)をドロップすると、アップロードプロセスがハングする可能性があります。その場合、以下のように対応してください。
-
再試行する。
-
サポートされている形式にファイルを圧縮して、再試行する。
-
ファイルをリモートデータストア(S3など)に保存して、サイズの大きいファイルでの安定性が高いURL取込みを使用する。
-
セキュリティの懸念がある場合、一時的に署名されたS3 URLを使用します。
既存のデータソースの使用¶
この方法は、データソースが既に設定されている場合に使用できます。データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成の詳細についてはJDBC接続手順を参照してください。
備考
DataRobotがデータソースオプションから取込む場合、プロジェクトで使用する選択したデータベース行のコピーを作成します。
既存のデータソースを使用するには、以下の手順を実行します。
-
新しいプロジェクト画面でデータソースをクリックします。
-
目的のデータソースを選択して次へをクリックします。
-
データベース設定に対して保存された資格情報を使用するか、新しい資格情報を入力します。
-
保存してサインインをクリックします。
URLからのデータセットのインポート¶
URLからデータをインポートするには、以下の手順を実行します。
-
新しいプロジェクト画面でURLをクリックします。
-
データセットのURLを入力します。これは、ローカル、HTTP、HTTPS、Google クラウド Storage、Azure Blob Storage、またはS3です。
備考
URLを使用してGoogle クラウド、Azure Blob Storage、またはS3からインポートする機能を、組織のインストールに合わせて設定する必要があります。
-
新しいプロジェクトを作成をクリックして、新しいプロジェクトを作成します。
ローカルファイルのインポート¶
データをクライアントにコピーしてブラウザーからアップロードする代わりに、URLリンク(file:///local/file/location
)を指定できます。クラスターに接続されたネットワークストレージドライブからファイルがDataRobotに取込まれますこのインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
Managed AI クラウドユーザーは、ローカルにマウントされたファイルをDataRobotに直接ロードできる機能を使用できません。
S3からのファイルのインポート¶
適切に設定されたクラスターの場合、インポートするS3ファイルに直接アクセスできるので、オブジェクトおよび区分けをパブリックに設定せずにS3からファイルを取込むことができます。デプロイ用にセットアップした後、S3へのリンクを(例えばhttps://s3.amazonaws.com/bucket/file?AWSAccessKeyId...
の代わりに)s3://<bucket-name>/<file-name.csv>
として指定します。このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
Managed AI クラウドユーザーは、S3ファイルをDataRobotに直接ロードできる機能を使用できません。
Google クラウド Storageからのファイルのインポート¶
リンク(gs://<bucket-name>/<file-name.csv>
)を直接使用して Google クラウド Storageに格納されているファイルを直接インポートするようDataRobotを設定できます。このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
gs://<bucket-name>/<file-name.csv>
リンクを使用してファイルをインポートする機能は、マネージドAIクラウドユーザーでは使用できません。
Azure Blob Storageからのファイルのインポート¶
azure_blob://<container-name>/<file-name.csv>
のリンクを使用して、Azure Blob Storageに保存されているファイルを直接インポートすることができます。このインポート方法は、組織のインストールに合わせて設定する必要があります。
備考
azure_blob://<container-name>/<file-name.csv>
リンクを使用してファイルをインポートする機能は、マネージドAIクラウドユーザーでは使用できません。
HDFSからのデータセットのインポート¶
データセットがHDFS(Hadoop Distributed File System)に保存されている場合は、DataRobotアプリケーションに直接インポートすることができます(DataRobot Hadoopユーザーの場合のみ)プロジェクト作成の10 GBファイルサイズ要件よりも大きいファイルのダウンサンプリングについては、スケーラブルな取込みのセクションを参照してください。
ヒント
URLフィールドで指定したファイルをホストするHDFSサーバーは、DataRobotアプリケーションをホストするマシンから解決およびアクセスできる必要があります。
-
新しいプロジェクト画面でHDFSをクリックします。使用する開始(ルート)ディレクトリは、DataRobotインストールの一部として設定されます。
-
ファイルの場所を参照してファイル名をクリックし、使用するデータセットを指定します。URLフィールドにパスを入力して、HDFSブラウザーでナビゲートすることもできます。ファイルブラウザーに表示されるコンテンツは、ユーザーの入力に応じて自動的にフィルターされます。完全なパスがURLフィールドに入力されます。
ユーザーにファイルへのアクセス許可がない場合、ファイル名はDataRobotにグレーアウトで表示されます。
検索機能を使用してリストをフィルターし、検索条件に一致するファイル名だけを表示することができます。これは、現在表示されているファイルとディレクトリ内でのみフィルタリングされることに備考してください。HDFSに対して新しい検索が実行されるわけではありません。
-
選択をクリックして、ファイルのインポートを開始します。
プロジェクトの作成と分析¶
データソースを選択してデータをインポートした後、DataRobotは新しいプロジェクトを作成します。最初の探索的データ解析ステップは、EDA1と呼ばれます。(DataRobotでの大規模データセットの処理方法については、"高速EDA"に関するセクションを参照してください。)
進捗メッセージが表示され、ファイルの処理状況が示されます。
EDA1が完了すると、DataRobotは開始画面が表示されます。ここから下にスクロールするか、参照リンクをクリックしてデータサマリーを表示します。予測に使用するターゲット特徴量を指定することもできます。
データセクションでは、以下の操作を行うことができます。
-
元のデータを見るをクリック(1)するとウィンドウが開き、DataRobotがモデル構築に使用する元のデータテーブルの最大1MBのランダムサンプルが表示されます。
-
データ表示内の特徴量名の上にカーソルを置いてターゲットを設定(2)します。
-
特徴量セットを操作(3)します。
各特徴量のヒストグラムを表示することもできます。ヒストグラムには、特徴量とそのデータセットとの関係性を理解するのに役立つように、表示を変更するためのオプションがいくつか用意されています。
次のステップでターゲット特徴量を設定してモデルの構築を開始すると、多くの情報が利用可能になります。