Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

DataRobotへの直接インポート

このセクションでは、DataRobotにデータをインポートする詳細なステップを説明します。 データをインポートする前に、DataRobotのデータガイドラインを確認して、ファイル形式やサイズを含むデータセットを理解します。

Guidelines for imports

Review the following data guidelines for AutoML, time series, and Visual Artificial Intelligence (AI) projects prior to importing.

For AutoML projects

  • The data must be in a flat-file, tabular format.
  • You must have a column that includes the target you are trying to predict.

For time series projects

  • The data must be in a flat-file, tabular format.
  • You must include a date/time feature for each row.
  • When using time series modeling, DataRobot detects the time step—the delta between rows measured as a number and a time-delta unit in the data, for example (15, “minutes”). Your dataset must have a row for each time-delta unit. For example, if you are predicting seven days in the future (time step equals 7, days), then your dataset must have row for each day for the entire date range; similarly, if you are forecasting out seven years, then your data must have one row for each year for the entire date range.
  • You must have a column that includes the target that you are trying to predict.

For Visual Artificial Intelligence (AI) projects

  • Set up folders that contain images for each class and name the folder for that class. Create a ZIP archive of that folder of folders and upload it to DataRobot.
  • You can also add tabular data if you include the links to the images within the top folder. You can find more information on that here.

プロジェクトの作成

Before you can begin building models, you must create a new DataRobot project in either of the following ways:

  • Click the DataRobot logo in the upper left corner.
  • 右上にあるプロジェクトフォルダを開き、新規プロジェクトの作成リンクをクリックします。

新規プロジェクトページが表示されたら、受け入れ可能なファイルタイプをページにインポートする方法を選択します。 (受け入れ可能なファイルタイプは画面の最下部に一覧表示されています。) 特定のアップロード方法がクラスターで無効化されている場合、対応する取込みボタンはグレー表示されます。

インポート方法

To import to DataRobot, navigate to the Begin project page by clicking the DataRobot logo on the top left. There are other methods of accessing this page depending on your account type.

Import method 説明
1 ドラッグアンドドロップ Drag and drop a file from your computer onto the Begin a project page.
2 インポート元 Choose your import method.
3 参照 Browse the AI Catalog. You can import, store, blend, and share your data through the AI catalog.
4 ファイルタイプ View the accepted formats for imports. See Dataset requirements for more details.

The following table lists each import method:

方法 説明
既存のデータソースの使用 設定されたデータソースからインポートします。
URLからのデータセットのインポート データをインポートするURLを指定します。
ローカルファイルのインポート ローカルファイルを参照してインポートします。
S3からのファイルのインポート AWS S3バケットからアップロードします。
Google Cloud Storageからのファイルのインポート Google Cloudから直接インポートします。
Azure Blob Storageからのファイルのインポート Azure Blobから直接インポートします。

備考

クラスターでは特定のアップロード方法を無効にすることができます。無効になった方法に関するボタンが表示されない場合があります。 設定されたインポート方法については、システム管理者にお問い合わせください。

Some import methods may need to be configured by an admin before use, as noted in the following sections.

より大きなデータセットの場合、DataRobotは、データを事前に表示し、プロジェクトオプションを選択できる特殊な処理を提供します。

ローカルファイルをアップロード

本機能の提供について

マネージドAIプラットフォームユーザーは、ローカルにマウントされたファイルをDataRobotに直接ロードできる機能を使用できません。

Click Local file and browse for a file or drag a file directly onto the Begin a project page. You can also specify the URL link as file:///local/file/location.

DataRobot ingests the file from the network storage drive connected to the cluster and creates a project. このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

When dropping large files (greater than 100MB) the upload process may hang. その場合、以下のように対応してください。

  • もう一度試す。
  • サポートされている形式にファイルを圧縮して、再試行する。
  • ファイルをリモートデータストア(S3など)に保存して、サイズの大きいファイルでの安定性が高いURL取込みを使用する。
  • セキュリティの懸念がある場合、一時的に署名されたS3 URLを使用します。

URLからインポート

Use a URL to import your data. It can be local, HTTP, HTTPS, Google Cloud Storage, Azure Blob Storage, or S3 (URL must use HTTP).

  1. URLをクリックします。

  2. Enter the URL to your data and click Create New Project. これは、ローカル、HTTP、HTTPS、Google Cloud StorageAzure Blob Storage、またはS3です。

    DataRobot imports the data and creates a project.

    備考

    URLを使用してGoogle Cloud、Azure Blob Storage、またはS3からインポートする機能を、組織のインストールに合わせて設定する必要があります。 設定されたインポート方法については、システム管理者にお問い合わせください。

Import from a data source

Before importing from a data source, configure a JBDC connection to the external database.

備考

DataRobotがデータソースオプションから取り込む場合、プロジェクトで使用する選択したデータベース行のコピーを作成します。

To import from an existing data source:

  1. データソースをクリックします。

  2. Search and select a data source.

    You can also choose to add a new data connection.

  3. アカウントを選択。

  4. Select the data you want to connect to.

  5. Click to create a project.

    DataRobot connects to the data and creates a project.

S3からのファイルのインポート

このインポート方法が設定されたセルフマネージドAIプラットフォームインストールでは、S3へのリンクを(たとえばhttps://s3.amazonaws.com/bucket/file?AWSAccessKeyId...ではなく)s3://<bucket-name>/<file-name.csv>として指定することにより、URLを介してS3ファイルを取り込むことができます。 オブジェクトおよび区分けをパブリックに設定せずにS3からファイルを取込むことができます。

備考

この方法は、マネージドAIプラットフォームユーザーでは使用できません。 代わりに、次のいずれかの方法を使用してS3ファイルをインポートしてください。

  • Amazon S3データ接続の使用。
  • 認証付きのS3バケットへのパブリックアクセスを許可する事前署名済みURLを生成すると、直接URLを使用してデータセットの取込みができます。

Google Cloud Storageからのファイルのインポート

gs://<bucket-name>/<file-name.csv>のリンクを直接使用して Google Cloud Storageに格納されているファイルを直接インポートするようDataRobotを設定できます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

gs://<bucket-name>/<file-name.csv>のリンクを使用してファイルをインポートする機能は、マネージドAIプラットフォームユーザーでは使用できません。

Azure Blob Storageからのファイルのインポート

azure_blob://<container-name>/<file-name.csv>のリンクを使用して、Azure Blob Storageに保存されているファイルを直接インポートすることができます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

azure_blob://<container-name>/<file-name.csv>のリンクを使用してファイルをインポートする機能は、マネージドAIプラットフォームユーザーでは使用できません。

プロジェクトの作成と分析

データソースを選択してデータをインポートした後、DataRobotは新しいプロジェクトを作成します。 最初の探索的データ解析ステップは、EDA1と呼ばれます。 (DataRobotでの大規模データセットの処理方法については、「高速EDA」に関するセクションを参照してください。)

進捗メッセージが表示され、ファイルの処理状況が示されます。

EDA1が完了すると、開始画面が表示されます。 ここから下にスクロールするか、参照リンクをクリックしてデータサマリーを表示します。 予測に使用するターゲット特徴量を指定することもできます。

データセクションでは、以下の操作を行うことができます。

  • 元データを見るをクリック(1)すると、DataRobotがモデル構築に使用する元のデータテーブルの最大1MBのランダムサンプルを表すモーダルが表示されます。

  • データ表示内の特徴量名の上にカーソルを置いてターゲットを設定(2)します。

  • 特徴量セットを操作(3)します。

各特徴量のヒストグラムを表示することもできます。 ヒストグラムは、特徴量とそのデータセットとの関係性を理解するのに役立つように、 表示を変更するためのオプションがいくつか用意されています。

次のステップでターゲット特徴量を設定してモデルの構築を開始すると、多くの情報が利用可能になります。


更新しました February 20, 2024