Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

DataRobotへの直接インポート

このセクションでは、DataRobotにデータをインポートする詳細なステップを説明します。 データをインポートする前に、DataRobotのデータガイドラインを確認して、ファイル形式やサイズを含むデータセットを理解します。

Notes

このセクションでは、データソースが設定されていることを前提に説明します。 データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成についてはJDBC接続手順を参照してください。

使用を開始するには

モデルを作成するためには、まずデータをインポートしなければなりません。 使用を開始するには:

  1. 以下のいずれかの方法で新規のDataRobotプロジェクトを作成します。

    • DataRobotにサインインして、左上のDataRobotのロゴをクリックします。

    • 右上にあるプロジェクトフォルダを開き、新規プロジェクトの作成リンクをクリックします。

  2. 新規プロジェクトページが表示されたら、受け入れ可能なファイルタイプをページにインポートする方法を選択します。 (受け入れ可能なファイルタイプは画面の最下部に一覧表示されています。) 特定のアップロード方法がクラスターで無効化されている場合、対応する取込みボタンはグレー表示されます。

インポート方法

DataRobotにサインインすると、データをインポートしてプロジェクトを開始できます。 データをインポートする方法を以下に示します。

備考

以下のセクションで説明する通り、一部のインポート方法は組織内のユーザーが使用するためには、事前に設定する必要があります。

方法 説明
ドラッグアンドドロップ データセットをDataRobotにドラッグしてアップロードを開始します。
既存のデータソースの使用 設定されたデータソースからインポートします。
URLからのデータセットのインポート データをインポートするURLを指定します。
ローカルファイルのインポート ローカルファイルを参照してインポートします。
S3からのファイルのインポート AWS S3バケットからアップロードします。
Google Cloud Storageからのファイルのインポート Google Cloudから直接インポートします。
Azure Blob Storageからのファイルのインポート Azure Blobから直接インポートします。
HDFSからのデータセットのインポート Hadoopから直接インポートします。

備考

クラスターでは特定のアップロード方法を無効にすることができます。無効になった方法に関するボタンが表示されない場合があります。 設定されたインポート方法については、システム管理者にお問い合わせください。

より大きなデータセットの場合、DataRobotは、データを事前に表示し、プロジェクトオプションを選択できる特殊な処理を提供します。

ドラッグアンドドロップ

ドラッグアンドドロップを使用するには、ファイルをアプリケーションにドロップします。 しかし、サイズの大きいファイル(100MB以上)をドロップする場合は、アップロードプロセスがハングする可能性があります。 その場合、以下のように対応してください。

  • 再試行する。

  • サポートされている形式にファイルを圧縮して、再試行する。

  • ファイルをリモートデータストア(S3など)に保存して、サイズの大きいファイルでの安定性が高いURL取込みを使用する。

  • セキュリティの懸念がある場合、一時的に署名されたS3 URLを使用します。

既存のデータソースの使用

この方法は、データソースが既に設定されている場合に使用できます。 データソースが設定されていない場合、データ接続とデータソースの選択、およびSQLクエリーの作成の詳細についてはJDBC接続手順を参照してください。

備考

DataRobotがデータソースオプションから取り込む場合、プロジェクトで使用する選択したデータベース行のコピーを作成します。

既存のデータソースを使用するには、以下の手順を実行します。

  1. 新しいプロジェクト画面でデータソースをクリックします。

  2. 目的のデータソースを選択して次へをクリックします。

  3. データベース設定に対して保存された資格情報を使用するか、新しい資格情報を入力します。

  4. 保存してサインインをクリックします。

URLからのデータセットのインポート

URLからデータをインポートするには、以下の手順を実行します。

  1. 新しいプロジェクト画面でURLをクリックします。

  2. データセットのURLを入力します。 これは、ローカル、HTTP、HTTPS、Google Cloud StorageAzure Blob Storage、またはS3です。

    備考

    URLを使用してGoogle Cloud、Azure Blob Storage、またはS3からインポートする機能を、組織のインストールに合わせて設定する必要があります。

  3. プロジェクトを作成をクリックして新しいプロジェクトを作成します。

ローカルファイルのインポート

データをクライアントにコピーしてブラウザからアップロードする代わりに、URLリンク(file:///local/file/locationなど)を指定できます。 クラスターに接続されたネットワークストレージドライブからファイルがDataRobotに取り込まれます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

Managed AI Cloudユーザーは、ローカルにマウントされたファイルをDataRobotに直接ロードできる機能を使用できません。

S3からのファイルのインポート

このインポート方法が設定されたオンプレミスインストールでは、S3へのリンクを(たとえばhttps://s3.amazonaws.com/bucket/file?AWSAccessKeyId...ではなく)s3://<bucket-name>/<file-name.csv>として指定することにより、URLを介してS3ファイルを取り込むことができます。 オブジェクトおよび区分けをパブリックに設定せずにS3からファイルを取込むことができます。

備考

この方法は、マネージドAIクラウドユーザーでは使用できません。 代わりに、次のいずれかの方法を使用してS3ファイルをインポートしてください。

  • Amazon S3データ接続の使用。
  • 認証付きのS3バケットへのパブリックアクセスを許可する事前署名済みURLを生成すると、直接URLを使用してデータセットの取込みができます。

Google Cloud Storageからのファイルのインポート

gs://<bucket-name>/<file-name.csv>のリンクを直接使用して Google Cloud Storageに格納されているファイルを直接インポートするようDataRobotを設定できます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

gs://<bucket-name>/<file-name.csv>のリンクを使用してファイルをインポートする機能は、マネージドAIクラウドユーザーでは使用できません。

Azure Blob Storageからのファイルのインポート

azure_blob://<container-name>/<file-name.csv>のリンクを使用して、Azure Blob Storageに保存されているファイルを直接インポートすることができます。 このインポート方法は、組織のインストールに合わせて設定する必要があります。

備考

azure_blob://<container-name>/<file-name.csv>のリンクを使用してファイルをインポートする機能は、マネージドAIクラウドユーザーでは使用できません。

HDFSからのデータセットのインポート

データセットがHDFS(Hadoop Distributed File System)に保存されている場合は、DataRobotアプリケーションに直接インポートすることができます(DataRobot Hadoopユーザーの場合のみ)。 プロジェクト作成の10 GBファイル要件よりも大きいファイルのダウンサンプリングについては、スケーラブルな取込みのセクションを参照してください。

ヒント

URLフィールドで指定したファイルをホストするHDFSサーバーは、DataRobotアプリケーションをホストするマシンから解決およびアクセスできる必要があります。

  1. 新しいプロジェクト画面でHDFSをクリックします。 使用する開始(ルート)ディレクトリは、DataRobotインストールの一部として設定されます。

  2. ファイルの場所を参照してファイル名をクリックし、使用するデータセットを指定します。 URLフィールドにパスを入力して、HDFSブラウザでナビゲートすることもできます。 ファイルブラウザーに表示されるコンテンツは、ユーザーの入力に応じて自動的にフィルターされます。 完全なパスがURLフィールドに入力されます。

    ユーザーにファイルへのアクセス許可がない場合、ファイル名はDataRobotにグレーアウトで表示されます。

    検索機能を使用してリストをフィルターし、検索条件に一致するファイル名だけを表示することができます。 この場合、現在表示されているファイルおよびディレクトリ内のファイルだけが表示されます。HDFSに対して新しい検索が実行されるわけではありません。

  3. 選択をクリックして、ファイルのインポートを開始します。

プロジェクトの作成と分析

データソースを選択してデータをインポートした後、DataRobotは新しいプロジェクトを作成します。 最初の探索的データ解析ステップは、EDA1と呼ばれます。 (DataRobotでの大規模データセットの処理方法については、「高速EDA」に関するセクションを参照してください。)

進捗メッセージが表示され、ファイルの処理状況が示されます。

EDA1が完了すると、開始画面が表示されます。 ここから下にスクロールするか、参照リンクをクリックしてデータサマリーを表示します。 予測に使用するターゲット特徴量を指定することもできます。

データセクションでは、以下の操作を行うことができます。

  • 元データを見るをクリック(1)すると、DataRobotがモデル構築に使用する元のデータテーブルの最大1MBのランダムサンプルを表すモーダルが表示されます。

  • データ表示内の特徴量名の上にカーソルを置いてターゲットを設定(2)します。

  • 特徴量セットを操作(3)します。

各特徴量のヒストグラムを表示することもできます。 ヒストグラムは、特徴量とそのデータセットとの関係性を理解するのに役立つように、 表示を変更するためのオプションがいくつか用意されています。

次のステップでターゲット特徴量を設定してモデルの構築を開始すると、多くの情報が利用可能になります。


更新しました December 21, 2022
Back to top