Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データセットのインポート

データをData Prepにインポートすることは、データを機械学習用に準備するための最初のステップです。 インポートプロセス中は、次を行うことができます。

  • さまざまなデータソースから複数のデータセットを選択します。
  • 複数のデータセットを1つのデータセットに結合します。
  • インポートするデータセットの列を選択します。
  • 拡張子のないファイルを選択します。
  • zip形式の(圧縮された)フォルダーのデータセットをインポートします。
  • データの分析と構造化に使用する形式を変更します。

インポートページの使用

インポートするデータセットを選択すると、ページがペインと呼ばれる4つのクアドラントに分割されます。

以下は、インポートページの各ペインの概要です。

# 要素 説明
データセットの選択ペイン このペインからインポートするデータセットを選択します。以下を実行することが可能です。
  • ローカルファイルや接続されたデータソースから、複数のデータセットを選択します。
  • 接続されたデータソースを検索し、データセットのクエリを行います。
  • インポートのために、複数のデータセットを1つのグロブに結合します。
選択済みペイン データセットを選択すると、このペインにデータセットが表示されます。以下を実行することが可能です。
  • インポートするために選択したデータセットのリストを表示します。
  • プレビューするデータセットを選択し、インポートオプションを更新します。
  • インポートエラーの可能性があるデータセットをすばやく特定します。
  • インポートするデータの分析と構造化に使用する形式を変更します。
  • さまざまなインポートオプションを使用して、同じデータセットを複数回インポートします。
オプションペイン 多くの場合、データはData Prepに簡単にインポートされます。場合によっては、インポートオプションを調整する必要があるか、調整したいことがあります。このペインでは、そのような調整を行います。
プレビューペイン ここでは、データのプレビューを行うことができます。選択済みパネルからデータセットを選択したり、形式を更新したり、インポートオプションを変更したりすると、プレビューパネルには、選択したデータセットがインポートされたときにどのように見えるかが表示されます。このペインから、インポートする列を選択することもできます。

インポートプロセスのスナップショット

以下は、データセットをData Prepにインポートする方法の簡単なスナップショットです。

  1. ライブラリページの上で、インポートをクリックします。

  2. インポートページで、データセットの選択データセットの検索、またはデータセットの組み合わせを行うことができます。

  3. データセットのプレビューを確認します。データは正しく表示されていますか?

    • データが正しければ、データセットの追加を続け、すべてのデータセットを選択してインポートすることができます。
    • データが正しくない場合は、インポート設定の調整を試してみてください。
  4. 完了をクリックします。

    データがデータセットとしてインポートされ、プロジェクトで準備を実行できるようになります。

データセットを選択

データセットは、ローカル ファイルまたは接続されたデータソースからインポートできます。このセクションでは、インポートする1つ以上のデータセットを選択する方法について、詳しく説明します。

データセットの選択ペイン

以下は、データセットの選択ペインの要素の概要です。

# 要素 説明
データ ソースオプション Amazon S3、Hadoop、JDBC、またはその他のデータソースからデータセットをインポートする必要がある場合があります。または、単にコンピューターに保存したスプレッドシートをインポートするだけの場合もあります。いずれにしても、ここからが本番です。

データソースリストでは、設定したデータソースを選択できます。管理者は、データソースに接続する必要があります。ローカルファイルをアップロード

クリックして、コンピュータからデータセットを選択する必要があります。
SEARCH 特定のデータセット、または類似するデータセットのグループを検索する場合は、検索条件を入力できます。検索フィールドではワイルドカード文字を使用できます。これにより、特定の名前付きデータセットと同様の名前のデータセットが見つかります。詳細については、データセットを検索をみてください。
データセットリストペイン 選択したデータソースのコンテンツがここに一覧表示されます。この例では、データソースに6つの項目があります。1つのコンマ区切り値(CSV)ファイルと5つのExcelファイルです。
選択 インポートするデータセットが表示されたら、選択をクリックします。データセットは選択済みペインにリストされ、完了をクリックするとインポートされます。

ローカルファイルからデータセットを選択します

コンピュータや共有ネットワークドライブ上のファイルからデータセットを選択するには:

  1. ファイルをアップロードペインをクリックして、データセットを選択するか、ファイルをペインにドラッグします。

    データセットが選択済みペインのリストに追加されます。Data Prepでは、データセットのオプションペインとデータセットのプレビューが表示されます。

  2. さらにデータセットを追加するには、インポートに含める追加のデータセットをクリックします。

    追加のデータセットが、選択済みペインのデータセットリストに追加されます。

データソースからデータセットを選択する

接続したデータソースからデータセットを選択するには:

  1. データソースを選択をクリックし、使用するデータソースを選択します。

  2. インポートするデータセットを検索します。

    検索を実行してデータセットを特定する方法については、データセットの検索をご覧ください。

  3. 選択をクリックしてデータセットを選択します。

    データセットが選択済みペインのリストに追加されます。Data Prepでは、データセットのオプションペインとデータセットのプレビューが表示されます。

  4. 現在選択されているデータソースからさらにデータセットを追加するには、インポートに含める追加のデータセットをクリックします。

  5. 異なるデータソースからさらにデータセットを追加するには、データソースごとに手順1〜3を繰り返します。

追加のデータセットが、選択済みペインのデータセットリストに追加されます。

データセットの検索

データセットの名前を入力するか、クエリ文字列を入力すると、データセットを検索できます。検索では大文字と小文字が区別され、検索条件に完全に一致する結果のみが返されます。正確な名前がわからない場合や、同様の名前のデータセットを検索する場合は、ワイルドカード文字を使用してデータセットを検索できます。

データセットの検索

データセットを検索するには:

  1. データソースを選択し、データセットの選択ペインの右上にある検索アイコンをクリックします。

    検索アイコンは、ローカルファイルのアップロード時ではなく、データソースを選択したときにのみ表示されます。

  2. ワイルドカード検索フィールドに検索条件を入力します。

    検索条件に完全に一致するデータセットが返されます。検索条件の設定については、ワイルドカード文字を参照してください。

データベースのクエリ

データベースのクエリ:

  1. データソースを選択をクリックして、使用するデータソースを選択します。
  2. データセットの選択ペインの右下にあるクエリの作成をクリックします。
  3. クエリ文字列フィールドに検索条件を入力します。

    ワイルドカード文字で検索するには、ワイルドカード文字をご覧ください。

    検索条件に完全に一致するデータセットが返されます。

ワイルドカード文字

以下に、データセットの検索に使用できるワイルドカード文字を示します。

文字 一致する内容
* 任意の数(0 を含む)の文字
? 単一の文字
[0-9] または [a-z] かっこ内に指定されている範囲の文字
[123] または [abc] かっこ内にリストされている文字

ワイルドカードを使用した検索の例

以下に、いくつかの検索例とその結果を示します。

検索例 戻り値
* すべてのデータセット
*.csv ファイル拡張子が「.csv」のデータセット
a?b.csv 「aac.csv」、「abc.csv」、...「azc.csv」という名前のデータセット
a*z.csv 文字の種類や文字の数に関係なく、先頭が小文字の「a」で始まり、末尾が「z.csv」となるデータセット
a[0-9].csv 「a0.csv」、「a1.csv」、「a2.csv」、...「a9.csv」という名前のデータセット
a[az].csv 「aa.csv」、「ab.csv」、...「az.csv」という名前のデータセット
a[abc].csv 「aa.csv」、「ab.csv」、「ac.csv」という名前のデータセット

データセットの結合

Data Prepでは、複数のデータセットを1つのグロブに結合してインポートすることができます。グロブは、インポート中に複数のデータセットを1つのデータセットに追加した結果です。このセクションでは、インポートの前に複数のデータセットを1つのグロブに結合する方法について詳しく説明します。

データセットの結合に関するガイドライン

以下は、複数のデータセットを1つのグロブに結合するためのガイドラインです。

  • 同一のデータソースからのデータセットのみ、グロブを作成できます。
  • ワイルドカード検索を使用する場合のみ、データセットのグロブを作成できます。
  • 一緒にグロブが作成される各データセットは、構造(列の数とデータ型)が同じである必要があります。

グロブの作成をサポートするデータソース

グロブの作成がサポートされているデータソースとファイル形式の一覧については、現在のData Prep(Paxata)リリースノートのプラットフォームサポートマトリックスを確認してください。

グロブの作成

複数のデータセットを1つのグロブに結合するには:

  1. データソースを選択をクリックして、データソースを選択します。

  2. 検索を使用して、結合するデータセットを特定します。

  3. すべての結果の結合をクリックします。

    データセットが1つのグロブに結合されます。このグロブは、**選択済み**ペインのデータセットリストに追加されます。グロブの名前は、デフォルトで検索条件になります。Data Prepでは、**グロブのオプション**ペインとグロブのプレビューが表示されます。

インポート前にデータセットをプレビューする

プレビューでデータセットを変更するには、選択済みペインから、プレビューするデータセットをクリックします。

プレビューペインに、選択したデータセットが表示されます。

Data Prepのデフォルトでは、最後に選択したデータセットのプレビューが表示されます。

データセットの再追加

インポート中に、さまざまなインポートオプションを同じデータセットに適用したい場合があります。特に、同じExcelファイルから複数のExcelワークシートをインポートしなければならない場合などです。

さまざまなインポートオプションを含むデータセットを追加するには:

  1. 選択済みペインから、再追加するデータセットのその他ボタン(縦に3つ並んだ点)をクリックします。

  2. 再追加をクリックします。

    データセットが選択済みペインのリストに追加されます。

  3. 必要に応じて、インポート設定を調整します

インポート設定の調整

データセットが選択されると、 Data Prepはデータを分析して最良の結果を得るための適切な設定を決定します。ただし、データはあらゆるものに適しているわけではありません。場合によっては、設定を適切なデータになるように微調整する必要があります。このセクションでは、インポートする前に、データセットのより一般的な設定のいくつかを調整する方法について説明します。設定に関する具体的な情報については、ヘルプのヒント(疑問符)の上にカーソルを置きます。

以下は、頻繁に使用する調整可能な基本設定の一部です。

アクション 手順
タグを追加します。 オプションペインで、タグリストからタグを入力または選択します。
ソースファイルの系統を表示する列を追加します。 オプションペインでソースファイルを表示する列を追加ボタンを切り替えます。

新しいソースファイル列がデータセットの末尾に追加され、インポートした各行のソースファイルのパスを表示します。
データセットの形式を変更します。 選択済みペインで、形式メニューからデータセットに適用する形式を選択します。詳細については、サポートされている形式を参照してください。
データセットの名前を変更します。 オプションペインで、名前フィールドに新しい名前を入力します。選択済みペインでデータセット名を更新します。
インポートから列を除外します。
    プレビューペインで、以下を実行します。
  1. 列の編集をクリックします。
  2. インポートしない列の選択を解除します。
  3. プレビューの表示をクリックします。
選択解除された列はプレビューから削除されます。
同じExcelファイルから追加のワークシートをインポートします。
    追加のワークシートごとに、次の手順を実行します。
  1. 選択済みペインで、Excelファイルを再度追加します
  2. オプションペインで、ワークシートメニューからインポート対象のワークシートを選択します。
列を並べ替えます。
    プレビューペインで、以下を実行します。
  1. 列の編集をクリックします。
  2. 列が目的の位置にくるまで上矢印または下矢印をクリックします。
  3. プレビューの表示をクリックします。
列名を変更します。
    プレビューペインで、以下を実行します。
  1. 列の編集をクリックします。
  2. 編集(鉛筆アイコン)をクリックして、新しい名前を入力します。
  3. プレビューの表示をクリックします。

サポートされている形式

ファイルベースのコネクターの場合の一般的な形式を次の表に示します。Data Prepのインテリジェント取込みは、ファイル拡張子に依存するのではなく、ファイルのコンテンツを調べることでファイルの形式を識別します。ファイルに拡張子がないか、間違った拡張子が付いている場合でも、Data Prepは形式を正しく識別します。

一般的な形式 ワイルドカードとグロブのインポートサポート
区切りファイル(CSV、TSVなど) はい
固定幅の列データ はい
JSON はい
xml はい
Apache Avro はい
Microsoft Excel(XLS、XLSX) いいえ。ワイルドカード文字およびデータセットを組み合わせるためのガイドラインを参照してください。
SAS BDAT はい

Data Prepは、Deflate、LZ4、Snappy、ZIP, Gzip、またはBzipのいずれかで圧縮されたファイルのインポートをサポートしています。一般に、解凍されたファイルは、前の表にリストされている一般的な形式である必要があります。

さらに、Parquetファイルをサポートするコネクターは、Parquetファイルの圧縮バージョンもサポートします。

備考

複数のファイルを含むZIPファイルをインポートするとき、圧入セット内の最大のファイルが自動的に識別され、ライブライリにインポートするために選択されます。


更新しました February 22, 2022
Back to top