レジストリにデータを追加¶
データレジストリ経由でデータを取り込む場合、(マテリアライズされたアセットや静的アセットに対して)EDA1が登録プロセスの一部として実行され、その結果は後で再利用できるように保存されます。
データレジストリからデータを追加するには、データを追加ドロップダウンをクリックし、以下の方法のいずれかを選択します。
| 方法 | 説明 |
|---|---|
| データ接続 | 既存のデータ接続からデータを追加するか、新しいデータ接続を設定してデータを追加します。 |
| ローカルファイル | ローカルファイルシステムのファイルを参照し、アップロードします。 |
| URL | URLで指定されたデータセット全体のスナップショットを追加します。 |
上記のいずれかの方法で、時系列エクスペリメントにカレンダーファイルをアップロードすることもできます。
データセットの形式
データセットに数値以外のデータ(改行、復帰、二重引用符、カンマ、その他のフィールド区切り文字などの特殊文字も該当します)が含まれている場合は、データのインポート時に予期しない改行や誤ったフィールド分割が発生しないように、数値以外のデータのインスタンスを引用符(")で囲むようにしてください。 数値以外のデータを適切に引用することは、プレビュー機能「最小限のCSVクォーティングを有効にする」が有効な場合に特に重要です。
データ接続¶
データ接続からデータを追加する場合、2つのオプションがあります。
NextGenでの接続機能
From the Data Registry page, you can add data from all supported data stores in DataRobot, however, you can only add and work with specific data stores within Workbench.
既存の接続からデータを追加する。
- データレジストリで、データを追加 > データ接続をクリックします。
-
左側のパネルで、追加したいデータを保持しているデータ接続を選択し、接続から追加をクリックします。 接続がOAuthで認可されると、サインインを促される場合があります。
-
スキーマ、テーブル、またはSQLクエリー**でデータを検索します。
-
右側のパネルに表示されたデータセットのうち、追加したいものを選択し、確認に進むをクリックします。
-
設定で、以下のポリシーのいずれかを選択します。
データのスナップショットが作成されます。
選択した場合、以下のデータアップロードオプションのいずれかを選択します。
設定 説明 すべてのデータをアップロードする 全データセットのスナップショットを取るように指示します。 一部のデータをアップロードする 登録用に最初のN行を使用してスナップショットを取得します。 取込み行数を指定する必要があります。 DataRobotは、将来のモデリングおよび予測アクティビティのためにデータを更新します。
選択した場合、以下のデータアップロードオプションのいずれかを選択します。
設定 説明 全データを使用 データソースから全データセットを表示します。 データの一部をEDAに使用 最初のN行を使用してEDA1を実行します。取込み行数を指定する必要があります。 -
登録をクリックします。
新しい接続からデータを追加するには:
- データレジストリで、データを追加 > データ接続をクリックします。
-
左側のパネルで、+ 新しい接続を追加をクリックします。
-
追加したいデータを保持しているデータ接続を選択します。
- 新しいデータ接続を設定するには、NextGenでのデータ接続に関するドキュメントを参照してください。
ローカルファイル¶
この方法でデータを追加するのは、データセットがすでにモデリングに使用できる場合に適しています。
先に進む前に、DataRobotのデータセットの要件で、使用可能なファイル形式とサイズのガイドラインを確認します。 重要な追加情報については、関連する注意事項を参照してください。
データを追加ドロップダウンからローカルファイルを選択したら、ファイルエクスプローラーでデータセットを探して選択します。 次に開くをクリックします。
サポートされているファイル形式
NextGenでは、次のファイルタイプのアップロードがサポートされています:.csv、.tsv、.dsv、.xls、.xlsx、.sas7bdat、.geojson、.gz、.bz2、.tar、.tgz、.zip。
URL¶
データのインポートには、ローカル、HTTP、HTTPS、Google Cloud Storage、Azure Blob Storage、またはS3(URLにはHTTPを使用する必要があります)のURLを使用できます。 ローカルファイルを使用するには、次のようにURLを指定します:file:///local/file/location。
データを追加ドロップダウンからURLを選択したら、フィールドにURLを入力し、保存をクリックします。
備考
URLを使ってデータをインポートする場合、データセット全体のスナップショットが登録されます。
時系列のカレンダー¶
時系列エクスペリメントのカレンダーは、任意のアップロード方法を使用してデータレジストリに直接アップロードできます。 ローカルファイルとしてアップロードされたカレンダーは、自動的にデータレジストリに追加され、共有やダウンロードが可能になります。
次のステップ¶
ここでは以下の操作を行うことができます。



