データセット要件¶
このセクションでは、データセットの要件について説明します。
- 一般的な条件
- 許容されるファイルサイズの確認
- AutoMLのファイルサイズ
- 時系列(AutoTS)ファイルインポートサイズ
- 特徴量探索のファイルインポートサイズ
- ファイルの形式
- エンコーディングと文字セット
- 特殊な列の検出
- 列の長さと名前の変換
- ファイルダウンロードサイズ
備考
ファイルサイズアップロードはDataRobotデプロイに依存し、場合によってはデプロイされているサーバーの数とサイズにも依存します。詳しくは、許容されるファイルサイズの確認を参照してください。
一般的な条件¶
AutoML、時系列、Visual Artificial Intelligence (AI)の各プロジェクトでは、次のデータセット要件を考慮します。Visual Artificial Intelligence (AI)については、データセットの準備に関する追加情報も参照してください。
要件 | 解決方法 | データセットのタイプ | Visual Artificial Intelligence (AI) |
---|---|---|---|
非日付/時刻プロジェクトのデータセットのMinimum(最小)行要件:
|
エラーには見つかった行数が表示されます。プロジェクトがMinimum(最小)行を満たすまで行(および見出し)をデータセットに追加してください。 | トレーニング | 可 |
日付/時刻のパーティショニングベースプロジェクト(時系列およびOTV)には、行数に関する固有の要件があります。 | エラーには見つかった行数が表示されます。プロジェクトがMinimum(最小)行を満たすまで行(および見出し)をデータセットに追加してください。 | トレーニング | 可 |
GUIから予測に使用するデータセットには、最低1つのデータ行と見出し行が必要です。 | エラーには行が見つからなかったことが表示されます。1つの見出し行と1つのデータ行を追加してください。 | 予測 | 可 |
データセットに20,000以上の列を含むことはできません。 | エラーメッセージには列数と制限が表示されます。列数をLess Than 20,000に減らしてください。 | トレーニング、予測 | 可 |
データセットには見出しが必要です。 | 一般的に、見出しがないと予測が正しく行われないことや、不明瞭な列名が生成されることがあります。見出しを追加してください。 | トレーニング、予測 | CSVの場合は「可」。クラスごとに1つの画像フォルダーがZIPアップロードに含まれている場合、技術的にはヘッダーがないため、これはVisual Artificial Intelligence (AI)に常に当てはまるとは限りません。 |
データセットはデプロイのタイプとリリースサイズの制限を満たす必要があります。 | エラーメッセージにはデータセットのサイズおよび設定されている制限が表示されます。サイズ制限については、DataRobotサポートに問い合わせてください。 行または列数を減らしてデータサイズを小さくします。 | トレーニング、予測 | はい クラウド:5GB; 100k 224x224 ピクセル/50kB 画像 オンプレミス: 10GB 200k 224x224 ピクセル/50kB 画像 |
見出し行に含まれる列数は、すべてのデータ行に含まれる列の数とEqual Toかそれ以上である必要があります。列数がMaximum(最大)数よりも少ないデータ行の場合、DataRobotはその行にはNA/NULLの値が仮定されます。 見出し行に含まれる列数は、すべてのデータ行に含まれる列の数とEqual Toかそれ以上である必要があります。 | エラーには、解析に失敗した最初の行の行番号が表示されます。エラーメッセージで報告された行を確認してください。テキストフィールドを引用符で囲むことが、このエラーの一般的な原因です。 | トレーニング、予測 | 可 |
データセットに1つ以上の空白(ブランク)の列名を含めることはできません。一般的に、最初の空白列は最初の列です。これは、いくつかのツールでのインデックス列の書き込み方法に起因します。 | エラーには、2番目の空白列の列インデックスが表示されます。列にラベルを追加してください。 | トレーニング、予測 | 可 |
データセットには空白だけを含む列名を設定できません。単一の空白の列名 (空白なし) は許可されますが、「(スペース)」や「(スペース)(スペース)」などの列は許可されません。 | エラーにはスペースだけを含む列のインデックスが表示されます。スペースを削除するか、列の名前を変更してください。 | トレーニング、予測 | 可 |
すべてのデータセット特徴量の名前はユニーク数である必要があります。1つの特徴量名を複数の列に使用することはできません。また、特徴量の名前は、単に特殊文字(e.g., -, $, ., {, }, \n, \r, ", or ') を付けるだけでなく、互いに異なるものでなければなりません。 |
エラーにはサニタイジングの後に同じ名前に解決される2つの列が表示されます。1つの列名を変更します。例: 「robot.bar 」と「robot$bar 」は両方とも「robot\_bar 」に修正されます。 |
トレーニング、予測 | 可 |
データセットではサポートされているエンコーディングを使用する必要があります。推奨されるエンコーディングは、処理が最も早いUTF-8です。 | エラーには、検出されたエンコーディングがサポートされていないこと、またはエンコーディングが検出できなかったことが示されます。別のプログラムでデータセットをCSV/区切り形式で保存し、エンコーディングを変更します。 | トレーニング、予測 | 可 |
データセットファイルには、カンマ(,)、タブ(\t)、セミコロン(;)、またはパイプ文字(|)のいずれかを含む必要があります。 | エラーにはCSV/区切りフォーマットが正しくないことが表示されます。 データセットを別のプログラム(Excelなど)に保存して、サポートされている区切り文字を使用して変更します。リストされた値の1つである問題のある区切り文字は、引用符の問題を示します。テキストデータセットの場合、文字列が引用符で囲まれていないと、適切な区切り文字の検出で問題が発生する可能性があります。例: タブ区切りのデータセットでは、引用符で囲まれていないテキスト列に含まれるカンマは区切り文字として解釈されることがあります。関連するファイルサイズの問題については、この備考を参照してください。 | トレーニング、予測 | 可 |
Excelのデータセットでは見出しに日付時刻を設定することはできません。 | エラーが表示され、列のインデックスと列名の近似値が表示されます。列の名前を変更します(例:日付またはdate-11/2/2016)。または、データセットをCSV/区切り形式で保存します。 | トレーニング、予測 | 可 |
データセットは単一のファイルである必要があります。 | エラーには指定されたファイルに複数のデータセットが含まれることが表示されます。一般的に、このエラーは、アーカイブファイル(tarとzip)で発生します。 アーカイブを解凍し、含まれるファイルが1つだけであることを確認します。 | トレーニング、予測 | 可 |
ユーザーはURLまたはHDFS取込みを使用する場合、データセットに対する読み取り許可が必要です。 | エラーにはデータセットへのアクセス許可がユーザーにないことが表示されます。 | トレーニング、予測 | 可 |
日付列内のすべての値は同じ形式であるか、ヌル値である必要があります。 | エラーには一致しない値と形式そのものが示されます。日付列で一致しない値を見つけて変更してください。 | トレーニング、予測 | 可。これは、イメージ列に依存せずに、日付列がある場合は常にデータセットに適用されます。 |
テキスト特徴量には、最大500万文字を含めることができます。最大1000万文字が受け入れられる場合もあります。したがって、実質的には制限はなく、データセットの総容量が制約要因となる可能性の方が高くなります。 | N/A | トレーニング、予測 | 可。これは、イメージ列に依存せずに、テキスト列がある場合は常にデータセットに適用されます。 |
許容されるファイルインポートサイズの確認¶
備考
すべてのファイルサイズ制限は、圧縮されていないサイズを表します。
データセットを取込む場合、実際のディスク上のサイズはDataRobot内では異なる場合があります。
-
元のデータセットソースがCSVの場合、DataRobotによってデータの前処理が行われるので、サイズも元のサイズと少し異なる場合があります。
-
元のデータセットソースがCSVではない場合(SAS7BDAT、JDBC、XLSX、GEOJSON、Shapefileなど)、ディスク上のサイズは、CSVに変換されたときのデータセットのサイズになります。たとえば、SAS7BDATは、さまざまなエンコーディングタイプをサポートするバイナリ形式です。そのため、CSVに変換する際、SAS7BDATファイルとしての入力サイズだけではデータのサイズを推定することが困難です。
-
元のデータセットソースがアーカイブまたは圧縮CSV(.gzip、.bzip2、.zip、.tar、.tgzなど)の場合、実際のディスク上のサイズは、前処理が実行された後の非圧縮CSVのサイズになります。
ファイルサイズを考慮する際、以下のことに留意してください。
-
適用される前処理のステップには、データセットエンコーディングのUTF-8への変換、フィールドデータの引用符の追加、欠損値表現の正規化、地理空間フィールドの変換、列名のサニタイズなどがあります。
-
イメージアーカイブまたは他の同様の形式の場合、追加の前処理が行われ、画像ファイルの内容が結果のCSVに追加されます。これにより、最終的なCSVのサイズは、アップロードされた元のファイルと大幅に異なる場合があります。
-
ファイルをCSVに変換するとファイルサイズ制限が適用されます。ZIPファイルをDataRobotにアップロードした場合、DataRobotでファイルを抽出するときのファイルはファイルサイズLess Than制限である必要があります。
-
区切りCSVデータセット(CSV、TSVなど)のサイズが取込み前にアップロード制限に近くなる場合は、DataRobotの外部で変換を行うことをお勧めします。ファイルのインポートが制限を超えないようにすることができます。コンマ区切り以外のファイルのサイズがサイズ制限に近い場合も、DataRobotの外部でコンマ区切りのCSVに変換することをお勧めします。
-
DataRobotの外部でCSVに変換する際は、アップロードされたファイルサイズとDataRobotのMaximum(最大)ファイルサイズ制限に関してカウントされるサイズの不一致を回避するために、コンマを区切り文字、改行をレコード区切り、およびUTF-8をエンコーディングタイプとして使用してください。
-
場合によっては、オプション機能フラグの有効化/無効化を検討してください。
- Disable Early Limit Checking: 選択すると、推定ベースの早期制限チェッカーが無効になり、代わりに正確な制限チェッカーが使用されます。これによって、推定がわずかに外れた場合に、制限値に近いファイルを取り込むことができます。ただし、制限を超え_ている_場合、プロジェクトは取込みプロセス中に失敗することに備考してください。
- 最小限のCSVクォーティングを有効にする: 変換されたCSVの引用時の変換プロセスがより保守的になり、CSVが小さくなります。ただし、これを行うと、プロジェクトが再現不可能になる場合があります。この設定を有効にしてデータセットを取り込んだ場合とそうでない場合では、EDAサンプルやパーティショニングが異なり、プロジェクトに微妙な違いが生じる可能性があるためです。(それに対して、同じデータセットを同じ設定で取り込めば、再現可能なプロジェクトになります。)
AutoMLのファイルサイズ¶
このセクションでは、デプロイタイプに基づくファイルインポートサイズの要件について説明します。
DataRobot Cloud¶
ファイルタイプ | Maximum(最大)サイズ | 備考 |
---|---|---|
CSV(トレーニング) | 2GB | ベースクラウドパッケージ |
CSV(トレーニング) | 5GB | プレミアムクラウドパッケージ |
CSV(トレーニング) | 5GB | エンタープライズパッケージ |
CSV(トレーニング) | 最大10GB* | ビジネスクリティカルパッケージ |
XLS | 150MB。上記の「備考」を参照してください | |
CSV(予測) | 1GB |
* AutoMLプロジェクトでは最大10GBです。
オンプレミス(非Hadoop)¶
ファイルタイプ | Maximum(最大)サイズ | 対応リリース |
---|---|---|
CSV(トレーニング) | 5GB | すべて |
XLS | 150MB | 3.0.1以降 |
CSV(予測) | 1GB | すべて |
オンプレミス(Hadoop)¶
ファイルタイプ | Maximum(最大)サイズ | 対応リリース | 備考 |
---|---|---|---|
スケーラブルな取込みなし | |||
CSV(トレーニング) | 10GB | すべて | |
XLS | 150MB。3.0.1以降 | ||
CSV(予測) | 1GB | すべて | |
スケーラブルな取込みあり | |||
CSV(トレーニング) | Greater Than 12GB、最大100GB | 3.1以降 | ファイルのタイプによっては、CSVに変換するとサイズが大きくなる場合があります。たとえば、ディスク上で6GBのParquetファイルは、CSVに変換すると40GB程度になることがあります。そのため、ダウンサンプリングが必要になります。つまり、ディスク上で60GBのParquetファイルは、CSVに変換すると100GBの制限を超えてしまう可能性があります。 |
XLS | 150MB | 3.1以降 | |
Apache Parquet、Apache Avro、Apache ORC、マルチファイルCSV | Greater Than 12GB、最大100GB | 3.1以降 | 取込み時にDataRobotで変換 |
CSV(予測) | 1GB |
OTV要件¶
時間外検定(OTV)モデリングについては、データセットのMaximum(最大)サイズはLess Than 5GBとします。
OTVバックテストでは、各検定およびホールドアウト分割に少なくとも20行が必要で、各トレーニング分割に少なくとも100行が必要です。その条件を満たさない結果が生じるバックテストを設定した場合、DataRobotでは、最小限の条件を満たすバックテストだけが実行されます(該当するバックテストにはアスタリスクが表示されます)。例:
- バックテスト1回、ホールドアウトなしの場合、トレーニング用にMinimum(最小)100行、検定用に20行以上(合計120行以上)
- バックテスト1回、ホールドアウトありの場合、トレーニング用にMinimum(最小)100行、検定用に20行以上、ホールドアウト用に20行以上(合計140行以上)
時系列ファイルインポートサイズ¶
時系列を使用する場合、データセットは以下のサイズ要件を満たす必要があります。
ファイルタイプ | 単一系列Maximum(最大)サイズ | 複数系列/セグメント化Maximum(最大)サイズ | 対応リリース | 備考 |
---|---|---|---|---|
CSV(トレーニング) | 500MB | 1GB | マネージドAIクラウド | |
CSV(トレーニング) | 500MB | 1GB | 5.3 | 30GBモデラー設定 |
CSV(トレーニング) | 500MB | 2.5GB | 6.0 | 30GBモデラー設定 |
CSV(トレーニング) | 500MB | 5.0GB | 6.0 | 60GBモデラー設定 |
時系列の特定の特徴量:
特徴量 | 要件 |
---|---|
バックテストごとにMinimum(最小)行数 | |
データ取込み:連続値 | トレーニング用に20行以上、検定用に4行以上 |
データ取込み:分類 | トレーニングに75行、検定に12行 |
特徴量派生 | 連続値:Minimum(最小)35行 |
特徴量派生 | 分類: |
カレンダー | |
カレンダーイベントファイル | Less Than 1MBかつ1万行 |
複数系列モデリング | |
オンプレミス版バージョン5.0以降 | 10万系列 |
オンプレミス版バージョン5.3以降) | 1,000,000系列 |
モデル比較のための外部ベースラインファイル | Less Than 5GB |
予測 | |
予測、ドラッグアンドドロップ | Maximum(最大)データセットサイズ:Less Than 10MB |
予測、API(predAPI) | Maximum(最大)データセットサイズ:Less Than 50MB |
備考
その条件を満たさない結果が生じるバックテストを設定した場合、DataRobotでは、最小限の条件を満たすバックテストだけが実行されます(該当するバックテストにはアスタリスクが表示されます)。
リリース4.3、4.4、および4.5では、データセットはLess Than 500MBである必要があります。リリース4.0および4.2では、時系列のデータセットはLess Than 10MB、OTVのデータセットはLess Than 500MBである必要があります。それ以前のリリースでは、日付/時刻パーティションを使用するプロジェクトの場合、データセットはLess Than 5MBである必要があります。
特徴量探索のファイルインポートサイズ¶
特徴量探索を使用する場合、以下の要件が適用されます。
-
セカンダリーデータセットは、アップロードされたファイルか、AIカタログに登録されたJDBCソースである必要があります。
-
プロジェクトごとにMaximum(最大)30個のデータセットを設定できます。
-
すべてのデータセットのサイズ(プライマリーとセカンダリーの両方)の合計が100GBを超えることはできず、個別のデータセットサイズが11GBを超えることはできません。下記のダウンロード制限を参照してください。
データ形式¶
DataRobotのデータ取込みでは、以下の形式と型がサポートされています。サポートされているデータ型も参照してください。
ファイルの形式¶
- .csv、.dsv、または.tsv(推奨)
- データベーステーブル
- .xls/.xlsx
- .sas7bdat
- .parquet⁺
- .avro⁺
Location AIのファイル形式¶
これらのファイルタイプは、組織内のユーザーに対して有効になっている場合にのみサポートされます。
- ESRIシェープファイル
- GeoJSON
- ESRIファイルジオデータベース
- Well Known Text(テーブルの列に埋め込み)
- PostGISデータベース(ファイルはカンマ区切り、タブ区切り、セミコロン区切り、またはパイプ区切りの形式で、各データ列に見出しが必要です。各行のフィールド(列)数は同じでなければなりませんが、一部を空白にすることができます。)
圧縮形式¶
- .gz
- .bz2
アーカイブ形式¶
- .tar
圧縮およびアーカイブ形式¶
- .zip
- .tar.gz/.tgz
- .tar.bz2
圧縮とアーカイブの両方に対応しています。ただし、アーカイブを使用すると、DataRobotは圧縮されていないデータのサイズを知ることができ、データの取り込みが効率的になります。
小数点記号¶
小数点記号としてはピリオド(.)文字のみがサポートされています。DataRobotでは、コンマ(,)などのロケールに固有の小数点記号はサポートされていません。つまり、1.000
の値はEqual To 1、1000を表すために使用することはできません。別の文字が小数点記号として使用されている場合、その値はカテゴリー型として扱われます。
数値 特徴量は、正、負、またはゼロであり、次のいずれかの条件を満たす必要があります。
- ピリオドおよびコンマを含まない
- 単一のピリオドを含む(複数のピリオドを含む値はカテゴリー型として扱われます)
次の表に、サンプル値と対応する variable type(特徴量の型)を示します。
特徴量値 | データ型 |
---|---|
1000000 | 数値 |
0.1 | 数値 |
0.1 | 数値 |
1,000.000 | カテゴリー |
1.000.000 | カテゴリー |
1,000,000 | カテゴリー |
0,1000 | カテゴリー |
1000.000… | カテゴリー |
1000,000… | カテゴリー |
(0,100) | カテゴリー |
(0.100) | カテゴリ |
ヒント
カテゴリー型(小数点記号に基づいてカテゴリー型と見なされる特徴量)から数値型に特徴量を変換しようとすると、空の数値型特徴量になります。
エンコーディングと文字セット¶
データセットは下記のエンコーディング要件を満たす必要があります。
-
データファイルは、不要なキャラクターまたはエスケープシーケンス(URLから)を持つことができません。
-
エンコーディングは、データセット全体で一貫している必要があります。たとえば、最初の100MBがUTF-8でエンコーディングされているデータファイルで、後続の部分に文字がUTF-8でない文字がある場合、最初の100MBで誤って検出されて失敗する可能性があります。
データには、下記のエンコーディングを必ず使用してください。
- ascii
- cp1252
- utf-8
- utf-8-sig
- utf-16
- utf-16-le
- utf-16-be
- utf-32
- utf-32-le
- utf-32-be
- Shift-JIS
- ISO-2022-JP
- EUC-JP
- CP932
- ISO-8859-1
- ISO-8859-2
- ISO-8859-5
- ISO-8859-6
- ISO-8859-7
- ISO-8859-8
- ISO-8859-9
- windows-1251
- windows-1256
- KOI8-R
- GB18030
- Big5
- ISO-2022-KR
- IBM424
- windows-1252
特殊な列の検出¶
以下に説明する基準を満たしている場合は、これらの特殊な列が検出されることに備考してください。currency
、length
、percent
、およびdate
はプロジェクトのターゲットとして選択することはできません。しかしながら、パーティション特徴量としてdate
を選択できます。
日付と時刻の形式¶
列の形式が以下のリストに含まれる日付を含むいずれかの形式と同じ場合、その列は日付フィールドとして認識されます。厳密に時刻形式の列(%H:%M:%S
など)は時刻として認識されます。指示の説明は、Python定義表を参照してください。以下の表では、1999年1月25日1:01 p.mの日付と時刻 (正確には午後1時1分59秒000001マイクロ秒)の例を示します。
文字列 | 例 |
---|---|
%H:%M | 13:01 |
%H:%M:%S | 13:01:59 |
%I:%M %p | 01:01 PM |
%I:%M:%S %p | 01:01:59 PM |
%M:%S | 01:59 |
%Y %m %d | 1999 01 25 |
%Y %m %d %H %M %S | 1999 01 25 13 01 59 |
%Y %m %d %I %M %S %p | 1999 01 25 01 01 59 PM |
%Y%m%d | 19990125 |
%Y-%d-%m | 1999-25-01 |
%Y-%m-%d | 1999-01-25 |
%Y-%m-%d %H:%M:%S | 1999-01-25 13:01:59 |
%Y-%m-%d %H:%M:%S.%f | 1999-01-25 13:01:59.000000 |
%Y-%m-%d %I:%M:%S %p | 1999-01-25 01:01:59 PM |
%Y-%m-%d %I:%M:%S.%f %p | 1999-01-25 01:01:59.000000 PM |
%Y-%m-%dT%H:%M:%S | 1999-01-25T13:01:59 |
%Y-%m-%dT%H:%M:%S.%f | 1999-01-25T13:01:59.000000 |
%Y-%m-%dT%H:%M:%S.%fZ | 1999-01-25T13:01:59.000000Z |
%Y-%m-%dT%H:%M:%SZ | 1999-01-25T13:01:59Z |
%Y-%m-%dT%I:%M:%S %p | 1999-01-25T01:01:59 PM |
%Y-%m-%dT%I:%M:%S.%f %p | 1999-01-25T01:01:59.000000 PM |
%Y-%m-%dT%I:%M:%S.%fZ %p | 1999-01-25T01:01:59.000000Z PM |
%Y-%m-%dT%I:%M:%SZ %p | 1999-01-25T01:01:59Z PM |
%Y.%d.%m | 1999.25.01 |
%Y.%m.%d | 1999.01.25 |
%Y/%d/%m %H:%M:%S.%f | 1999/25/01 13:01:59.000000 |
%Y/%d/%m %H:%M:%S.%fZ | 1999/25/01 13:01:59.000000Z |
%Y/%d/%m %I:%M:%S.%f %p | 1999/25/01 01:01:59.000000 PM |
%Y/%d/%m %I:%M:%S.%fZ %p | 1999/25/01 01:01:59.000000Z PM |
%Y/%m/%d | 1999/01/25 |
%Y/%m/%d %H:%M:%S | 1999/01/25 13:01:59 |
%Y/%m/%d %H:%M:%S.%f | 1999/01/25 13:01:59.000000 |
%Y/%m/%d %H:%M:%S.%fZ | 1999/01/25 13:01:59.000000Z |
%Y/%m/%d %I:%M:%S %p | 1999/01/25 01:01:59 PM |
%Y/%m/%d %I:%M:%S.%f %p | 1999/01/25 01:01:59.000000 PM |
%Y/%m/%d %I:%M:%S.%fZ %p | 1999/01/25 01:01:59.000000Z PM |
%d.%m.%Y | 25.01.1999 |
%d.%m.%Y | 25.01.99 |
%d/%m/%Y | 25/01/1999 |
%d/%m/%Y %H:%M | 25/01/1999 13:01 |
%d/%m/%Y %H:%M:%S | 25/01/1999 13:01:59 |
%d/%m/%Y %I:%M %p | 25/01/1999 01:01 PM |
%d/%m/%Y %I:%M:%S %p | 25/01/1999 01:01:59 PM |
%d/%m/%Y | 25/01/99 |
%d/%m/%Y %H:%M | 25/01/99 13:01 |
%d/%m/%Y %H:%M:%S | 25/01/99 13:01:59 |
%d/%m/%Y %I:%M %p | 25/01/99 01:01 PM |
%d/%m/%Y %I:%M:%S %p | 25/01/99 01:01:59 PM |
%m %d %Y %H %M %S | 01 25 1999 13 01 59 |
%m %d %Y %I %M %S %p | 01 25 1999 01 01 59 PM |
%m %d %Y %H %M %S | 01 25 99 13 01 59 |
%m %d %Y %I %M %S %p | 01 25 99 01 01 59 PM |
%m-%d-%Y | 01-25-1999 |
%m-%d-%Y %H:%M:%S | 01-25-1999 13:01:59 |
%m-%d-%Y %I:%M:%S %p | 01-25-1999 01:01:59 PM |
%m-%d-%Y | 01-25-99 |
%m-%d-%Y %H:%M:%S | 01-25-99 13:01:59 |
%m-%d-%Y %I:%M:%S %p | 01-25-99 01:01:59 PM |
%m.%d.%Y | 01.25.1999 |
%m.%d.%Y | 01.25.99 |
%m/%d/%Y | 01/25/1999 |
%m/%d/%Y %H:%M | 01/25/1999 13:01 |
%m/%d/%Y %H:%M:%S | 01/25/1999 13:01:59 |
%m/%d/%Y %I:%M %p | 01/25/1999 01:01 PM |
%m/%d/%Y %I:%M:%S %p | 01/25/1999 01:01:59 PM |
%m/%d/%Y | 01/25/99 |
%m/%d/%Y %H:%M | 01/25/99 13:01 |
%m/%d/%Y %H:%M:%S | 01/25/99 13:01:59 |
%m/%d/%Y %I:%M %p | 01/25/99 01:01 PM |
%m/%d/%Y %I:%M:%S %p | 01/25/99 01:01:59 PM |
%Y %m %d | 99 01 25 |
%Y %m %d %H %M %S | 99 01 25 13 01 59 |
%Y %m %d %I %M %S %p | 99 01 25 01 01 59 PM |
%Y-%d-%m | 99-25-01 |
%Y-%m-%d | 99-01-25 |
%Y-%m-%d %H:%M:%S | 99-01-25 13:01:59 |
%Y-%m-%d %H:%M:%S.%f | 99-01-25 13:01:59.000000 |
%Y-%m-%d %I:%M:%S %p | 99-01-25 01:01:59 PM |
%Y-%m-%d %I:%M:%S.%f %p | 99-01-25 01:01:59.000000 PM |
%Y-%m-%dT%H:%M:%S | 99-01-25T13:01:59 |
%Y-%m-%dT%H:%M:%S.%f | 99-01-25T13:01:59.000000 |
%Y-%m-%dT%H:%M:%S.%fZ | 99-01-25T13:01:59.000000Z |
%Y-%m-%dT%H:%M:%SZ | 99-01-25T13:01:59Z |
%Y-%m-%dT%I:%M:%S %p | 99-01-25T01:01:59 PM |
%Y-%m-%dT%I:%M:%S.%f %p | 99-01-25T01:01:59.000000 PM |
%Y-%m-%dT%I:%M:%S.%fZ %p | 99-01-25T01:01:59.000000Z PM |
%Y-%m-%dT%I:%M:%SZ %p | 99-01-25T01:01:59Z PM |
%Y.%d.%m | 99.25.01 |
%Y.%m.%d | 99.01.25 |
%Y/%d/%m %H:%M:%S.%f | 99/25/01 13:01:59.000000 |
%Y/%d/%m %H:%M:%S.%fZ | 99/25/01 13:01:59.000000Z |
%Y/%d/%m %I:%M:%S.%f %p | 99/25/01 01:01:59.000000 PM |
%Y/%d/%m %I:%M:%S.%fZ %p | 99/25/01 01:01:59.000000Z PM |
%Y/%m/%d | 99/01/25 |
%Y/%m/%d %H:%M:%S | 99/01/25 13:01:59 |
%Y/%m/%d %H:%M:%S.%f | 99/01/25 13:01:59.000000 |
%Y/%m/%d %H:%M:%S.%fZ | 99/01/25 13:01:59.000000Z |
%Y/%m/%d %I:%M:%S %p | 99/01/25 01:01:59 PM |
%Y/%m/%d %I:%M:%S.%f %p | 99/01/25 01:01:59.000000 PM |
%Y/%m/%d %I:%M:%S.%fZ %p | 99/01/25 01:01:59.000000Z PM |
パーセンテージ¶
“%”で終わる数値がある列は、パーセントとして扱われます。
通貨¶
以下の通貨記号のある値がある列は、通貨として扱われます。
- $
- EUR、USD、GBP
- £
- £
- €
- ¥
- ¥
また、通貨の解釈については、以下の点に備考してください。
- 通貨記号はテキストの前($1)または後(1EUR)に配置できますが、特徴量全体で一貫性を維持する必要があります。
- コンマ(
,
)とピリオド(.
)は両方とも千の単位やセントの区切り文字として使用できますが、特徴量全体で統一する必要があります(たとえば、1000ドル1セントは、1,000.01または1.000,01のどちらでも表現できます)。 -
および+
の記号を値の前に配置できます。
列の長さ¶
<フィート>’ <インチ>”の記述規則に一致する値を含む列は、variable type(特徴量の型)length
としてデータページに表示されます。DataRobotは長さがインチに変換され、その後に値がブループリントの数値として扱われます。データセットにその他の長さ値(12㎝など)がある場合、特徴量はカテゴリーとして取り扱われます。様々な種類の単位(5m、72インチ、12㎝など)が特徴量に含まれる場合、アップロードする前にデータセットをクリーニングおよび正規化することを推奨します。
列名の変換¶
データの取込み中に、-
、$
、.
、{
、}
、"
、\n
、\r
の文字はDataRobotはアンダースコア(_
)に変換されます。
ファイルダウンロードサイズ¶
データセットをダウンロードする際、以下の点に注意してください。
- 10GBのファイルサイズ制限があります。
- データセットはCSVファイルとしてダウンロードされます。
- DataRobotは上記の変換を適用するため、ダウンロードしたデータセットは最初にインポートされたものとは異なる場合があります。