データセットの要件¶
このセクションでは、データセット要件に関する情報について説明します。
- 一般的な条件
- 許容されるファイルサイズの確認
- AutoMLのファイルインポートサイズ
- 時系列(AutoTS)ファイルインポートサイズ
- 特徴量探索のファイルインポートサイズ
- パイプラインデータ要件
- ファイル形式
- エンコーディングと文字セット
- 特殊な列の検出
- 長さと名前変換
- ファイルダウンロードサイズ
その他の重要情報については、関連する注意事項を参照してください。
一般的な条件¶
AutoML、時系列、およびVisual Artificial Intelligence (AI)プロジェクトの場合は、次のデータセット要件を考慮してください。 Visual Artificial Intelligence (AI)用のデータセットの準備に関する追加情報を参照してください。
要件 | 解決方法 | データセットのタイプ | Visual Artificial Intelligence (AI) |
---|---|---|---|
日付/時刻以外のプロジェクトでのデータセットに最低限必要な行数:
|
エラーには行の数が表示されます。プロジェクトが必要な最少行を満たすまで行(およびヘッダー)をデータセットに追加してください。 | トレーニング | はい |
日付/時刻のパーティショニングベースプロジェクト(時系列およびOTV)では、行数に関する固有の要件があります。 | エラーには行の数が表示されます。プロジェクトが必要な最少行を満たすまで行(およびヘッダー)をデータセットに追加してください。 | トレーニング | はい |
GUIから予測に使用するデータセットには、最低1つのデータ行とヘッダー行が必要です。 | エラーには行が見つからなかったことが表示されます。1つのヘッダー行と1つのデータ行を追加してください。 | 予測 | はい |
データセットに20,000以上の列を含むことはできません。 | エラーメッセージには列数と制限が表示されます。列数を20,000未満に減らしてください。 | トレーニング、予測 | はい |
データセットにはヘッダーが必要です。 | 一般的に、ヘッダーがないと予測が正しく行われないことや、不明瞭な列名が生成されることがあります。ヘッダーを追加してください。 | トレーニング、予測 | CSVの場合は「はい」。 クラスごとに1つの画像フォルダーがZIPアップロードに含まれている場合、技術的にはヘッダーがないため、これはVisual Artificial Intelligence (AI)に常に当てはまるとは限りません。 |
データセットはデプロイのタイプとリリースサイズの制限を満たす必要があります。 | エラーメッセージにはデータセットのサイズおよび設定されている制限が表示されます。 サイズ制限については、DataRobotサポートに問い合わせてください。行または列数を減らしてデータサイズを小さくします。 | トレーニング、予測 | はい マネージドAIプラットフォーム:5GB:100k 224x224ピクセル/50kB画像 セルフマネージドAIプラットフォーム:10GB:200k 224x224ピクセル/50kB画像 |
ヘッダー行に含まれる列数は、すべてのデータ行に含まれる列の数と同じかそれ以上である必要があります。 列数が最大数よりも少ないデータ行の場合、その行にはNA/NULLの値が仮定されます。 ヘッダー行に含まれる列数は、すべてのデータ行に含まれる列の数と同じかそれ以上である必要があります。 | エラーには、解析に失敗した最初の行の行番号が表示されます。エラーメッセージで報告された行を確認してください。 テキストフィールドを引用符で囲むことが、このエラーの一般的な原因です。 | トレーニング、予測 | はい |
データセットに1つ以上の空白(ブランク)の列名を含めることはできません。 一般的に、最初の空白列は最初の列です。これは、いくつかのツールでのインデックス列の書き込み方法に起因します。 | エラーには2番目の空白列の列インデックスが表示されます。列にラベルを追加してください。 | トレーニング、予測 | はい |
データセットには空白だけを含む列名を設定できません。 単一の空白の列名 (空白なし) は許可されますが、「(スペース)」や「(スペース)(スペース)」などの列は許可されません。 | エラーにはスペースだけを含む列のインデックスが表示されます。スペースを削除するか、列の名前を変更してください。 | トレーニング、予測 | はい |
すべてのデータセット特徴量の名前は一意である必要があります。 複数の列に特徴量の名前を使用することはできません。また、特徴量の名前は、単に特殊文字(e.g., -, $, ., {, }, \n, \r, ", or ') を付けるだけでなく、相互に異なっている必要があります。 |
エラーにはサニタイジングの後に同じ名前に解決される2つの列が表示されます。1つの列名を変更します。 例: 「robot.bar 」と「robot$bar 」は両方とも「robot\_bar 」に修正されます。 |
トレーニング、予測 | はい |
データセットではサポートされているエンコーディングを使用する必要があります。 推奨されるエンコーディングは、処理が最も早いUTF-8です。 | エラーには、検出されたエンコーディングがサポートされていないこと、またはエンコーディングが検出できなかったことが示されます。別のプログラムでデータセットをCSV/区切り形式で保存し、エンコーディングを変更します。 | トレーニング、予測 | はい |
データセットファイルには、カンマ(,)、タブ(\t)、セミコロン(;)、またはパイプ文字(\)のいずれかを含む必要があります。 | ). | エラーにはCSV/区切りフォーマットが正しくないことが表示されます。データセットを別のプログラム(Excelなど)に保存して、サポートされている区切り文字を使用して変更します。 リストされた値の1つである問題のある区切り文字は、引用符の問題を示します。 テキストデータセットの場合、文字列が引用符で囲まれていないと、適切な区切り文字の検出で問題が発生する可能性があります。 例: タブ区切りのデータセットでは、引用符で囲まれていないテキスト列に含まれるカンマは区切り文字として解釈されることがあります。 関連するファイルサイズの問題については、こちらの備考を参照してください。 | トレーニング、予測 |
Excelのデータセットではヘッダーに日付時刻を設定することはできません。 | エラーが表示され、列のインデックスと列名の近似値が表示されます。列の名前を変更します(例:dateまたはdate-11/2/2016)。 または、データセットをCSV/区切り形式で保存します。 | トレーニング、予測 | はい |
データセットは単一のファイルである必要があります。 | エラーには指定されたファイルに複数のデータセットが含まれることが表示されます。 一般的に、このエラーは、アーカイブファイル(tarとzip)で発生します。アーカイブを解凍し、含まれるファイルが1つだけであることを確認します。 | トレーニング、予測 | はい |
ユーザーはURLまたはHDFS取込みを使用する場合、データセットに対する読み取り許可が必要です。 | エラーにはデータセットへのアクセス許可がユーザーにないことが表示されます。 | トレーニング、予測 | はい |
日付列内のすべての値は同じ形式であるか、ヌル値である必要があります。 | エラーには一致しない値と形式そのものが表示されます。日付列で一致しない値を見つけて変更してください。 | トレーニング、予測 | はい。これは、画像列に依存せずに、日付列がある場合は常にデータセットに適用されます。 |
テキスト特徴量では、(1つのセルに)最大500万文字を含めることができます。1000万文字まで入力できる場合もあります。 したがって、実質的には制限はなく、データセットの総容量が制約要因となる可能性の方が高くなります。 | N/A | トレーニング、予測 | はい。これは、画像列に依存せずに、テキスト列がある場合は常にデータセットに適用されます。 |
許容されるファイルインポートサイズの確認¶
備考
すべてのファイルサイズ制限は、非圧縮サイズを表します。
データセットを取込む場合、実際のディスク上のサイズはDataRobot内では異なる場合があります。
-
元のデータセットソースがCSVの場合、DataRobotによってデータの前処理が行われるので、サイズも元のサイズと少し異なる場合があります。
-
元のデータセットソースがCSVではない場合(SAS7BDAT、JDBC、XLSX、GEOJSON、Shapefileなど)、ディスク上のサイズは、CSVに変換されたときのデータセットのサイズになります。 たとえば、SAS7BDATは、さまざまなエンコードタイプをサポートするバイナリ形式です。 そのため、CSVに変換する際、SAS7BDATファイルとしての入力サイズだけではデータのサイズを推定することが困難です。
-
XLSXは、その構造上、1つのドキュメント全体として読み込まれるため、解析しようとするとメモリ不足の問題が発生する可能性があります。 それに対してCSVは、メモリ使用量を減らし、エラーを防ぐために、チャンク単位で読み込まれます。 ベストプラクティスでは、XLSXファイルの場合、150MBを超えないことを推奨します。
-
元のデータセットソースがアーカイブまたは圧縮されたCSVの場合(たとえば、.gzip、bzip2、.zip、.tar、.tgz)の場合、実際のディスク上のサイズは、前処理が実行された後の非圧縮CSVのサイズになります。
ファイルサイズを考慮する際、以下のことに留意してください。
-
適用される前処理のステップには、データセットエンコーディングのUTF-8への変換、フィールドデータの引用符の追加、欠損値表現の正規化、地理空間フィールドの変換、列名のサニタイズなどがあります。
-
画像アーカイブまたは他の同様の形式の場合、追加の前処理が行われ、画像ファイルの内容が結果のCSVに追加されます。 これにより、最終的なCSVのサイズは、アップロードされた元のファイルと大幅に異なる場合があります。
-
ファイルをCSVに変換するとファイルサイズ制限が適応されます。 ZIPファイルをDataRobotにアップロードした場合、DataRobotでファイルを抽出するときのファイルはファイルサイズ制限以下である必要があります。
-
区切りCSVデータセット(CSV、TSVなど)のサイズが取込み前にアップロード制限に近くなる場合は、DataRobotの外部で変換を行うことをお勧めします。 ファイルのインポートが制限を超えないようにすることができます。 コンマ区切り以外のファイルのサイズがサイズ制限に近い場合も、コンマ区切りのCSVにDataRobotの外部で変換することをお勧めします。
-
DataRobotの外部でCSVを変換する際は、アップロードされたファイルサイズとDataRobotの最大ファイルサイズ制限に関してカウントされるサイズの不一致を回避するために、コンマを区切り文字、改行をレコード区切り、およびUTF-8をエンコードタイプとして使用してください。
-
場合によっては、ダウンロードに含める特徴量フラグの変更を検討してください。
- 早期制限チェックを無効にする:選択すると、推定ベースの早期制限チェッカーが無効になり、代わりに正確な制限チェッカーが使用されます。 これによって、推定が若干ずれている場合に制限に近いファイルを取り込める場合があります。 ただし、制限を超えている場合、プロジェクトは取込みプロセス中に失敗することに備考してください。
- 最小限のCSVクォーティングを有効にする:変換されたCSVの引用時の変換プロセスがより保守的になり、CSVが小さくなります。 ただし、これを行うと、プロジェクトが再現不可能になる場合があります。 この設定が有効な場合と無効な場合では、データセット取込み時のEDAサンプルやパーティショニングが異なる場合があり、それによってプロジェクトにわずかな差異が生じる可能性があるためです。 (一方、同じ設定で同じデータセットを取り込むとプロジェクトが再現不可能になります。)
AutoMLのファイルインポートサイズ¶
以下のセクションでは、サポートされているファイルのインポートサイズについて説明します。
備考
ファイルサイズアップロードはDataRobotデプロイに依存し、場合によってはデプロイされているサーバーの数とサイズにも依存します。 不明な点がある場合は、許容されるファイルサイズの確認のヒントを参照してください。
* 最大10GBがAutoMLプロジェクトに適用されます。注意事項が適用されます。
ファイルタイプ | 最大サイズ | リリースの可用性 | 備考 |
---|---|---|---|
CSV(トレーニング) | 最大10GB* | すべて | DataRobotパッケージと利用可能なハードウェアリソースによって異なります。 |
XLS | 150MB | 3.0.1以降 |
* 最大20GBの場合もあります。詳細はDataRobotサポートにお問い合わせください。
10GBを超える取込み(SaaSのみ)¶
最大20GBのトレーニングデータセットの取込みによって、大規模なモデリングが可能になります。 有効にすると、ファイル取込みの上限が10GBから20GBに増加します。
本機能の提供について
最大20GBのトレーニングデータの取込みはプレビュー機能で、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:20GBのスケールアップモデリングの最適化を有効にする
20GBでトレーニングする場合、以下の点に注意してください。
- 二値分類および連続値プロジェクトでのみ使用できます。
- Visual Artificial Intelligence (AI)および Location AIプロジェクトではサポートされません。
- 取込みは、外部ソース(データ接続またはURL)からのみ可能です。トレーニングデータは、AIカタログに登録する必要があります(20GBのデータセットは、ローカルコンピューターから直接アップロードできません)。
- スライスされたインサイトは無効です。
- 特徴量探索は無効です。
- デフォルトでは、 特徴量ごとの作用により、上位500の特徴量(特徴量のインパクトでランク付け)のインサイトが生成されます。 10GBを超えるプロジェクトでは、実行時のパフォーマンスを考慮して、特徴量ごとの作用では、上位100の特徴量のインサイトが生成されます。
OTV要件¶
時間外検定(OTV)モデリングの場合、データセットの最大サイズ:5GB未満。
OTVバックテストでは、各検定およびホールドアウト分割に少なくとも20行が必要で、各トレーニング分割に少なくとも100行が必要です。 その条件を満たさない結果が生じるバックテストを設定した場合、DataRobotでは、最小限の条件を満たすバックテストだけが実行されます(該当するバックテストにはアスタリスクが表示されます)。 例:
- バックテスト1回、ホールドアウトなしの場合、トレーニング用にMinimum(最小)100行、検定用に20行以上(合計120行以上)。
- バックテスト1回、ホールドアウトありの場合、トレーニング用にMinimum(最小)100行、検定用に20行以上、ホールドアウト用に20行以上(合計140行以上)。
予測ファイルインポートサイズ¶
予測方法 | 詳細 | ファイルサイズ制限 |
---|---|---|
リーダーボードでの予測 | UIを使用してデプロイされていないモデルで予測を行うには、リーダーボードでモデルを展開し、予測 > 予測を実施を選択します。 ローカルファイル、URL、データソース、またはAIカタログから予測をアップロードします。 モデリング予測API(「V2予測API」とも呼ばれる)を使用して予測をアップロードすることもできます。このAPIを使用して、小さなデータセットでモデリングワーカーによって予測をテストします。 予測は、お使いのDataRobotパッケージに応じて、ユーザー1人100リクエスト(1時間あたり)に制限できます。 | 1GB |
バッチ予測(UI) | UIを使用してバッチ予測を行うには、モデルをデプロイし、デプロイの 予測を作成タブに移動します(MLOpsが必要)。 | 5GB |
バッチ予測(API) | バッチ予測APIは、高スループットに最適化され、本番グレード接続オプションが含まれています。この本番グレード接続オプションによって、APIを通してデータをプッシュするだけでなく、AIカタログ、クラウドストレージ、データベース、またはデータウェアハウス(MLOpsが必要)に接続できます。 | 無制限 |
予測API(リアルタイム) | デプロイ済みのモデルでリアル予測を行うには、予測APIを使用します。 | 50MB |
予測モニタリング | バッチ予測APIは特定のファイルサイズに制限されることはありませんが、予測監視には引き続き1時間あたりのレート制限が適用されます。 | 毎時100MB |
時系列ファイル要件¶
時系列を使用する場合、データセットはCSV形式で、以下のサイズ要件を満たす必要があります。
最大ファイルサイズ:単一系列 | 最大ファイルサイズ:複数系列/セグメント化 | 備考 |
---|---|---|
500MB | 5GB | SaaS |
500MB | 2.5GB | セルフマネージド6.0+、30GBモデラー設定 |
500MB | 5GB | セルフマネージド6.0+、60GBモデラー設定 |
その条件を満たさない結果が生じるバックテストを設定した場合、DataRobotでは、最小限の条件を満たすバックテストだけが実行されます(該当するバックテストにはアスタリスクが表示されます)。 時系列の特定の特徴量:
特徴量 | 要件 |
---|---|
バックテストごとにMinimum(最小)行数 | |
データ取込み:連続値 | トレーニング用に20行以上、検定用に4行以上 |
データ取込み:分類 | トレーニング用に75行、検定用に12行 |
特徴量後の派生:連続値 | 最小35行 |
特徴量後の派生:分類 | 100行 |
カレンダー | |
カレンダーイベントファイル | 1MB未満および10,000行 |
複数系列モデリング* | |
モデル比較用の外部ベースラインファイル | 5GB未満 |
\* セルフマネージドAIプラットフォームのバージョン5.0以降は、100,000系列に制限されています。バージョン5.3以降は、1,000,000系列に制限されています。
備考
ホールドアウトなしでパーティション分割が必要になる場合があります。その際、最低限取り込まれる行数が変更されるだけでなく、さまざまなビジュアライゼーションの出力も変更されます。
リリース4.3、4.4、および4.5では、データセットは500MB未満である必要があります。 リリース4.0および4.2では、時系列のデータセットは10MB未満、OTVのデータセットは500MB未満である必要があります。 それ以前のリリースでは、日付/時刻パーティションを使用するプロジェクトの場合、データセットは5MB未満である必要があります。
特徴量探索のファイルインポートサイズ¶
特徴量探索を使用する場合、以下の要件が適用されます。
-
セカンダリーデータセットは、アップロードされたファイルまたはAIカタログに登録されたJDBCソースのいずれかである必要があります。
-
プロジェクトごとに最大30個のデータセットを設定できます。
-
すべてのデータセットのサイズ(プライマリーとセカンダリーの両方)の合計が40GBを超えることはできず、個別のデータセットサイズが20GBを超えることはできません。 Using larger datasets may impact performance and result in error. 下記のダウンロード制限を参照してください。
データ形式¶
DataRobotのデータ取込みでは以下の形式と型がサポートされています。 サポートされているデータ型も参照してください。
ファイル形式¶
- .csv、.dsv、または.tsv*(推奨形式)
- データベーステーブル
- .xls/.xlsx
- PDF**
- .sas7bdat
- .parquet***
- .avro**
*ファイルはカンマ、タブ、セミコロン、またはパイプ区切りのファイルで、各データ列にヘッダーが必要です。 各行には同数のフィールドがなければならず、そのうちのいくつかは空白になっている場合もあります。
**これらのファイルタイプはプレビューです。 詳細については、DataRobotの担当者にお問い合わせください。
***Parquetファイルは型指定されたデータです。数値を含む文字列フィールドがファイルにある場合、このフィールドはカテゴリーとして処理されます。
ロケーションAIのファイル形式¶
次のLocation AIのファイルタイプは、組織内のユーザーに対して有効になっている場合にのみサポートされます。
- ESRIシェープファイル
- GeoJSON
- ESRIファイルジオデータベース
- Well Known Text(テーブルの列に埋め込み)
- PostGISデータベース(ファイルはカンマ区切り、タブ区切り、セミコロン区切り、またはパイプ区切りの形式で、各データ列にヘッダーが必要です。 各行には同じ数のフィールド(列)が必要で、空白の場合があります。)
圧縮形式¶
- .gz
- .bz2
アーカイブ形式¶
- .tar
圧縮およびアーカイブ形式¶
- .zip
- .tar.gz/.tgz
- .tar.bz2
圧縮とアーカイブの両方に対応しています。 ただし、アーカイブを使用すると、DataRobotは圧縮されていないデータのサイズを知ることができ、データの取り込みが効率的になります。
小数点記号¶
小数点記号としてはピリオド(.)文字のみがサポートされており、コンマ(,)などのロケールに固有の小数点記号はサポートされていません。 つまり、値1.000
は1に等しく、1000を表すために使用することはできません。 別の文字が区切り文字として使用されている場合、その値はカテゴリー型として扱われます。
数値特微量は、正、負、またはゼロのいずれかであり、次のいずれかの基準を満たす必要があります。
- ピリオドおよびコンマを含みません。
- 単一のピリオドを含む(複数のピリオドを含む値はカテゴリー型として扱われます)。
次の表に、サンプル値と対応する特徴量の型を示します。
特徴量値 | データ型 |
---|---|
1000000 | 数値 |
0.1 | 数値 |
0.1 | 数値 |
1,000.000 | カテゴリー |
1.000.000 | カテゴリー |
1,000,000 | カテゴリー |
0,1000 | カテゴリー |
1000.000… | カテゴリー |
1000,000… | カテゴリー |
(0,100) | カテゴリー |
(0.100) | カテゴリー |
ヒント
カテゴリー型(区切り文字に基づいてカテゴリー型と見なされる特徴量)から数値型に特徴量を変換しようとすると、空の数値型特徴量になります。
エンコーディングと文字セット¶
データセットは下記のエンコーディング要件を満たす必要があります。
-
データファイルは、不要なキャラクターまたはエスケープシーケンス(URLから)を持つことができません。
-
エンコーディングは、データセット全体で一貫していなければなりません。 たとえば、最初の100 MBがUTF-8でエンコーディングされているデータファイルで、後続の部分に文字がutf-8でない文字がある場合、最初の100 MBで誤って検出されて失敗する可能性があります。
データには、下記のエンコーディングを必ず使用してください。
- ascii
- cp1252
- utf-8
- utf-8-sig
- utf-16
- utf-16-le
- utf-16-be
- utf-32
- utf-32-le
- utf-32-be
- Shift-JIS
- ISO-2022-JP
- EUC-JP
- CP932
- ISO-8859-1
- ISO-8859-2
- ISO-8859-5
- ISO-8859-6
- ISO-8859-7
- ISO-8859-8
- ISO-8859-9
- windows-1251
- windows-1256
- KOI8-R
- GB18030
- Big5
- ISO-2022-KR
- IBM424
- windows-1252
特殊な列の検出¶
以下に説明する基準を満たしている場合は、これらの特殊な列が検出されることに注意してください。currency
、length
、percent
、およびdate
はプロジェクトのターゲットとして選択することはできません。 しかしながら、パーティション特徴量としてdate
を選択できます。
日付と時刻の形式¶
列の形式が以下のリストに含まれる日付を含むいずれかの形式と同じ場合、その列は日付フィールドとして認識されます。 厳密に時刻形式の列(%H:%M:%S
など)は時刻として認識されます。 指示の説明は、Python定義表を参照してください。 以下の表では、1999年1月25日1:01 p.mの日付と時刻 (正確には午後1時1分59秒000001マイクロ秒)の例を示します。
文字列 | 例 |
---|---|
%H:%M | 13:01 |
%H:%M:%S | 13:01:59 |
%I:%M %p | 01:01 PM |
%I:%M:%S %p | 01:01:59 PM |
%M:%S | 01:59 |
%Y %m %d | 1999 01 25 |
%Y %m %d %H %M %S | 1999 01 25 13 01 59 |
%Y %m %d %I %M %S %p | 1999 01 25 01 01 59 PM |
%Y%m%d | 19990125 |
%Y-%d-%m | 1999-25-01 |
%Y-%m-%d | 1999-01-25 |
%Y-%m-%d %H:%M:%S | 1999-01-25 13:01:59 |
%Y-%m-%d %H:%M:%S.%f | 1999-01-25 13:01:59.000000 |
%Y-%m-%d %I:%M:%S %p | 1999-01-25 01:01:59 PM |
%Y-%m-%d %I:%M:%S.%f %p | 1999-01-25 01:01:59.000000 PM |
%Y-%m-%dT%H:%M:%S | 1999-01-25T13:01:59 |
%Y-%m-%dT%H:%M:%S.%f | 1999-01-25T13:01:59.000000 |
%Y-%m-%dT%H:%M:%S.%fZ | 1999-01-25T13:01:59.000000Z |
%Y-%m-%dT%H:%M:%SZ | 1999-01-25T13:01:59Z |
%Y-%m-%dT%I:%M:%S %p | 1999-01-25T01:01:59 PM |
%Y-%m-%dT%I:%M:%S.%f %p | 1999-01-25T01:01:59.000000 PM |
%Y-%m-%dT%I:%M:%S.%fZ %p | 1999-01-25T01:01:59.000000Z PM |
%Y-%m-%dT%I:%M:%SZ %p | 1999-01-25T01:01:59Z PM |
%Y.%d.%m | 1999.25.01 |
%Y.%m.%d | 1999.01.25 |
%Y/%d/%m %H:%M:%S.%f | 1999/25/01 13:01:59.000000 |
%Y/%d/%m %H:%M:%S.%fZ | 1999/25/01 13:01:59.000000Z |
%Y/%d/%m %I:%M:%S.%f %p | 1999/25/01 01:01:59.000000 PM |
%Y/%d/%m %I:%M:%S.%fZ %p | 1999/25/01 01:01:59.000000Z PM |
%Y/%m/%d | 1999/01/25 |
%Y/%m/%d %H:%M:%S | 1999/01/25 13:01:59 |
%Y/%m/%d %H:%M:%S.%f | 1999/01/25 13:01:59.000000 |
%Y/%m/%d %H:%M:%S.%fZ | 1999/01/25 13:01:59.000000Z |
%Y/%m/%d %I:%M:%S %p | 1999/01/25 01:01:59 PM |
%Y/%m/%d %I:%M:%S.%f %p | 1999/01/25 01:01:59.000000 PM |
%Y/%m/%d %I:%M:%S.%fZ %p | 1999/01/25 01:01:59.000000Z PM |
%d.%m.%Y | 25.01.1999 |
%d.%m.%y | 25.01.99 |
%d/%m/%Y | 25/01/1999 |
%d/%m/%Y %H:%M | 25/01/1999 13:01 |
%d/%m/%Y %H:%M:%S | 25/01/1999 13:01:59 |
%d/%m/%Y %I:%M %p | 25/01/1999 01:01 PM |
%d/%m/%Y %I:%M:%S %p | 25/01/1999 01:01:59 PM |
%d/%m/%y | 25/01/99 |
%d/%m/%y %H:%M | 25/01/99 13:01 |
%d/%m/%y %H:%M:%S | 25/01/99 13:01:59 |
%d/%m/%y %I:%M %p | 25/01/99 01:01 PM |
%d/%m/%y %I:%M:%S %p | 25/01/99 01:01:59 PM |
%m %d %Y %H %M %S | 01 25 1999 13 01 59 |
%m %d %Y %I %M %S %p | 01 25 1999 01 01 59 PM |
%m %d %y %H %M %S | 01 25 99 13 01 59 |
%m %d %y %I %M %S %p | 01 25 99 01 01 59 PM |
%m-%d-%Y | 01-25-1999 |
%m-%d-%Y %H:%M:%S | 01-25-1999 13:01:59 |
%m-%d-%Y %I:%M:%S %p | 01-25-1999 01:01:59 PM |
%m-%d-%y | 01-25-99 |
%m-%d-%y %H:%M:%S | 01-25-99 13:01:59 |
%m-%d-%y %I:%M:%S %p | 01-25-99 01:01:59 PM |
%m.%d.%Y | 01.25.1999 |
%m.%d.%y | 01.25.99 |
%m/%d/%Y | 01/25/1999 |
%m/%d/%Y %H:%M | 01/25/1999 13:01 |
%m/%d/%Y %H:%M:%S | 01/25/1999 13:01:59 |
%m/%d/%Y %I:%M %p | 01/25/1999 01:01 PM |
%m/%d/%Y %I:%M:%S %p | 01/25/1999 01:01:59 PM |
%m/%d/%y | 01/25/99 |
%m/%d/%y %H:%M | 01/25/99 13:01 |
%m/%d/%y %H:%M:%S | 01/25/99 13:01:59 |
%m/%d/%y %I:%M %p | 01/25/99 01:01 PM |
%m/%d/%y %I:%M:%S %p | 01/25/99 01:01:59 PM |
%y %m %d | 99 01 25 |
%y %m %d %H %M %S | 99 01 25 13 01 59 |
%y %m %d %I %M %S %p | 99 01 25 01 01 59 PM |
%y-%d-%m | 99-25-01 |
%y-%m-%d | 99-01-25 |
%y-%m-%d %H:%M:%S | 99-01-25 13:01:59 |
%y-%m-%d %H:%M:%S.%f | 99-01-25 13:01:59.000000 |
%y-%m-%d %I:%M:%S %p | 99-01-25 01:01:59 PM |
%y-%m-%d %I:%M:%S.%f %p | 99-01-25 01:01:59.000000 PM |
%y-%m-%dT%H:%M:%S | 99-01-25T13:01:59 |
%y-%m-%dT%H:%M:%S.%f | 99-01-25T13:01:59.000000 |
%y-%m-%dT%H:%M:%S.%fZ | 99-01-25T13:01:59.000000Z |
%y-%m-%dT%H:%M:%SZ | 99-01-25T13:01:59Z |
%y-%m-%dT%I:%M:%S %p | 99-01-25T01:01:59 PM |
%y-%m-%dT%I:%M:%S.%f %p | 99-01-25T01:01:59.000000 PM |
%y-%m-%dT%I:%M:%S.%fZ %p | 99-01-25T01:01:59.000000Z PM |
%y-%m-%dT%I:%M:%SZ %p | 99-01-25T01:01:59Z PM |
%y.%d.%m | 99.25.01 |
%y.%m.%d | 99.01.25 |
%y/%d/%m %H:%M:%S.%f | 99/25/01 13:01:59.000000 |
%y/%d/%m %H:%M:%S.%fZ | 99/25/01 13:01:59.000000Z |
%y/%d/%m %I:%M:%S.%f %p | 99/25/01 01:01:59.000000 PM |
%y/%d/%m %I:%M:%S.%fZ %p | 99/25/01 01:01:59.000000Z PM |
%y/%m/%d | 99/01/25 |
%y/%m/%d %H:%M:%S | 99/01/25 13:01:59 |
%y/%m/%d %H:%M:%S.%f | 99/01/25 13:01:59.000000 |
%y/%m/%d %H:%M:%S.%fZ | 99/01/25 13:01:59.000000Z |
%y/%m/%d %I:%M:%S %p | 99/01/25 01:01:59 PM |
%y/%m/%d %I:%M:%S.%f %p | 99/01/25 01:01:59.000000 PM |
%y/%m/%d %I:%M:%S.%fZ %p | 99/01/25 01:01:59.000000Z PM |
パーセンテージ¶
%
で終わる数値がある列は、パーセントとして扱われます。
通貨¶
以下の通貨記号のある値がある列は、通貨として扱われます。
- $
- EUR、USD、GBP
- £
- £ (fullwidth)
- €
- ¥
- ¥ (fullwidth)
また、通貨の解釈については、以下の点に注意してください。
- 通貨記号はテキストの前($1)または後(1EUR)に配置できますが、特徴量全体で一貫性を維持する必要があります。
- コンマ(
,
)とピリオド(.
)は両方とも千の単位やセントの区切り文字として使用できますが、特徴量全体で統一する必要があります(たとえば、1000ドル1セントは、1,000.01または1.000,01のどちらでも表現できます)。 +
および-
の記号を値の前に配置できます。
Length¶
<feet>’<inches>”の変換に一致する値を含む列は、特徴量の型としてlength
データページに表示されます。 長さがインチに変換され、その後に値がブループリントの数値として扱われます。 データセットにその他の長さ値(12㎝など)がある場合、特徴量はカテゴリーとして取り扱われます。 測定値を示す単位混在値(5m、72インチ、12㎝など)が特徴量に含まれる場合、アップロードする前にデータセットをクリーニングおよび正規化することを推奨します。
列名の変換¶
データの取込み中に、DataRobotは次の文字をアンダースコア(_
)に変換します:-
、$
、.
{
、}
、"
、\n
、および\r
。 さらに、先頭と末尾のスペースをすべて削除します。
ファイルダウンロードサイズ¶
データセットをダウンロードする際、以下の点に注意してください。
- 10GBのファイルサイズ制限があります。
- データセットはCSVファイルとしてダウンロードされます。
- DataRobotは上記の変換を適用するため、ダウンロードしたデータセットは最初にインポートされたものとは異なる場合があります。