時間認識に関する注意事項¶
いずれの時間認識モデリングメカニズム(—OTVおよび自動化された時系列—)も、 日付/時刻パーティションを使用して実装されます。 したがって、日付/時刻パーティションに関する記述は、すべての時間認識モデリングに適用されます。 こちらもご覧ください。
- 時系列固有に関する注意事項
- 複数系列に関する注意事項
- クラスタリング(時系列固有)に関する注意事項
- セグメント化されたモデリング
ファイルサイズおよび系列制限に関する注意事項については、サポート記事ファイルサイズ要件を参照してください。
備考
注意事項は簡単に識別できるように最新のものから順に記載されています。
日付/時刻のパーティショニングに関する注意事項¶
-
フローズンしきい値はサポートされていません。
-
単調モデルを含むアンサンブルでは、OTVプロジェクトのリーダーボードにMONOラベルが表示されません。
-
時間経過に伴う予測をプレビューするとき、再トレーニングされていないモデルだけが表示されます(デプロイ推奨バッジのあるモデルなどは表示されません)。
-
長いバックテスト期間を設定してもモデルは構築されますが、十分なデータがない場合、バックテストが実行されません。 そのような場合、バックテストスコアはリーダーボードで使用できません。
-
日付パーティション列のタイムゾーンは無視されます。 データセットに複数のタイムゾーンが含まれる場合、問題が発生することがあります。 この問題を回避するには、DataRobotの外部で単一のタイムゾーンに変換してください。 また、夏時間はサポートされません。
-
1900年以前のデータはサポートされません。 必要な場合は、データの日付を前にシフトしてください。
-
現在、うるう秒はサポートされていません。
時系列固有に関する注意事項¶
上記の項目に加えて、時系列プロジェクトで作業する際は以下の点に注意してください。
精度¶
- DeepAR:
- 連続値のみ
- 特徴量セットには、最新のナイーブベースライン特徴量が含まれている必要があります
- 共変量がサポートされますが、サポートされるのは予測時に使用できる共変量(派生した日付、事前に既知、カレンダー特徴量など)だけです。
- ターゲットをDNDにすることはできません
- FW-0モードでは使用できません
- 教師なしモードでは使用できません
- トレーニングデータセットはサンプリングできません
- 時間的階層モデル:
- 連続値プロジェクトのみをサポートします
- ターゲットをDNDにすることはできません
- FW=0モードでは使用できません
- 行ベースのプロジェクトでは使用できません
-
ナウキャスティング:
- MASEとTheil’s Uは、ターゲットが派生した場合のみ使用できるため、それらの指標は、派生ターゲットを含む連続値プロジェクトでのみ使用できます。
-
特徴量ごとの作用、コンプライアンスドキュメント、および予測の説明では、自己回帰モデル(従来の時系列(TTS)およびディープラーニングモデル)はサポートされていません。 以下が含まれます。
-
すべてのARIMA:
- 固定エラー条件を使用した系列ごとの非季節的AUTOARIMA(必要な機能フラグ:複数系列スコアリングコード開発者ブループリントを有効にする + スコアリングコードを有効にする)
- 系列ごとの非季節性AUTOARIMA
- フーリエ特徴量を使用した系列ごとの非季節的AUTOARIMA
- 非季節的AUTOARIMA
- ナイーブな予測オフセットを使用したAUTOARIMA
-
すべてのVAR:
- 複数系列VARMAX
- フーリエ特徴量を使用した複数系列VARMAX
-
すべてのRNNとLSTM(DeepAR、シーケンス間など)
-
-
その他の自己回帰モデラー(Prophet、TBAT、ETSなど)。
異常検知¶
-
モデル比較:
- 外部テストセットは利用できません。
- 「すべてのバックテスト」オプションは使用できません。
-
複数ステージのOTVは、教師なしプロジェクトでは使用できません。
-
時系列の異常チャートの異常しきい値は、系列ごとの種類のブループリントに対して0.5に固定されています。 系列ごとではないブループリントは、計算された動的なしきい値を使用します。
-
異常評価インサイトのインサイト:
- Does not work for unsupervised AutoML
- ポイントの最大数はソースあたり最も異常な500ですが、再設定が可能です
- アンサンブルには使用できません
- Will not be computed for training if training is considered to be too large.
Data Prepツール¶
ギャップの処理と集計を行うときは、次の点を考慮してください。
-
Data PrepはデプロイやAPIでの使用ではサポートされていません。
-
数値型のターゲットのみがサポートされています。
-
数値、カテゴリー、テキスト、およびプライマリー日付列のみが出力に含まれます。
-
集計で許容される最小時間ステップは1分です。
-
Data Prepツールが導入される前にAIカタログに追加されたデータセットは対象ではありません。 データセットを再アップロードしてツールを適用します。
-
共有デプロイは、変換されたData Prep予測データセットの自動適用をサポートしていません。
データ品質¶
- 先行後続ゼロのチェックは、ターゲット値の80%未満がゼロの場合にのみ実行されます。
単調制約¶
-
XGBoostはサポートされている唯一のモデルです。
-
数値の派生後特徴量を使用して、プロジェクトの作成後に単調な特徴量セットを作成できますが、プロジェクトの作成前に元の特徴量セットを単調に指定した場合は、その中のすべての特徴量に「派生しない」(DND)のマークが付きます。
-
ブループリントにオフセットがある場合(ナイーブ予測の場合など)、オフセットが適用された後の最終的な予測は単調ではないことがあります。 XGBoost自体は単調性を優先します。
-
モデルが系列ごとのXGBoostやパフォーマンスクラスター化されたブループリントなどのモデルのコレクションである場合、系列/クラスターごとに単調性が保持されます。
プロダクショナリゼーション¶
-
予測の説明:
- 自己回帰モデル(LSTM/ARIMA/VARMAX)またはそれらを含むアンサンブルでは使用できません。
- 最近の履歴ではなく、トレーニングデータセットに関連して定義されます。
- 少なくとも100行の検定データが必要です。
- オートパイロットの一部としてホールドアウトにトレーニングされたモデルのものは、ホールドアウトのロックが解除されるまで利用できません。
- 検定にトレーニングされたフローズン開始/終了モデルから直接作成されたアンサンブルのものは利用できません。 親モデルのアンサンブルが検定またはホールドアウトに再トレーニングされた場合に使用できます。
- 交差系列プロジェクトの系列スケーリングモデルまたはそれらを含むアンサンブルではサポートされていません。
- XEMP方法論を使用してのみ利用できます。
-
ARIMA、LSTM、およびDeepARモデルは予測サーバーにデプロイできません。 代わりに、次のいずれかを使用してデプロイします。
- ポータブル予測サーバー—(DataRobotモデルパッケージ(.mlpkgファイル)の実行環境)。
- 予測を作成タブ(最大1GBのデータセットの場合)。
- DataRobotスコアリングコード(ARIMAのみ)。
-
Scoring code support requires the following feature flags: Enable Scoring Code, Enable Scoring Code support for Keras Models (if needed)
-
時系列のバッチ予測は、交差系列プロジェクトや従来の時系列モデル(ARIMAなど)では使用できません。
スケール¶
-
時間階層モデルの場合、時間の経過に伴う特徴量チャートは、時系列集計のパーティションの端で使用されるデータとは異なる場合があります。
-
設定可能なモデルの並列化(カスタマイズ可能なFD分割)を使用している場合、オートパイロット中に1つの並列ジョブが削除されると、残りのモデル分割ジョブはエラーになります。
-
10 GBのOTVでは、マルチステップOTVを有効にする必要があります。
信頼性¶
-
モデル比較(経時的)は、最初の1000系列のみを示しています。 インサイトは、ジョブの計算ステータスとの同期をサポートしておらず、完全に事前計算されたデータのみを表示できます。
-
予測値と実測値の比較(FvsA)チャート:
- UIは、一度に最大100の予測距離の表示と計算に制限されています
- UIは一度に1000のビンを表示するように制限されています
- APIはパブリックではありません
- トレーニングCSVエクスポートは利用できません
- PNGおよびZIPエクスポートは使用できません
- チャートの動作はFDが広い大規模なデータセットでは遅くなる可能性があります
- FvsAチャートは[0,0]の予測ウィンドウを含むプロジェクトでは使用できません
- 特定のバックテスト/ソースの計算では、このバックテスト/ソースに対して以前に計算された時系列の精度(AOT)データが削除されます。 ただし、AoTは、選択した予測距離範囲のFvsAで再計算されます。
-
時系列の精度(AOT)チャート:
- UIは一度に1000のビンを表示するように制限されています
-
数値データのクレンジングでデータ品質の問題を処理する場合、一部のモデルでパフォーマンスが低下することがあります。
-
CSVエクスポートは、予測値と実測値の比較チャートの「すべてのバックテスト」では使用できません。
複数系列に関する注意事項¶
上記の一般的な時系列の注意点に加えて、以下の点に注意してください。
-
特徴量の関連性の行列は、時系列プロジェクトではサポートされていません。
-
ほとんどの複数系列のUIインサイトおよびプロットでサポートされるのは最大1000の系列です。 しかし、大きなデータセットの場合、いくつかのインサイトは系列ごとにオンデマンドで計算する必要があります。
-
複数系列は単一(1つ)の系列のID列をサポートします。
-
複数系列のID値は、すべて数値またはすべて文字列のいずれかである必要があります。 空白または浮動データ型の系列ID値は完全にはサポートされません。
-
複数系列はARIMAおよびProphet ブループリントをサポートしません。
クラスタリングに関する注意事項¶
-
クラスタリングは、複数系列の時系列プロジェクトでのみ使用できます データには、1つの時間インデックスと少なくとも10の系列が含まれている必要があります。
-
X個のクラスターを作成するには、時間ステップ数が20以上の系列が少なくともX個必要です。 (たとえば、3つのクラスターを指定する場合、系列の少なくとも3つは20以上の時間ステップの長さである必要があります。)
-
選択したすべての系列の和集合から構築されます。和集合は少なくとも35の時間ステップにまたがる必要があります。
-
セグメント化されたモデリングの実行でクラスタリングモデルを使用するには、2つ以上のクラスターを検出する必要があります。
クラスターを発見するとはどのような意味があるか
クラスターを構築するには、データを2つ以上の異なるグループにグループ化することができる必要があります。 たとえば、データセットに10の系列があり、それらがすべて同じ単一系列のコピーである場合、DataRobotは複数のクラスターを検出できません。 より現実的な例では、同じデータのごくわずかな時間のズレも発見できないことになります。 すべてのデータが数学的に類似しすぎて異なるクラスターに分離できない場合には、セグメンテーションで使用することはできません。
データの「近さ」はモデルに依存するものであり、収束条件は異なります。 プロジェクトに、すべて同じ手段の10の系列がある場合、速度クラスタリングは収束しません。 しかし、それはK平均自体が収束しないことは意味しません。
しかし、クラスターがセグメンテーションに使用されていない場合、制限はより厳しくなることに注意してください。
セグメント化されたモデリングに関する注意事項¶
-
プロジェクトは100セグメントに制限されています。すべてのセグメントの合計サイズは1GB未満でなければなりません(機能フラグ付きで5GB。詳細については、DataRobotの担当者に連絡してください)。
-
予測は、複合モデルリーダーボードにある予測の作成タブを使用する場合またはAPIを使用する場合のみ利用可能です。
- (検出されたクラスターを使用する代わりに)セグメントIDを選択してセグメントを手動で割り当てた場合、予測データセットには、トレーニングデータセットに表示されない新規セグメントIDを含めることはできません。
- 予測データセットは、各セグメントの履歴データ要件を満たす必要があります。 季節性が検出されたセグメントプロジェクトの場合、季節性がないセグメントプロジェクトよりも多くの履歴行があるはずです。
-
時系列クラスタリングプロジェクトがサポートされています。 関連する考慮事項を参照してください。
統合されたモデルデプロイに関する注意事項¶
セグメントモデリングのデプロイを使用する場合は、次の点に注意してください。
-
時系列セグメントモデリングのデプロイでは、データドリフトの監視には対応していません。
-
クラスタリングモデルを使用するセグメント化されたデプロイでは、自動再トレーニングは無効です。再トレーニングは手動で行う必要があります。
-
再トレーニングは、統合されたモデルの精度ドリフトによってトリガーすることができます。ただし、個々のセグメントでの精度監視や個々のセグメントの再トレーニングはサポートしません。
-
統合されたモデルデプロイには、標準モデルチャレンジャーを含めることができます。
リリース6.0以前¶
-
予測を作成タブ:
-
データセットがリリース5.3以降にアップロードされた場合のみ、予測設定モーダルが表示されます。自動生成された拡張予測ファイルのテンプレートは、データセットがリリース6.0以降にアップロードされた場合にのみ利用できます。
-
展開するとアップロードファイルのサイズ制限を超えるデータセットは展開されません。
-
予測データセットが自動展開を必要とし、ターゲットのない行も含む場合、展開された行はターゲットのない行で日付が重複する可能性があります(さらに、予測に失敗します)。 これを解決するには、ファイルをアップロードする前に、ターゲットのない行を削除してください。
-
DataRobotでは、KA値が欠損している場合に注意が表示されますが、特定の欠損値は予測ポイントごとには項目化されません。
-
-
分類モデルはまれなイベントに対して最適化されていません。マイノリティラベルの頻度は15%超である必要があります。
-
「ベースラインのみ」特徴量セットを使用して、自己回帰モデルを実行します 他の特徴量セットを使用すると、特徴量ごとの作用やコンプライアンスドキュメントが失敗する可能性があります。これは、自己回帰モデルでは、より大きなデフォルトセットに含まれる追加の特徴量は使用されず、それらと連携するように設計されていないためです。
-
LSTM/DeepARブループリントでは、特徴量ごとの作用およびコンプライアンスドキュメントが無効化されます。
-
予測距離を含むEureqaは、15の予測距離値に制限されます。 これらは、行数が10万行以下の小規模なデータセットや、カテゴライズされた特徴量の総レベル数が1000以下の場合にのみ実行されます。高度なチューニングにおけるこれらのグリッド検索プロットでは、予測距離値に関係なく単一の最良グリッド検索ポイントだけがマークされます。 この
task size
パラメーターの設定が大きすぎると、ブループリントが完成するまでに長時間を要する場合があります。 -
予測距離アンサンブルは、最大50の予測距離を含むプロジェクトに制限されます。
-
係数タブの「予測距離」セレクターは、ARIMAモデルなどの ForecastDistanceMixinを使用しないバックテストおよびモデルには使用できません。
-
日次データセットの月次差分は、検知を介してのみトリガ―できます。 現在、UIまたはAPIの高度なオプションを介して月次の季節性を指定することはできません。
-
RNNベース(LSTMとGRU長短期記憶およびゲート再帰ユニット)は、(OOMエラーを防ぐために)最大カテゴリー制限1000をサポートします。 カーディナリティの高い特徴量は、この制限を超えると切り捨てられます。
-
柔軟なバックテスト設定のホールドアウト行のトレーニングパーティションを直接編集することはできません。 最初のバックテストのトレーニングパーティションの期間がホールドアウトのトレーニングパーティションの期間として使用されます。
-
リポジトリブループリントの場合、最適なデフォルトの特徴量セットを選択できるのはARIMAモデルだけです。
-
階層モデリングでは、データの系列を時間に合わせる必要があります(具体的には、系列の95%がデータ内のタイムスタンプの95%に現れる必要があります)。
-
階層ブループリントおよび系列でスケールされたブループリントでは、ターゲットは非Negativeである必要があります。
-
系列でスケールされたブループリントでサポートされるのは二乗損失だけです(対数リンクはサポートされません)。
-
階層ブループリントおよびLSTMブループリントでは、サンプリングが必要なプロジェクトはサポートされません。
-
系列単位モデルのブループリント(XGB、XGB Boost、ENET)では、最大50の系列がサポートされます。 系列の数が10以上の場合、これらのブループリントをチューニングすることはできません。
-
系列あたりのARIMAブループリントは、系列あたり15,000に制限されており(つまり、系列の数が10であれば15万行)、サポートされるのは最大40系列です。 系列の数が10未満の場合、ブループリントはオートパイロットで実行します。各予測で再学習が行われるので、系列の精度の計算には長い時間がかかります。
-
クラスター化されたブループリントは分類に使用できません。 類似性に基づいたクラスタリングは多くの時間を要し、トレーニングに長い時間がかかります。また、大量のメモリーが使用されます(サイズの大きいデータセットにはデフォルトのパフォーマンスベースのクラスタリングを使用してください)。
-
ターゲットの最小値が0の場合、ゼロ過剰ブループリントが有効になります。
-
ゼロ過剰ブループリントがサポートするのは、「非ゼロ平均ベースライン」特徴量セットだけです。
-
ターゲットを派生なし(do-not-derive)に設定しても、連続値プロジェクトのシンプルなナイーブターゲット特徴量が派生します。
-
特徴量派生プロセスでは、ゼロ過剰モデルおよび階層モデルに必要なターゲット派生特徴量を生成しないため、ターゲットが派生なしに設定されている場合、階層モデルとゼロ過剰モデルを使用できません。
-
交差系列特徴量のグループIDには空白値や欠損値を設定できません。また、系列IDの制約と同様に、数値と数値以外の値を組み合わせることもできません。
-
予測の説明はXGBoostベースの階層モデルおよび2ステージモデルでは使用できません。
-
新しい系列を予測する場合、系列スケーリングブループリントの精度が低くなることがあります。
-
特徴量の関連性の行列は、複数系列プロジェクトではサポートされていません。
-
タイムスタンプの間隔は不規則である場合がありますが、系列内で重複する日付を含むことはできません。
-
時系列データセットに2262年以降の日付を含めることはできません。
-
バックテストに十分が行があることを確実にするために、非常に不規則なデータセットでは、期間パーティショニングモードではなく行数が使用されます。
-
VARMAXおよびVARブループリントでは、ログ変換/指数モデリングはサポートされません。
-
ARIMA、VARMAX、およびVARブループリント予測では、予測を作成するときにトレーニングデータの最後までの履歴が必要です。
-
非予測時系列モデル(現在のターゲット
FW=[0, 0]
の予測を行えるモデル)の場合:- 予測ウィンドウFW=[0,0] は許可されますが、N>0であるFW=[0, N] は許可されません
- 予測ウィンドウFW=[0,0]では、ターゲットのラグは生成されません(OTVと同様)
-
損失関数族が時系列アンサンブル用に変更され、アンサンブル結果が若干変更されることがあります。 以下に具体例を示します。
- ターゲットが指数関数で、指標がRMSE、MASEまたはTheil's Uである場合、損失ファミリーはPoissonまたはGammaとなります。
- ターゲットが指数でない場合、損失ファミリーはGaussianです。
-
二値分類プロジェクトで使用できるオプションは、連続値プロジェクトで使用できるオプションとは少し異なります。 また、分類プロジェクトでは以下の点に注意してください。
- 稀有なイベントに最適化されていません(マイノリティラベルの頻度は15%超である必要があります)。
- すべてのバックテストパーティションのすべてのラベルの例が必要です。
- 差分、ARIMA、および季節性の検出はサポートされません。
- 予測プレビュープロットで0~1の範囲を超える差分バーを表示できます。
-
ミリセカンドデータベースの要件を以下に示します。
- トレーニングおよびパーティショニング境界は秒レベルでのみ指定できます。
- パーティショニングが機能するには複数の秒にわたる必要があります。
-
行ベースのプロジェクトではプライマリ日付列が必要です。
-
カレンダーイベントファイル:
- アクティブなプロジェクトで更新できません。 将来のすべてのカレンダーイベントはプロジェクトの開始時に特定する必要があります。そうでない場合、新しいプロジェクトをトレーニングする必要があります。
- 複数系列カレンダーをアップロードした場合、アップロード後に系列IDを変更するには、データセットをクリアして再度アップロードする必要があります。
- 10MB以下である必要があります。
-
リポジトリからブループリントを実行する場合、 時系列の有用な特徴量セット(上書きしない場合のデフォルト)は最適化されていません。 「差分あり」または「差分なし」の特徴量セットを選択することが推奨されます。
-
予測ウィンドウは、時間ステップあたり1000の予測距離(FD)である必要があり、小さいデータセットではさらに少なくなります。
-
RコードはProphetブループリント用に変更できません。また、Prophetブループリントはカレンダーのイベントをサポートせず、事前に既知の特徴量を使用できません。
-
エクスポートに使用できるのは、時系列の精度、安定性、予測精度と系列インサイトプロットだけです。その他の時系列プロットを、UIからエクスポートしたり、パブリックAPIを介して使用したりすることはできません。
-
多くの予測距離を含む大規模なデータセットは、25GB 未満への特徴量派生後にダウンサンプリングされます。
-
モデリングデータセットの作成後にデータセットが設定済みしきい値を超える場合、時系列の精度トレーニング計算は無効化されます。 デフォルトのしきい値は500万行です。
-
季節ごとのAUTOARIMAでは、季節性が大きい場合に大量のメモリーが使用されることに加えて、Python2.7の問題が原因で大きいデータセットで失敗することがあります。
-
季節性の自動検出が行われるのは、予測が特徴量の派生ウィンドウの内側にある場合だけです。
-
TensorFlowニューラルネットワークブループリント(リポジトリ内)は、テキスト特徴量や、トレーニングデータにない新規系列の予測作成をサポートしません。