Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

時系列の精度

日付/時刻のパーティショニングを指定する場合、時系列の精度タブが使用可能になり、時間経過に伴う予測の変化を視覚化することができます。デフォルトでは、最新(最初)のバックテストのトレーニングデータおよび検定データの予測値と実測値の時間値の比較が表示されます。これは、予測のデプロイと作成にDataRobotが使用するバックテストモデルです。(つまり、検定セットのモデルです。)

この視覚的表現は、OTVと時系列モデリングの間で多少異なります。時系列の場合、ツールの標準の機能に加えて、予測距離(モデル構築を実行する前に選択した予測する将来値の範囲)に基づいた表示することができます。複数系列プロジェクトをモデリングする場合、モデル化する系列を選択する追加のドロップダウンがあります。

すべての場合において、グラフのデフォルト表示では検定データの予測(白抜きのオレンジ色の円が線で接続された実測値と青い円が線で接続された予測値)が表示されます。プロジェクトを作成したときにカレンダーファイルをアップロードした場合、カレンダーイベントを示すマーカーも表示されます。

トレーニングデータに対する予測リンクをクリックし、トレーニングデータの結果を表示に追加します。

備考

モデリングデータセットの作成後にデータセットが設定済みしきい値を超える場合、時系列の精度トレーニング計算は無効化されます。デフォルトのしきい値は500万行です。

時系列の精度では、リフトチャートに表示される情報と同様に(違いもあります)、選択した期間の値がチャートに表示されます。両方のチャートはビニングされ、グラフ化します。(時系列の精度ビンはチャートの下にヒストグラムとして表示されませんが、ビニング情報はチャート自身のホバーヘルプとして表示されます。)時系列の精度タブ内のビンは同じ幅(各ビンの時間範囲は同じ)ですが、リフトチャート内のビンは同じサイズで各ビンに同じ行数が含まれます。

時系列の精度タブでは2つのプロット(予測値&実測値プロットと残差プロット)が使用可能です。

表示で使用されるデータ

時系列の精度タブおよび関連付けられたグラフは、日付/時刻パーティショニングで作成されたすべてのモデルで使用できますが、OTVと時系列/複数系列モデリングでオプションが異なります。

タブを開くと、グラフにはデフォルトで最新(最初)のバックテストの検定セットの予測値と実測値が表示されます。別の、もしくはすべてのバックテストを選択することもできます。ただし、リーダーボードに戻って実行ボタンをクリックして追加のバックテストの表示を計算する必要があります。ホールドアウトのロックが解除されている場合、ホールドアウトのパーティションをクリックしてホールドアウト予測を表示できます。ロックされている場合、リーダーボードからロックを解除して、この表示に戻って結果を表示できます。

データの量が小さい場合、チャートにはすべてのデータが一度に表示されます。表示の一部をフォーカスするには、チャートの下に表示されるプレビューの日付範囲スライダーを使用します。

大きいデータセット(約500行以上)の場合、プレビューには、すべての結果が表示されますが、チャートそのものにはスライダーで指定された選択範囲だけが表示されます。データの別の領域を表示するには、セレクターをスライドさせます。デフォルトでは、直近の1000個の時間マーカーが表示されます(設定した期間に依存します)。

このタブには、表示を変更するいくつかのオプションがあります。すべての日付/時刻パーティショニングされたプロジェクトでは、以下の操作を実行できます。

  1. 表示されたバックテストを変更するか、すべてのバックテストを表示する
  2. プロットする系列を選択する(複数系列のみ)
  3. 予測距離を選択する(時系列および複数系列のみ)
  4. トレーニングデータを計算および表示する
  5. 追加設定を展開し、必要に応じて表示解像度を変更する
  6. 日付範囲を変更する
  7. 枠に合わせてズーム
  8. データのエクスポート
  9. 残差値チャートの表示
  10. カレンダーイベントの識別

時間経過に伴う予測値と実際の値の比較

時間の経過に伴う予測値と実測値チャートは、プロジェクト内の各バックテストに関する有益な情報を提供します。複数のバックテストを比較することによって、データに最も適したモデルを容易に識別して選択できます。チャートを見る際の注意事項を以下に示します。

線の連続性の理解

単一のバックテストを表示するときは、線が連続していないことがあります。これは、ビニングされた時間範囲の1つでデータが欠損しているからです。例えば、第1週に多くのデータがあり、第2週にデータがなく、第3週に多くのデータがある場合があります。この場合、第1週と第3週の間にある不連続性がチャートに反映されます。

すべてのバックテストを表示する場合、基本的に3つのシナリオがあります。バックテストが完全に連続している: 1月1日~1月31日、2月1日~2月28日など。バックテストが重複している: 1月1日~2月15日、2月1日~3月15日など。バックテストに1つ以上のギャップがあることがあります(日付/時刻パーティションを設定したときに設定されます)。これらのバックテスト設定オプションは、「すべてのバックテスト」ビューに反映されるので、チャートのバックテストの線が重複したりギャップで分割されることや連続することがあります。

線の色の理解

時間の経過に伴う予測値と実測値チャートでは、実測値がオレンジの白抜きの円で表されます。検定セットに基づく予測値は青の塗りつぶし円で表されます。これは、バックテスト表現の青い部分に相当します。各バックテストのトレーニングデータの予測を計算して含めることもできます。チャートの下のバーは、トレーニングデータと検定データの境界を示します。

予測表示と実測表示の変更

データの評価に役立ついくつかのヒントとトグルがあります。

表示されたバックテストを変更する

DataRobotでは、デフォルトで最初のバックテストが表示されますが、バックテストドロップダウンから別のバックテストやすべてのバックテストに変更することができます。DataRobotでは、プロジェクトを構築する際にすべてのバックテストが実行されますが、時系列の精度チャートで表示する前に、バックテストのモデルを個々に計算し、その検定の予測を計算する必要があります。この操作を行うまで、バックテストはグレー表示され、その内容を表示することができません。別のバックテストのチャートを表示するには、最初に予測を計算します。

すべてのバックテストオプション

DataRobotでは、最初にバックテスト1のデータが計算されて表示されます。計算済みのすべてのバックテストの値を表示するには、バックテストドロップダウンからすべてのバックテストを選択します。ドロップダウンから個々のバックテストを計算するか、リーダーボード上のモデルの実行ボタンをクリックしてすべてのバックテストを一度に計算することができます。

後続のバックテストを計算するとき、大きい日付範囲をサポートするためにチャートが拡大し、それぞれの計算済みバックテストがデータの総範囲のコンテキストで示されます。(すべてのバックテストが選択されていることを確認してください。)

すべてのバックテストを選択すると、すべてのバックテストにわたる検定(およびロックが解除されている場合はホールドアウト)の予測値と実測値だけが表示に含まれます。トレーニングデータの計算を行っていても、このオプションではトレーニングデータは表示されません。

すべてのバックテストを選んだ場合のツールチップの動作は、ひとつのバックテストを選んだ場合と若干異なります。ツールチップは、ビンの内容をレポートする代わりに、個々のバックテストをハイライトします。クリックすると、そのバックテストのチャートがフォーカスされます(ドロップダウンからバックテストを手動で選択した場合と同様です)。

予測距離の変更

時系列プロジェクトおよび複数系列プロジェクトの場合、予測距離(モデル構築を実行する前に選択した将来値の範囲)に基づいて表示を行うことができます。

別の予測距離を設定すると表示が変更されて、その距離の予測が可視化されます。たとえば、「2日前に各ポイントを予測する際、予測データと実際の検定データを表示する」場合などが考えられます。右向きまたは左向きの矢印をクリックして、増分単位(日や週など)ごとに距離を変更します。下向きの矢印をクリックすると、距離を設定するダイアログが開きます。

大きい(ダウンサンプリング済み)データセットまたは広い予測ウィンドウを含むプロジェクトで作業する場合、DataRobotではオンデマンドで時系列の精度が計算され、対象の予測距離を指定できます。チャートでナビゲートした各距離に対して、結果を計算してインサイトを表示するよう求めるメッセージが表示されます。この操作を行うことによって、不要なコンピューティングリソースを使用することなく、モデルを運用環境に確実にデプロイするためにチェックする必要のある距離の数を特定できます。

トレーニングデータの計算

一般的に、DataRobotモデルでは、検定の予測(およびロック解除されている場合はホールドアウト)だけがモデルインサイトとモデルパフォーマンスの評価に使用されます。過去の履歴とトレンドを表示すると有益なことがあるので、日付/時刻パーティショニングの予測値&実測値チャートでは、トレーニング予測を表示に含めることができます。しかし、トレーニングデータでの予測は、将来のデータを予測するモデルの機能を正しく測定するものではありません。

トレーニングデータと検定データを使用した完全な結果を表示するには、トレーニングデータを表示をクリックします。このオプションは、すべてのバックテストバックテストドロップダウン)ではなく、個別のバックテストが選択されている場合にのみ使用できます。視覚的表現では、週単位の変動に加えて全体的なトレンドが捉えられます。時系列データセットの場合、予測では若干のラグが発生する場合がありますが、時系列の精度タブでは、モデルで高い精度で予測がおこなわれていることが示されます。

トレーニングデータのない計算:

トレーニングデータの計算:

カレンダーイベントの識別

プロジェクトを作成するときにカレンダーファイルをアップロードすると、カレンダーにリストされているイベントが発生した場所を示すインジケーターが時系列の精度グラフに表示されます。これらのマーカーは、チャートに表示される実測値と予測値のコンテキストを提供します。マーカーの上にカーソルを置くと、イベントの情報が表示されます。

複数系列プロジェクトの場合、イベントは系列固有であることがあります。イベントを表示するには、プロットする系列を選択して、タイムラインでイベントを見つけます。目的のイベントの上にカーソルを置くと系列IDおよびイベント名を含む情報が表示されます。

ビンデータの識別

時系列の精度タブでは、ビニングを使用してデータのセグメント化とプロットが行われます。日付/時刻のパーティショニングモデルでは、ビンは均等の幅(解像度によって定義された同じ時間範囲)で、異なる数のデータポイントを含むことがあります。ビンの上にマウスを置くと、平均実測値と予測値のサマリー(または「欠損値」)に加えて、行数とタイムスタンプが表示されます。

備考

データの量が小さい場合、それぞれの予測ポイントと実測ポイントが個々にDataRobotのチャートにプロットされます。

ビニングの期間を変更する

デフォルトでは、最も粒度の細かいビニング期間がDataRobotに表示されます。期間は、期間ドロップダウン(時系列および複数系列の追加設定内)から変更できます。期間を長くすると、データをさらに集計して、高レベルの傾向を表示できます。これは、指定期間においてデータが均等に分散していない場合に便利です。例えば、1つの週に多くのデータポイントがあり、次の2週にデータポイントがない場合、1ヶ月の期間で集計するとデータ内のギャップが視覚的に圧縮されます。使用可能な期間オプションは、データの検出された時間ステップによって決定されます。

バックテスト1、日単位:

バックテスト1、週単位:

バックテスト1、月単位:

ただし(データセットに通常のタイムステップがある場合でも)ビンの開始日がデータセットの日付と同じでない場合があります。その理由は時系列の精度ビンが常にデータセットの終了日を含むように調整されているからです。これは、ビンがデータセットの周期性に一致しなくなった場合でも最終的なデータポイントが含まれるように1つの時間単位でシフトすることを意味する場合があります。

たとえば、毎週のデータ(月曜日から日曜日までのデータの集計)に基づくデータセットを考えてみます。月曜日が常に週の始まりです。月曜日のデータの間隔は7日ですが、月曜日が含まれるように時系列の精度ビンは(月曜日から月曜日ではなく)火曜日から火曜日の範囲になることがあります。

日付範囲を変更する

完全な日付範囲を表示するトグルを使用すると、データセット全体の範囲に合わせてチャートのスケールを変更できます。つまり、完全な範囲に再スケールすると、検定およびトレーニングにどれだけのデータが使用されているかがコンテキストによって解釈可能になります。たとえば、2017年1月1日から2017年12月30日までのデータセットをアップロードする場合を考えてみます。10月/ 11月と11月/ 12月のバックテストを作成すると、フルレンジプロットは完全なデータセットに対するバックテストのサイズを示します。

すべてのバックテストを選択すると、チャートにデータセット全体の検定データが表示され、範囲内の各バックテストがマークされます。

表示のフォーカス

チャートの下にある日付範囲スライダーを使用して、時間プロットの特定の範囲をハイライトし、データのサブセットを選択します。表示データのさらに小さい部分(バックテストまたはより長い期間など)を表示する場合、スライダーを目的の部分に移動します(ボックスの端をドラッグしてサイズを変更し、ボックス内をクリックして移動します)。表示の目的の部分がフォーカスされます。フル表示:

フォーカスされた表示:

データの量が多い場合、プレビューには選択されたバックテストの完全な結果が表示され、チャートにはスライダーで選択された範囲内に含まれるデータだけが反映されます。詳細を調査するには、スライダーをドラッグしてデータのサブセットを選択します。スライダーの選択範囲には、デフォルトで最大1000のビンが含まれます。データの結果が1000ビンを超える場合、最近の1000のビンが表示されます。スライダーの端をドラッグして1000より小さい値を指定できますが、選択範囲を大きくした場合、最近の1000のビン(プレビューの右側)がハイライトされ、それに従ってチャートが更新されます。

表示のズーム

枠に合わせてズームボックス(時系列および複数系列の追加設定内)を選択すると、チャートのY軸の値がターゲット値の最小値と最大値に変更されます。このボックスをオフにすると、チャートにはターゲット値の完全な範囲が表示されます。二値分類プロジェクトの場合、ズームはデフォルトで無効化されていて、Y軸の範囲には0~1が表示されます。枠に合わせてズームを有効にすると、現在選択されているバックテスト(および複数系列の場合は系列)の実測値と予測値の両方の範囲内のチャートが表示されます。

たとえば、可能な値が0~150,000であるターゲット(sales)の例を考えてみます。ただし、すべての予測値または実測値、あるいはその両方は約15,000~60,000の間です。枠に合わせてズームが選択されている場合、Y軸には、約15,000から約60,000(既知の最大値)までがプロットされます。

このオプションをオフにするとY軸の範囲は0~150,000になり、すべてのデータポイントは大体150,000~60,000の間でグループ化されます。

予測値の最大値と最小値がターゲットの最大値と最小値と同じ(またはほぼ同じ)場合、このボックスをオンにしても表示は変更されないことがあります。プロットの下にあるプレビュースライダーは常に枠に合わせた状態で表示されます(メインチャートで使用されているスケールに一致しません)。

系列ごとの表示

複数系列プロジェクトを構築する場合、時系列の精度タブでは、選択した1つの系列の値だけをプロットする追加のフィルターを使用できます。系列識別子はデータセットの列で、(プロットする)系列は、その列の値です。

特定の系列要素を選択するか、プロットする系列フィルターを展開してすべての系列にわたる平均をプロットすることができます。

データのエクスポート

エクスポートリンクをクリックして、現在表示しているチャートの背後のデータをダウンロードします。選択したバックテスト、予測距離、および系列(該当する場合)、そして平均値または絶対値の残差のCSVデータをコピーまたはダウンロードするためのダイアログボックスがDataRobotに表示されます。

残差チャートの解釈

残差チャートは、実測値と予測値の差分をプロットするので、データ内にモデルで考慮されておらず説明されないトレンドがあるかどうか、および時間の経過に伴うモデルの誤差の変化を可視化するために役立ちます。予測値&実測値タブで使用できるものと同じコントロールを使用することによって、表示を変更してデータの特定の領域を調査することができます。

チャートには残差チャートの評価の数値的方法であるダービン=ワトソン統計も表示されます。検定データに対して計算されたダービン=ワトソンは、統計的回帰分析から残差内の自己相関を検出するために使用されるテスト統計です。統計の値は常に0~4で、2がサンプルに自己相関がないことを示します。

デフォルトでは、このチャートは、プライマリー日付/時刻特徴量(X軸)に対して平均残差(Y軸)をプロットします:

絶対値残差ボックスを選択すると、残差が絶対値として表示されます:

残差チャートを評価する際には、以下の点に注意してください。

  • 残差がpositiveの場合(および絶対値残差が選択されていない場合)、実測値が予測値よりも大きいことを意味します。
  • 予期しない変化が見られる場合は、トレンドをよりよく説明できる特徴量をモデルに追加することを検討してください。
  • 容易に説明できるトレンド(”常に祝休日の販売予測が低く、サマーセールの販売予測が高すぎる”など)を探します。
  • トレンドを説明するのに役立つ、 事前に既知の特徴量を追加することを検討してください。

更新しました May 9, 2022
Back to top