Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

期間精度

本機能の提供について

期間精度は、OTVプロジェクトと単一系列および複数系列の時系列プロジェクトの両方で利用できます。

いくつかのユースケースでは、特定の期間は、他の期間よりも有意である場合があります。 これは特に金融市場に当てはまります。たとえば、トレーダーは、各取引日の最初の4時間でのモデルのパフォーマンスのみに関心がある場合などです。 期間精度では、トレーニングデータセット内でより有用性の高い期間を指定できます。これにより、DataRobotは、その期間の精度指標を集計して、結果をリーダーボードに表示することができます。

選択した最適化(精度)指標を使用して、期間精度インサイトにより、これらの指定期間をモデル全体の指標スコアと比較することができます。 上記の例では、モデルの検定期間のRSMEを見ても、トレーダーにとって最も大切なときに、そのモデルのパフォーマンスに関する多くのインサイトは得られません。

インサイトを使用するには:

  1. AIカタログまたはローカルマシンから期間定義ファイルを選択します。 ファイルの要件を表示をクリックすると、形式のガイダンスが表示されます。

  2. 期間パフォーマンスを計算するためのフィルターを設定します。

期間定義ファイルの作成

期間精度を使用する最初のステップは、期間ファイルの作成です。 カレンダーファイルと同様に、期間ファイルは期間の名前、開始日 / 時刻(および、それによって期間も)を示します。 範囲をサポートするカレンダーファイルとは異なり、期間ファイルは以下を含む2列のCSVです。

  1. 列1:日付 / 時刻列です。

    これはプロジェクトの構築に使用される特徴量です。ラベルは特徴量の名前と完全に一致する必要があります。 日付 / 時刻特徴量列に入力するデータは、インサイトで視覚化するすべての時間ステップを表す必要があります。 たとえば、プロジェクトに2022年1月30日から2023年2月8日までの日次データがあり、そのすべてのデータを視覚化する場合、最初の列にはその範囲の日付ごとに1つで、374のエントリーが含まれることになります。

  2. 列2:期間列。

    期間列は、インサイト内のデータをグループ化して、定義されたデータのサブセット内でモデルの精度に関するより多くの情報を提供してくれるようにするための方法(これは、インサイトで何を視覚化すべきかのコアを表す)を示すものであり、そのため、データをどのように理解したいかに基づいて定義されるものです。 上記の例では、以下の操作を行うことができます。

    • 該当するすべての日付について列2に文字列Januaryを入力して、1月のすべての日付を1月のバケットのメンバーとしてマークします。 次に、2月のすべての日付をFebruaryなどとしてマークします。

    • 毎週の日曜日を文字列Sundayでラベル付けし、毎週の月曜日を文字列Mondayでラベル付けするなどによって、曜日ごとにグループ化します。

    • 月曜日から金曜日に対応する日付を文字列weekdayとして表し、土曜日と日曜日に対応する日付をweekendとして表します。

期間ファイルが作成されたら、ローカルに保存するか、AIカタログにアップロードします。

期間ファイルの時間ステップ

日付特徴量内の特定の期間を定義するかどうかは、データの粒度に依存します(たとえば、時間ごとの予測を表示するには時間ごとのデータが必要)。 データの粒度が一致する結果を表示するには、期間ファイルに複数の行を追加して、対象の時間を一致させます。 例:

日付 / 時刻特徴量はdateであり、毎日の時間ごとのデータがあります。 毎週平日の午前11時~午後1時の間の売上に関心を持っています。 期間ファイルは次のように表示されます。

期間精度を生成

期間精度は、プロジェクト内の各モデルに対して計算する必要があります。 ただし、期間ファイルがプロジェクト内の1つのモデルにアップロードされると、すべてのモデルで使用可能になります。 複数の期間ファイルをプロジェクトにアップロードできます。これは、さまざまな方法(たとえば、毎日、平日と週末など)でデータを調べるのに役立つ場合があります。

インサイトを表示するには、モデルの期間精度タブを開き、ドロップダウンを使用して期間パフォーマンスを計算するためのフィルターを設定します。 プロジェクトに適用されるフィルターのみが表示されます。

フィルター 説明
期間定義ファイル 期間ファイルを選択します。 そこから、以下の操作も行うことができます。
  • 新しい期間ファイルを、直接またはAIカタログからアップロードします。
  • インサイトからアップロードされたファイルを削除します。 この操作を行っても、AIカタログからファイルが削除されることはありません。
バックテスト 結果を表示するバックテストを選択します。 DataRobotでは、プロジェクトの構築時にすべてのバックテストが実行されますが、バックテストの期間インサイトを表示する前に、バックテストのモデルを個別にトレーニングし、その検定の予測を計算する必要があります。 まだ計算されていないバックテストを選択すると、計算を実行するように求めるプロンプトが表示されます。
系列(複数系列のみ プロジェクトが複数系列の場合、プロットする系列を選択します。
予測距離(時系列および複数系列のみ 視覚化の基準となる時間ウィンドウを設定します。 詳細については、 時系列の精度を参照してください。

期間精度を計算をクリックして計算を開始します。 計算が完了したら、任意のフィルターの変更(系列以外、該当する場合)には、計算を再実行する必要があります。

期間精度を解釈

計算が完了すると、検定データに基づいた結果が表で示されます。 時間経過に伴うヒストグラムを生成することもできます。

フィールド 説明
期間名 期間ファイル内の列2で識別される期間の名前。
観測値 定義された期間に含まれるデータポイントの数。 期間は、適用された期間ファイルとフィルター(必要に応じて、バックテスト、系列、および予測距離)に基づきます。
最も早い / 遅い日付 期間で見つかった最初と最後のタイムスタンプ。
予測値/実測値 選択したバックテストで観測された平均予測値と実測値。
指標 * 期間の観測値のパフォーマンス。 つまり、検定データにこの期間だけを含むプロジェクトを作成する場合、表示される値はリーダーボードに表示されることになる値です。 スコアの下の赤 / 緑の値は、リーダーボードスコアからの分散の割合を示します。 スコア(赤 / 緑、上 / 下)の「好み」は、指標タイプに依存することに注意してください。
視覚化 選択した期間の時間経過のチャートを表示するリンク。 クリックして下にスクロールすると、ヒストグラムが表示されます。

\* リーダーボードのドロップダウンを使用して、レポートされた指標を変更できます。

視覚化をクリックすると、選択した期間の各観測値のポイントがヒストグラムに表示され、実測値と予測値が視覚化されます。 これは、対象期間の各行でのモデルのパフォーマンスを理解するのに役立ちます。 ビンにカーソルを合わせると、メンバーポイントの特定の値が表示されます。

注意事項

期間精度を使用する場合は、次の点に注意してください。

  • 最初の1000系列だけが計算されます。
  • 期間定義ファイルの最大サイズは5MBです。 無制限のファイル数を使用できます。
  • インサイトのエクスポートはサポートされていません。

更新しました September 7, 2024