セグメントモデリングに関してよくある質問¶
セグメントと系列の例
アボカドを販売しているとします。 ターゲットは「avocado_sales」で、系列IDは「アボカドを販売している店舗」です。セグメントIDは「国内の地域」です。セグメントは系列のグループと考えてください。 北西部のセグメントを見てみましょう。 アラスカの店舗でのアボカドの売上は、カリフォルニアの店舗の売上とは似ていません。セグメントIDに基づくセグメント割り当てとモデル構築は、ビジネスルールのクラスターを構築するようなものです。 店舗別のアボカドの売上を予測するのではなく、北西部のアボカドの売上を予測することになります。 視覚的概要も参照してください。
DataRobotは系列ごとのモデルを構築しますか?
DataRobotはセグメントごとに複数のモデルを構築します。各セグメントには、独自のリーダーボードがあります。 次に、DataRobotは、各セグメントのリーダーボードからチャンピオンモデルを選択して準備します。
DataRobotはセグメントチャンピオンを選びますか?
DataRobotは、セグメントリーダーボードから1つのモデルを推奨し、デプロイの準備をして、セグメントチャンピオンとしてマークします。 そのモデルは、結合モデルのセグメントを表します。 ただし、チャンピオンをセグメントのリーダーボード上の任意のモデルにリセットすることはできます。
データセットのファイルサイズの制約は何ですか?
通常の時系列データセットファイルサイズの制約が適用されます。 セグメント化されたモデリングは最大100のセグメントをサポートしますが、それらのセグメントサイズはトレーニングセットの合計サイズ制限を超えることはできません。 ただし、各セグメントは事実上独自のオートパイロットであるため、作成するセグメントの数を監視することが重要です。 つまり、オートパイロットのインスタンスを100個実行する準備ができていない場合は、100個のセグメントでセグメント化されたモデリングプロジェクトを開始しないでください。
セグメント化されたプロジェクトでは、同じ特徴量エンジニアリングを使用していますか?
内部で行われる時系列特徴量エンジニアリングプロセスは、セグメント化されたプロジェクトごとに、そのセグメントで役立つと思われるものに基づいて、異なる特徴量を作成します。 セグメント間で特徴量が重複することもありますが、セグメントごとに生成される特徴量のリストは異なります。
予測ウィンドウと特徴量派生ウィンドウはどこで設定しますか?
フローはシリーズIDの設定と同じですが、セグメントIDを設定してからウィンドウを構成します。 また、必要に応じて戻って、セグメントIDを編集することもできます。
系列IDとセグメントIDに同じ列を使用できますか?
いいえ、異なる列を使用する必要があります。 セグメントごとに1つの系列(単一系列のセグメント化されたプロジェクト)が必要な場合は、系列ID列を複製して、新しい名前を付けます。 セグメントIDをその列名に設定します。 DataRobotは系列IDを使用してセグメントを生成します。
新しい列を作成したくない場合は、多くの場合、元のデータ内で作業して外挿することができます。 たとえば、以前に系列IDとしてcustomer_unique_id
を設定して、さまざまな製品IDの売上を予測した場合、セグメントIDとしてcustomer_unique_id
を使用し、系列IDとしてproduct_id
を使用してみてください。
セグメントの作成について、どのような考え方がありますか?
以下は、お気に入りのセグメントです:
- 顧客サイズ
- 販売速度別にグループ化されたSKU
- 地域
- エリア、温度別
- サイズ別系列(小、中、大)
- ターゲット分布
セグメント化されたモデリングではどのようなパーティション分割が使用されますか?
セグメント化されたモデリングでは、データのサイズに基づいて自動パーティション化を使用し、プロジェクトごとに異なるパーティション分割を実行します。 これにより、バックテストが長すぎたり、データがないほど短かったりすることがないようにします。
セグメント化されたモデルはデプロイとしてどのように扱われますか?
セグメント化されたモデリングで作成された結合モデルは、1つのデプロイとして扱われます。
指標スコアはどのように計算されますか?
DataRobotは、各セグメントで独立してオートパイロット(フルまたはクイック)を実行し、精度を高めます。 すべての子プロジェクトのモデリングが完了すると、指標が統合モデルで使用可能になり、リーダーボードに表示されます。 各チャンピオンモデルの指標は、それらの指標の加重和として集計されます。 チャンピオンモデルを変更すると、スコアが再計算されます。 使用可能な指標は、MAD、MAE、MAPE、MASE、RMSE、RMSLE、SMAPE、Theil's Uです。