セグメントモデリングのよくある質問¶
セグメントと系列の例
アボカドを販売することを想像してください。 ターゲット「avocodo_sales」で、系IDは「アボカドを販売するストア」です。セグメントIDは、「国の地域」です。セグメントは系列のグループとして考えましょう。 北西 のセグメントをみてください。 アラスカの店舗でのアボカドの売り上げはカリフォルニアの店舗の売り上げとは似ていないため、セグメントIDを割り当てて構築することは、ビジネスルールクラスターを構築することに似ています。 アボカドの販売を予測する代わりに、 北西 領域のアボカドを予測しています。 視覚のクイックスタートも参照してください。
DataRobotは系列ごとのモデルを構築しますか?
DataRobotはセグメントごとに複数のモデルを構築します。各セグメントには、独自のリーダーボードがあります。 次に、DataRobotは、各セグメントのリーダーボードからチャンピオンモデルを選択して準備します。
DataRobotはセグメントチャンピオンを選びますか?
DataRobotは、セグメントリーダーボードから1つのモデルを推奨し、デプロイの準備をして、セグメントチャンピオンとしてマークします。 そのモデルは、結合モデルのセグメントを表します。 ただし、チャンピオンをセグメントのリーダーボード上の任意のモデルにリセットすることはできます。
データセットのファイルサイズの制約は何ですか?
通常の時系列データセットファイルサイズの制約が適用されます。 セグメント化されたモデリングは最大100のセグメントをサポートしますが、それらのセグメントサイズはトレーニングセットの合計サイズ制限を超えることはできません。 ただし、各セグメントは事実上独自のオートパイロットであるため、作成するセグメントの数を監視することが重要です。 つまり、オートパイロットのインスタンスを100個実行する準備ができていない場合は、100個のセグメントでセグメント化されたモデリングプロジェクトを開始しないでください。
セグメント化されたプロジェクトは同じ特徴エンジニアリングを使用していますか?
内部時系列特徴エンジニアリングプロセスは、セグメント化されたプロジェクトごとに、そのセグメントで役立つと思われるものに基づいて、異なる特徴量を作成します。 セグメント間で重複が発生する可能性がありますが、セグメントごとに生成される特徴量の完全なリストは異なります。
予測ウィンドウと特徴導出ウィンドウはどこで設定しますか?
フローはシリーズIDの設定と同じですが、ウィンドウを構成する前にセグメントIDを設定する点が異なります。 必要に応じて、戻ってセグメントIDを編集することもできます。
系列IDとセグメントIDに同じ列を使用できますか?
いいえ、異なる列を使用する必要があります。 セグメントごとに1つの系列(単一系列のセグメント化されたプロジェクト)が必要な場合は、系列ID列を複製して、新しい名前を付けます。 セグメントIDをその列名に設定します。 DataRobotは系列IDを使用してセグメントを生成します。
新しい列を作成したくない場合は、多くの場合、元のデータ内で作業して外挿することができます。 たとえば、以前に系列IDとしてcustomer_unique_id
を設定して、さまざまな製品IDの売上を予測した場合、セグメントIDとしてcustomer_unique_id
を使用し、系列IDとしてproduct_id
を使用してみてください。
セグメントの作成について、どのような考え方がありますか?
以下は、お気に入りのセグメントです:
- 顧客サイズ
- 販売速度別にグループ化されたSKU
- 地域
- エリア、温度別
- サイズ別系列(小、中、大)
- ターゲット分布
セグメント化されたモデリングではどのようなパーティション分割が使用されますか?
セグメント化されたモデリングでは、データのサイズに基づいて自動パーティション化を使用し、プロジェクトごとに異なるパーティション分割を実行します。 これにより、バックテストが長すぎたり、データがないほど短かったりすることがないようにします。
セグメント化されたモデルはデプロイとしてどのように扱われますか?
セグメント化されたモデリングで作成された結合モデルは、1つのデプロイとして扱われます。
指標スコアはどのように計算されますか?
DataRobotは、各セグメントで独立してオートパイロット(フルまたはクイック)を実行し、精度を高めます。 すべての子プロジェクトのモデリングが完了すると、指標が統合モデルで使用可能になり、リーダーボードに表示されます。 各チャンピオンモデルの指標は、それらの指標の加重和として集計されます。 チャンピオンモデルを変更すると、スコアが再計算されます。 使用可能な指標は、MAD、MAE、MAPE、MASE、RMSE、RMSLE、SMAPE、Theil's Uです。