分位点回帰分析¶
本機能の提供について
分位点回帰分析はデフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:分位指標を有効化
一部のプロジェクトでは、ターゲット特徴量の傾向(平均値または中央値など)の予測は最大の関心事ではありません。 いくつかのプロジェクトでは、損失が特定の金額を超えないことを95%確信したい保険会社など、条件値(分位点数)の予測に関心が集まります。
指標と分位点レベルを設定するには:
-
連続値プロジェクトを開始します。 EDA1が完了したら、高度なオプションを表示をクリックし、その他を選択します。
-
[最適化指標]ドロップダウンから、分位点損失(または加重分位点損失)指標を選択します。
-
分位点レベルの値を0.01から0.99の範囲で設定します(許容値は10分の1または100分の1のみである必要があります)。
-
モデリングモードを選択し、開始をクリックします。 オートパイロットまたはリポジトリから利用できる分位点数ごとのモデルを以下に示します。
- 分位点回帰
- Statsmodelによる分位点回帰
- Keras
- Gradient Boosted Trees
DataRobotは、意味のある値を提供するのに十分なデータがないと判断した場合にメッセージを返します。 その場合は、データを追加するか、変位値レベルを下げることを検討してください。 利用可能なデータは限られていても、DataRobotのトレーニングを継続できる場合は、 データ品質評価に四分位点ターゲットのスパース性レポートが表示されます。 データが少なすぎると、信頼性の低い結果になる可能性があります。
-
構築が完了すると、 高度なチューニングでモデルの構築に使用された値の分位点数パラメーター
quantile
が表示されます。 さまざまな値を試すには、quantile
パラメーターを設定して、チューニングを開始を選択します。 この方法で調整した分位点は、このモデルにのみ適用されます。プロジェクト全体に設定された最適化レベルには影響しません。
備考
分位点損失を使用する場合、一部のインサイトが異常に見えることや、インサイトを別の方法で解釈する必要があります。 たとえば、リフトチャートと残差は、標準の回帰プロジェクトの場合と同じように解釈すべきではありません。
分位点回帰指標¶
以下に、分位点損失の指標について説明します。
表示 | 完全な名前 | 説明 | プロジェクトタイプ |
---|---|---|---|
分位損失 | 分位損失 | 「ピンボールロス」とも呼ばれる分位点損失は、選択した分位点数のレベルに応じて、過大評価と過小評価に非対称的にペナルティを課します。 | 連続値(時系列外) |
「ピンボールロス」とも呼ばれる分位点損失は、分位点数最適化回帰モデルのパフォーマンスを比較するために使用できる指標です。 たとえば、y
を真の結果、ŷ
を予測として、単一の観測値の分位点損失関数は次のように定義されます。
ここで q
は、0.01~0.99のユーザー指定の値で、損失関数が最適化される分位点レベルを示します。 分位点損失の指標を選択すると、プロジェクトの損失を評価する分位点レベル(q
)を選択するスライダーが使用可能になります。
この意味を以下に示します。
q=0.5
の場合、分位点損失は、中央値に最適化された平均絶対誤差と同じです。q > 0.5
の場合、アルゴリズムは事実上、過小評価よりも過大評価を優先しています。アンダーシュートする予測では、損失はより急になります。q < 0.5
の場合、その逆が当てはまります。アルゴリズムは、欠損が低い推定値と比較して、欠損が高い推定値にペナルティを課します。