保険設定¶

以下のセクションでは、高度なエクスペリメント設定で利用可能な重み付け機能について説明します。これらの設定は、通常、保険業界で使用されます。

オフセット、エクスポージャー、イベント数の各パラメーターを使用して構築されたエクスペリメントでは、それらを使用しないプロジェクトと同じDataRobotインサイトが生成されます。ただし、オフセット列、エクスポージャー列、およびイベント数列は予測セットから除外されます。つまり、選択した列は、係数、個々の予測の説明、特徴量のインパクトの可視化には含まれず、エクスペリメント全体を通して特殊な列として扱われます。エクスポージャー、オフセット、イベント数の各列は、これらの可視化においては特徴量として表示されませんが、その値はトレーニングで使用されています。

エクスポージャー¶

連続値問題では、期間が等しくない観測値を処理するために、エクスポージャーを使用して特徴量に重みを付けることができます。保険のユースケースでは、保険期間の指標を導入するためによく使用されます。たとえば、各行が保険年度を表すユースケースでは、半年間有効だった保険契約は、エクスポージャーパラメーターが0.5になります。DataRobotは、エクスポージャーのために選択された特徴量を特別な列として扱い、モデルを構築またはスコアリングする際に元の予測値に追加します。選択した列は、予測のために後でアップロードされるすべてのデータセットに存在する必要があります。

モデリングでエクスポージャー値を使用できるのは、対数リンク関数（Poisson、Gamma、またはTweedie Deviance）を含む最適化指標だけです。これらの最適化指標においては、エクスポージャーとして指定したフィールドの値がログ変換されます（ユーザーが行う必要はありません）。それ以外の最適化指標を選択した場合、DataRobotは情報提供のメッセージを返します。トレーニングおよび予測適用の詳細については、以下を参照してください。

イベント数¶

イベント数パラメーターは、ゼロ以外のイベントの頻度に関する情報を追加することで、ゼロ過剰ターゲットのモデリングを改善します。これは、頻度x強度（2段階）モデルで特殊な列として扱われます。頻度ステージでは、この列を使用して、ゼロ以外のイベントの頻度をモデル化します。強度ステージでは、列内のゼロ以外のイベントの強度を正規化し、その値をターゲットとして使用します。これにより、頻度係数と強度係数の解釈可能性が向上します。この列は、新しいデータで予測を行う目的では使用されません。

イベント数パラメーターは、2段階モデル、つまり頻度-強度および頻度-コストのブループリントで使用されます。それぞれの段階については、以下で説明します。

頻度-強度モデル

イベント数をターゲットとして使用し、イベントの頻度をモデル化します。
ゼロ以外のイベントの強度をモデル化します。ここで、ターゲットは正規化されたターゲット列（ターゲット÷イベント数）であり、イベント数列が重みとして使用されます。

頻度-コスト

イベント数をターゲットとして使用し、イベントの頻度をモデル化します。
ステージ1での元のターゲットと予測をオフセットとして使用して、イベントの強度をモデル化します。

これらの2段階モデルの最初の段階である頻度は、常にポアソン回帰モデルです。カウント特徴量を指定すると、その値がステージ1のターゲットになります。指定しない場合、0/1のターゲットが作成されます。

オフセット¶

連続値問題や二値分類問題のモデリングにおいて、オフセットパラメーターは、固定コンポーネント（一般化線形モデルや勾配ブースティングモデルでは係数1）として扱う必要がある特徴量を設定します。オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。 DataRobotでは、オフセットで選択された特徴量は特殊な列として扱われ、モデルの構築やスコアリングの際に元の予測に追加されます。選択した列は、予測のために後でアップロードするすべてのデータセットに存在する必要があります。

連続値問題では、最適化指標がPoisson、Gamma、またはTweedie Devianceの場合、DataRobotは対数リンク関数を使用します。この場合、オフセットは事前に対数変換しておく必要があります。それ以外の場合、DataRobotはアイデンティティリンク関数を使用し、オフセットには変換は必要ありません。
二値分類問題では、DataRobotはロジットリンク関数を使用します。この場合、オフセットは事前にロジット変換しておく必要があります。

トレーニングおよび予測適用の詳細については、以下を参照してください。

オフセットの説明

固定要素と可変要素の両方あるデータに依存するプロジェクトで作業する場合、オフセットを適用すると便利です。オフセットを使用すると、モデルを可変要素のみで予測するように制限できます。これは、特に固定要素が変動する場合に重要です。オフセットパラメーターを設定すると、DataRobotでは特徴量がそのようにマークされ、固定値を考慮に入れずに予測が行われます。

2つの例を示します。

残差モデリングは、重要なリスク要因（たとえば、保険の引受サイクル、年、年齢、損失期間など）が結果に強く寄与することで、他のすべての影響を覆い隠してしまい、結果に大きな偏りが生じる可能性がある場合によく用いられる手法です。オフセットを設定すると、データのバイアスの問題に対処できます。特徴量セットをオフセットとして使用することは、選択した特徴量セットの残差に対してモデルを実行することと同等です。残差についてモデリングすることで、すでに知っていることではなく、新しい情報を伝えることに重点を置くようにモデルを設定できます。オフセットを使用すると、最終予測に主要なリスク要因を取り入れたまま、モデル構築の際に「その他」の要因に注目します。
市場競争や規制が原因で、保険契約に制約が課されることがあります。たとえば、自動車保険では、複数台割引やマイカー割引の上限が20％になったり、若年層のドライバーやビジネス上不利な地域を対象として保険料率が低く抑えられたりします。このような場合、特徴量の一部を特定の値に設定し、オフセットとしてモデルの予測に追加することができます。

モデリングにおけるオフセットとエクスポージャー¶

トレーニングの際、オフセットとエクスポージャーは以下のロジックでモデリングに組み込まれます。

プロジェクト指標	モデリングロジック
RMSE	`Y-offset ~ X`
Poisson/Tweedie/Gamma/RMSLE	`ln(Y/Exposure) - offset ~ X`

予測を行う際には、以下のロジックが適用されます。

プロジェクト指標	予測計算ロジック
RMSE	`model(X) + offset`
Poisson/Tweedie/Gamma/RMSLE	`exp(model(X) + offset) * exposure`