GA2M出力(格付表より)¶
以下のセクションでは、一般化加法モデル(GA2M)モデルの出力について説明します。 この出力は、格付表タブからのダウンロードとして取得できます。
モデル出力の読み取り¶
出力を検証する際は、以下の点に注意してください。
-
GA2Mモデルによって検出される2次交互作用(インタラクション)には、以下の特徴があります。
-
2つの特徴量間に交互作用(インタラクション)がある場合、
(Var1 & Var2)
というラベルの追加の表見出しがあります。 -
表で対相互作用の前処理と係数を示す行には、
2W-INT
のタイプがあります。
-
-
Feature Strength は、各特徴量と対相互作用の強度を示します。 交互作用(インタラクション)の強度はごくわずかであり、主効果の強度は含まれません。 Feature Strengthは、係数の中央値の絶対値の加重平均に等しくなります。
-
Transform1とValue1は、対の最初の特徴量の前処理を示します。Transform2とValue2 は、対の2番目の特徴量の前処理を示します。 係数は、2つの特徴量の前処理から派生した2つの値の積に適用されます。
-
加重は、表の各行の観測値の合計です。 プロジェクトで加重特徴量を使用する場合、Weight列は加重の合計です。 これは、数値的特徴量の各ビン、カテゴリー特徴量の各レベル、または2次交互作用(インタラクション)の各セルに対応するトレーニングデータ観測値の(加重処理された)数を定量化するために使用できます。
下記は、一般化加法モデル出力からのサンプル抜粋です。
サンプルテーブルでは、Intercept、Base、Loss distribution、およびLink関数パラメーターは、特定の特徴量ではなく一般的なモデルを示します。 表内の各行は、1つの特徴量と、DataRobotがそれに対して適用する変換を記述します。 予測を計算するには、Coefficient
列またはRelativity
列のいずれかを使用します。 予測の精度をDataRobotの予測と同じにする場合は、Coefficient
列を使用します。
たとえば、CRIM値が0.9に等しく、LSTATが8に等しい場合を考えてみます。
Coefficient(係数)列を使用すると、サンプルは以下のようになります。
目的 | 係数値 | 行から... |
---|---|---|
切片 | 3.080070 | 1 |
CRIM=0.9の係数 | -0.005546 | 12(ビンには0.60079503からinfのCRIM値が含まれます) |
LSTAT=8の係数 | 0.257544 | 14(ビンには-infから9.72500038のLSTAT値が含まれます) |
CRIM=0.9およびLSTAT=8の係数を取得 | 0.122927 | 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン) |
予測 = exp(3.08006971649 -0.00554623809222501 + 0.257543518013598 + 0.122926708231993) = 31.658089382684512
Relativity(関連性)列を使用すると、サンプルは以下のようになります。
目的 | 相対値 | 行から... |
---|---|---|
基数 | 21.7599 | 2 |
CRIM=0.9に相対的 | -0.9945 | 12(ビンには0.60079503からinfのCRIM値が含まれます) |
LSTAT=8の係数 | 1.2937 | 14(ビンには-infから9.72500038のLSTAT値が含まれます) |
CRIM=0.9およびLSTAT=8の係数を取得 | 1.1308 | 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン) |
予測 = 21.7599193685 * 0.994469113891232 * 1.29374811110316 * 1.13080153946617 = 31.65808938265751
メインモデルで2ステージモデリングプロセス(頻度-強度の一般化加法モデルなど)を使用する場合、2つの追加の列—Frequency_Coefficient
とSeverity_Coefficient
—に各ステージの係数が示されます。
GA2M内の二項間の交互作用の指定¶
GA2Mの出力に含める二項間の交互作用を指定できます(格付表タブ)。必ずしも各交互作用を含めたり、すべての交互作用を除外したりする必要はありません。 規制制限によって交互作用が許可されない特定の特徴量がある場合にGA2Mモデルのトレーニング中に許可する交互作用を指定できます。
備考
指定したペア単位の交互作用は必ずしもモデルの出力に表示されるとは限りません。 アルゴリズムに従ってモデルに信号を追加する交互作用だけが出力に表示されます。 たとえば、特徴量の交互作用グループA、B、およびCを指定した場合、モデルトレーニング中にAxB、BxC、およびAxCが交互作用とみなされます。 AxBだけが信号をモデルに追加する場合AxBだけがモデルの出力に含まれます(BxCおよびAxCは除外されます)。
モデルで許容される二項間の相互作用を指定する高度なオプションの特徴量制約を使用します。
GA2Mの変換の定義¶
次のセクションでは、DataRobotがGAMから予測を再現するために使用するルーチンについて説明します。
One-hot encoding¶
名前:ワンホット
値:文字列、またはMissing value
、またはOther categories
値の例:「MA」
値の例:欠損値
カテゴリー特徴量のワンホット(すなわちダミー変数)変換。
-
value
が文字列の場合、元の特徴量がvalue
に等しければ、派生した特徴量には1.0が含まれます。 -
元の特徴量の値が欠如している場合、「欠損値」での"ビニング"変換は1.0に等しくなります。
-
value
が「その他の分類」の場合、元の特徴量が上記のいずれにも該当しなければ、派生した特徴量には1.0が含まれます。
ダミーエンコーディング¶
名前:ダミー 値:文字列 値の例:「MA」
元の特徴量がvalue
に等しい場合、派生した特徴量には1.0が含まれます。
1-ダミーエンコーディング¶
名前:1-ダミー 値:文字列 値の例:'NOT MA'
元の特徴量がvalue
と異なる場合(4文字の'NOT'を除く)、派生した特徴量には1.0が含まれます。
ビニング¶
名前:ビニング
値:(a、b]、またはMissing value
値の例:(-inf、12.5]
値の例:(12.5、25]
値の例:(25、inf)
値の例:欠損値
数値特徴量を非均一ビンに変換します。
各ビンの境界線は、value
内で指定された2つの数字により定義されます。 派生した特徴量は、元の値x
が指定間隔内にある場合、1.0に等しくなります:
a < x <= b
元の特徴量のvalue
が欠如している場合、「欠損値」での「ビニング」変換は1.0に等しくなります。