GA2M出力(格付表より)¶
以下のセクションでは、一般化加法(GA2M)モデルの出力について説明します。この出力は、格付表タブからのダウンロードとして取得できます。
モデル出力の読み取り¶
出力を検証する際は、以下の点に注意してください。
-
GA2Mモデルによって検出される対相互作用には、以下の特徴があります。
-
2つの特徴量間に交互作用(インタラクション)がある場合、
(Var1 & Var2)
というラベルの追加の表見出しがあります。 -
表で対相互作用の前処理と係数を示す行には、
2W-INT
のタイプがあります。
-
-
Feature Strength は、各特徴量と対相互作用の強度を示します。交互作用(インタラクション)の強度はごくわずかであり、主効果の強度は含まれません。Feature Strengthは、係数の中央値の絶対値の加重平均に等しくなります。
-
Transform1とValue1は、対の最初の特徴量の前処理を示します。Transform2とValue2 は、対の2番目の特徴量の前処理を示します。係数は、2つの特徴量の前処理から派生した2つの値の積に適用されます。
-
Weightは、表の各行の観測値の合計です。プロジェクトで加重特徴量を使用する場合、Weight列は加重の合計です。これは、数値的特徴量の各ビン、カテゴリー特徴量の各レベル、または2次交互作用(インタラクション)の各セルに対応するトレーニングデータ観測値の(加重処理された)数を定量化するために使用できます。
下記は、一般化加法モデル出力からのサンプル抜粋です。
サンプルテーブルでは、Intercept、Base、Loss distribution、およびLink関数パラメーターは、特定の特徴量ではなく一般的なモデルを示します。表内の各行は、1つの特徴量と、DataRobotがそれに対して適用する変換を記述します。予測を計算するには、Coefficient
列またはRelativity
列のいずれかを使用します。予測の精度をDataRobotの予測と同じにする場合は、Coefficient
列を使用します。
例えば、CRIM値が0.9に等しく、LSTATが8に等しい場合を考えてみます。
Coefficient(係数)列を使用すると、サンプルは以下のようになります。
目的... | 係数値 | 読み取り元の行 |
---|---|---|
切片 | 3.080070 | 1 |
CRIM=0.9の係数 | -0.005546 | 12(ビンには0.60079503からinfのCRIM値が含まれます) |
LSTAT=8の係数 | 0.257544 | 14(ビンには-infから9.72500038のLSTAT値が含まれます) |
CRIM=0.9およびLSTAT=8の係数を取得 | 0.122927 | 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン) |
予測 = exp(3.08006971649 -0.00554623809222501 + 0.257543518013598 + 0.122926708231993) = 31.658089382684512
Relativity(関連性)列を使用すると、サンプルは以下のようになります。
目的... | 関連性値 | 読み取り元の行 |
---|---|---|
基数 | 21.7599 | 2 |
CRIM=0.9に相対的 | -0.9945 | 12(ビンには0.60079503からinfのCRIM値が含まれます) |
LSTAT=8の係数 | 1.2937 | 14(ビンには-infから9.72500038のLSTAT値が含まれます) |
CRIM=0.9およびLSTAT=8の係数を取得 | 1.1308 | 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン) |
予測 = 21.7599193685 * 0.994469113891232 * 1.29374811110316 * 1.13080153946617 = 31.65808938265751
メインモデルで2ステージモデリングプロセス(頻度-強度の一般化加法モデルなど)を使用する場合、2つの追加の列(Frequency_Coefficient
とSeverity_Coefficient
)に各ステージの係数が示されます。
GA2M内の二項間の交互作用の指定¶
一般化加法モデルの出力に含めるペア単位の交互作用を指定できます(格付表タブ)。必ずしもすべての交互作用を含めたり、すべての交互作用を除外したりする必要はありません。規制制限によって交互作用が許可されない特定の特徴量がある場合にGA2Mモデルのトレーニング中に許可する交互作用を指定できます。
備考
指定したペア単位の交互作用は必ずしもモデルの出力に表示されるとは限りません。アルゴリズムに従ってモデルに信号を追加する交互作用だけが出力に表示されます。たとえば、特徴量A、B、およびCの交互作用グループを指定した場合、モデルトレーニング中にAxB、BxC、およびAxCが交互作用とみなされます。AxBの信号だけをモデルに追加する場合、AxBだけがモデルの出力に含まれます(BxCおよびAxCは除外されます)。
モデルに対して許される二項間の交互作用を指定するには、開始画面上の高度なオプションに移動します。特徴量制約タブで、検討する交互作用を設定できます。
含めるペア単位の交互作用を指定するCSVファイルを指定する必要があります。CSVファイルの形式の詳細については、ファイル要件リンク(1)をクリックします。具体的には、この目的で使用するCSVの形式の制限に関する説明が表示されます。これには、許容された2つのペア単位の交互作用グループを指定する場合のCSVを構造化する方法を示すテーブルの例も含まれます。
形式および制限に関する要件をCSVに適用し、参照(2)をクリックしてCSVをアップロードします(またはドラッグアンドドロップします)。CSVの検証が開始され、ファイル要件を満たしているか確認されます。形式エラーがある場合はメッセージが表示されます。
適切な形式でCSVが正常にアップロードされたら、GA2Mモデルのトレーニングを開始できます。モデルを構築する際は出力を格付表タブで確認します。出力には、指定したペア単位の交互作用だけが表示されます。
GA2Mの変換の定義¶
次のセクションでは、DataRobotがGAMから予測を再現するために使用するルーチンについて説明します。
ワンホットエンコーディング¶
名前: ワンホット値:文字列または Missing value
またはOther categories
値の例: 'MA'
値の例: 欠損値
カテゴリー特徴量のワンホット(すなわちダミー変数)変換。
-
value
が文字列の場合、元の特徴量がvalue
に等しければ、派生した特徴量には1.0が含まれます。 -
元の特徴量の値が欠如している場合、"欠損値"での"ビニング"変換は1.0に等しくなります。
-
value
が「その他の分類」の場合、元の特徴量が上記のいずれにも該当しなければ、派生した特徴量には1.0が含まれます。
ダミーエンコーディング¶
名前: ダミー 値: 文字列 値の例: 'MA'
元の特徴量がvalue
に等しい場合、派生した特徴量には1.0が含まれます。
1-ダミーエンコーディング¶
名前: 1-ダミー 値: 文字列 値の例: 'NOT MA'
元の特徴量がvalue
と異なる場合(4文字の'NOT'を除く)、派生した特徴量には1.0が含まれます。
ビニング¶
名前: ビニング値: (a、b]、またはMissing value
値の例: (-inf、12.5]
値の例: (12.5、25]
値の例: (25、inf)
値の例: 欠損値
数値特徴量を非均一ビンに変換します。
各ビンの境界線は、value
内で指定された2つの数字により定義されます。派生した特徴量は、元の値x
が指定間隔内にある場合、1.0に等しくなります:
a < x <= b
元の特徴量のvalue
が欠如している場合、"欠損値"での"ビニング"変換は1.0に等しくなります。