Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

GA2M出力(格付表より)

以下のセクションでは、一般化加法モデル(GA2M)モデルの出力について説明します。 この出力は、格付表タブからのダウンロードとして取得できます。

モデル出力の読み取り

出力を検証する際は、以下の点に注意してください。

  • GA2Mモデルによって検出される2次交互作用(インタラクション)には、以下の特徴があります。

    • 2つの特徴量間に交互作用(インタラクション)がある場合、(Var1 & Var2)というラベルの追加の表見出しがあります。

    • 表で対相互作用の前処理と係数を示す行には、2W-INTタイプがあります。

  • Feature Strength は、各特徴量と対相互作用の強度を示します。 交互作用(インタラクション)の強度はごくわずかであり、主効果の強度は含まれません。 Feature Strengthは、係数の中央値の絶対値の加重平均に等しくなります。

  • Transform1Value1は、対の最初の特徴量の前処理を示します。Transform2Value2 は、対の2番目の特徴量の前処理を示します。 係数は、2つの特徴量の前処理から派生した2つの値の積に適用されます。

  • 加重は、表の各行の観測値の合計です。 プロジェクトで加重特徴量を使用する場合、Weight列は加重の合計です。 これは、数値的特徴量の各ビン、カテゴリー特徴量の各レベル、または2次交互作用(インタラクション)の各セルに対応するトレーニングデータ観測値の(加重処理された)数を定量化するために使用できます。

下記は、一般化加法モデル出力からのサンプル抜粋です。

サンプルテーブルでは、InterceptBaseLoss distribution、およびLink関数パラメーターは、特定の特徴量ではなく一般的なモデルを示します。 表内の各行は、1つの特徴量と、DataRobotがそれに対して適用する変換を記述します。 予測を計算するには、Coefficient列またはRelativity列のいずれかを使用します。 予測の精度をDataRobotの予測と同じにする場合は、Coefficient列を使用します。

たとえば、CRIM値が0.9に等しく、LSTATが8に等しい場合を考えてみます。

Coefficient(係数)列を使用すると、サンプルは以下のようになります。

目的 係数値 行から...
切片 3.080070 1
CRIM=0.9の係数 -0.005546 12(ビンには0.60079503からinfのCRIM値が含まれます)
LSTAT=8の係数 0.257544 14(ビンには-infから9.72500038のLSTAT値が含まれます)
CRIM=0.9およびLSTAT=8の係数を取得 0.122927 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン)

予測 = exp(3.08006971649 -0.00554623809222501 + 0.257543518013598 + 0.122926708231993) = 31.658089382684512

Relativity(関連性)列を使用すると、サンプルは以下のようになります。

目的 相対値 行から...
基数 21.7599 2
CRIM=0.9に相対的 -0.9945 12(ビンには0.60079503からinfのCRIM値が含まれます)
LSTAT=8の係数 1.2937 14(ビンには-infから9.72500038のLSTAT値が含まれます)
CRIM=0.9およびLSTAT=8の係数を取得 1.1308 20(Value1、0.9に等しいCRIM、およびValue2、8に等しいLSTATのビン)

予測 = 21.7599193685 * 0.994469113891232 * 1.29374811110316 * 1.13080153946617 = 31.65808938265751

メインモデルで2ステージモデリングプロセス(頻度-強度の一般化加法モデルなど)を使用する場合、2つの追加の列—Frequency_CoefficientSeverity_Coefficient—に各ステージの係数が示されます。

GA2M内の二項間の交互作用の指定

GA2Mの出力に含める二項間の交互作用を指定できます(格付表タブ)。必ずしも各交互作用を含めたり、すべての交互作用を除外したりする必要はありません。 規制制限によって交互作用が許可されない特定の特徴量がある場合にGA2Mモデルのトレーニング中に許可する交互作用を指定できます。

備考

指定したペア単位の交互作用は必ずしもモデルの出力に表示されるとは限りません。 アルゴリズムに従ってモデルに信号を追加する交互作用だけが出力に表示されます。 たとえば、特徴量の交互作用グループA、B、およびCを指定した場合、モデルトレーニング中にAxB、BxC、およびAxCが交互作用とみなされます。 AxBだけが信号をモデルに追加する場合AxBだけがモデルの出力に含まれます(BxCおよびAxCは除外されます)。

モデルで許容される二項間の相互作用を指定する高度なオプションの特徴量制約を使用します。

GA2Mの変換の定義

次のセクションでは、DataRobotがGAMから予測を再現するために使用するルーチンについて説明します。

One-hot encoding

名前:ワンホット :文字列、またはMissing value、またはOther categories 値の例:「MA」 値の例:欠損値

カテゴリー特徴量のワンホット(すなわちダミー変数)変換。

  • valueが文字列の場合、元の特徴量がvalueに等しければ、派生した特徴量には1.0が含まれます。

  • 元の特徴量の値が欠如している場合、「欠損値」での"ビニング"変換は1.0に等しくなります。

  • valueが「その他の分類」の場合、元の特徴量が上記のいずれにも該当しなければ、派生した特徴量には1.0が含まれます。

ダミーエンコーディング

名前:ダミー :文字列 値の例:「MA」

元の特徴量がvalueに等しい場合、派生した特徴量には1.0が含まれます。

1-ダミーエンコーディング

名前:1-ダミー :文字列 値の例:'NOT MA'

元の特徴量がvalueと異なる場合(4文字の'NOT'を除く)、派生した特徴量には1.0が含まれます。

ビニング

名前:ビニング :(a、b]、またはMissing value 値の例:(-inf、12.5] 値の例:(12.5、25] 値の例:(25、inf) 値の例:欠損値

数値特徴量を非均一ビンに変換します。

各ビンの境界線は、value内で指定された2つの数字により定義されます。 派生した特徴量は、元の値xが指定間隔内にある場合、1.0に等しくなります:

a < x <= b

元の特徴量のvalue が欠如している場合、「欠損値」での「ビニング」変換は1.0に等しくなります。


更新しました February 6, 2024