特徴量の関連性¶
The sections below include a general discussion about associations, understanding the mutual information and Cramer's V metrics, and how associations are calculated.
関連性とは?¶
特徴量ペアの相互の関係性を表す一般的な用語としては、特徴量の関連性、相互依存、同時生起のレベル、相関(厳密には意味が若干異なります)などがあります。 特徴量の関連性タブは、広角レンズ(行列全体)とクローズアップ(行列ズームと特徴量の関連性ペアの詳細の両方)で関連性を可視化するためのツールです。
行列の各点は、「これらの特徴量のいずれかの値がわかっている場合、もう一方の値を推定する場合の精度はどの位か」を示します。指標値は、その答えの数値を示します。 指標値が0に近いほど、対象となる特徴量の相互の依存は低くなります。 どちらか一方の値がわかっていても、もう一方の値はよくわかりません。 逆に、スコアが1である場合、Xの値がわかっていれば、Yの値もわかります。 中間地はパターンを示しますが、完全な信頼性を示すものではありません。 「完全な相互情報量」もしくは1に近いほど、指標スコアが高くなり、行列における表示は不透明度が高くなります。
指標の詳細¶
指標スコアは、行列および詳細ペインにおけるクラスターと特徴量の順序と配置の基準となります。 相互情報量(デフォルト)またはクラメールのVのいずれかの指標を選択できます。 これらの指標の詳細については、インターネット上の資料を参照してください。
- 相互情報量に関する技術的概要(ウィキペディア)。
- 相互情報量に関する詳細な説明および例(Scholarpedia)。
- クラメールのVに関する技術的概要(ウィキペディア)。
- クラメールのVのチュートリアル(「what and why」)。
いずれの指標でも特徴量間の依存を測定できます。どちらの指標を選択するかは、ある程度は好みの問題です。 クラメールのVの方が真陽性率が高いので、特徴量の相互依存が低い場合、相互情報量ではレポートされない関連性がレポートされます。
関連性の計算方法¶
関連性を計算する際、DataRobotでは上位50の数値特徴量とカテゴリー特徴量(50未満の場合はすべての特徴量)が選択されます。 「上位」は、最も高い有用性スコアの特徴量(ターゲットに対する特徴量の関連性を表す値)として定義されます。 これらの特徴量からのデータは、最大10,000行のサブサンプルが作成されます。
以下の点に注意してください。
- 関連性の場合、DataRobotでは数値特徴量の分位ビニングは実行されますが、データ補完は行われません。 欠損値は新しいビンにグループ化されます。
- 外れ値は相関分析から除外されます。
- クラスタリングの場合、関連性のしきい値(0.1)よりも下の特徴量は排除されます。
- すべての特徴量が相互に相対的に依存しない場合(明確な群がない場合)、行列が表示されますが、すべての点は白で表示されます。
- 値の90%以上が欠損している特徴量は、計算から除外されます。
- 2000を超える値を持つカーディナリティの高いカテゴリー特徴量は、計算から除外されます。