Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量の関連性

データページからアクセスできる特徴量の関連性タブは、データ内の関連性を追跡および可視化できる行列を提供します。 この情報は、次のようなさまざまな指数から派生します。

  • 複数の特徴量が相互にどれだけ依存するかを決定するために役立つ指標。
  • 特徴量を個別のクラスターまたは「ファミリー」にパーティション分割するプロトコルを提供します。

行列は次のとおりです。

行列を使用するには、特徴量の関連性タブ(データページ)をクリックします。

このページには、行列(1)およびクラスター、全般的な関連性、および関連性のペアに関する情報を示す詳細ペイン(2)が表示されます。 詳細ペインからは、関連性の表示および特定の特徴量ペアの間の関係性(3)の表示を行うことができます。 行列の下には、ビューを変更するための行列コントロールのセット(4)があります。

特徴量の関連性の行列は、数値およびカテゴリー特徴量と特徴量クラスターのペア(数値/カテゴリー、数値/数値、カテゴリー/カテゴリー)の間の関連性の強さに関する情報を提供します。 クラスター(行列上で色分けされた特徴量の族)は、類似性に基づいてグループにパーティション分割された特徴量です。 行列の直感的な可視化により、以下のことが可能になります。

  • 関連性分析をすばやく実行し、データに関する理解を深める。
  • 関連性の強さと本質を理解する。
  • ペア単位の関連性クラスターの群を検出する。
  • モデル構築の前に高関連性の特徴量のクラスターを識別する(モデル入力に各グループ内の1つの特徴量を選択する一方でその他の特徴量を差分化するなど)。

行列の表示

EDA2が完了すると行列が使用可能になります。 X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 特徴量ペアの交点は、特徴量の同時生起のレベルを示します。 デフォルトで、行列は相互情報別に表示されます。

デフォルトの行列からは、一般的に次のような結論が得られます。

  • ターゲット特徴量は白の太字で表示されます。
  • 個々の点は、2つの特徴量(特徴量ペア)の間の関連性を表します。
  • 各クラスターは異なる色で表されます。
  • 色の不透明度は、特徴量ペアの間における0~1の同時生起(関連または依存)を示します。 レベルは、相互情報量またはクラメールのVのいずれかの設定指標によって測定されます。
  • 灰色の網掛けの点は、2つの特徴量が何らかの依存を示しているものの、同じクラスターに入っていないことを示します。
  • 白い点は、クラスターに分類されなかった特徴量を表します。
  • 「弱い ... 強い」の関連凡例は、指標内の点の不透明度が指標スコアの強さを表すことを示します。

行列内の点をクリックすると、右側の詳細ペインが更新されます。 デフォルトビューをリセットするには、選択したセルを再度クリックします。 行列の下にあるコントロールを使用すると、表示条件を変更できます。

行列は、二値分類、連続値プロジェクト、および多クラスのACE(有用性)スコアで上位50の特徴量をランク付けする有用性でフィルターすることもできます。

ディスプレイの操作

行列内の点をクリックすると、2つの特徴量の間の関連性がハイライトされます。

カーソルをドラッグすると、行列の任意のセクションの周囲に境界を描画できます。 行列がズームされ、描画した境界内のポイントだけが表示されます。 コントロールペインのズームをリセットをクリックすると、行列全体のビューに戻ります。

ズームした行列または行列全体は、左上にあるをクリックすることによってエクスポートできます。

詳細ペイン

デフォルトでは、行列セルが選択されていない状態で詳細ペインは、以下のように動作します。

  • 最も強い関連性(関連性タブ)を、関連性指標スコアでランク付けして表示します。
  • 識別されたすべてのクラスターのリスト(クラスタータブ)とその平均指標スコアを表示します。
  • 特徴量ペアの関連性の詳細のチャートへのアクセスを提供します。

リストは、行列を計算するときにDataRobotで実行される内部計算に基づきます。

「関連性」タブ

行列で1つのセルを選択すると、関連性タブが更新され、選択した特徴量ペアに固有の情報が反映されます。

フィールドの説明を次の表示示します。

カテゴリー 説明
特徴量_1」および「特徴量_2
クラスター ペアの両方の特徴量が属するクラスター(または別のクラスターからの場合)には「なし」と表示されます。
指標名 依存特徴量が相互に有する指標。 値は指標セット(相互情報量またはクラマーのVのいずれか)に依存します。
特徴量_1」の詳細
特徴量_2」の詳細
有用性 正規化された有用性スコア(3桁)は、ターゲットに対する特徴量の有用性を示します。 これはデータページに表示される値と同じ値です。
タイプ 特徴量のデータ型(数値または分類)。
平均 データページから、特徴量の平均値。
最小/最大 データページから、特徴量の最小値および最大値。
特徴量_1」との強い関連性
特徴量_1 行列上の特徴量の交点を選択すると、指標スコアに基づいて関連性が最も強い5つの特徴量のリストが表示されます。

「クラスター」タブ

デフォルトでは、見つかったすべてのクラスターが平均指標スコアでランク付けされて表示されます。 これらのランク付けは、相互依存が最も強いクラスターを示します。 表示名は、クラスター内でターゲットに相対的な有用性スコアが最も高い特徴量に基づきます。 行列内のポイントをクリックすると、クラスタータブの表示が変更されて、以下の内容がレポートされます。

  • クラスターのスコアの詳細。
  • クラスター内のすべての特徴量のリスト。

特徴量の関連性ペア

特徴量の関連性ペアを表示をクリックして、特徴量ペアの2つの特徴量の間の個々の関連性のプロットを表示するモデルを開きます。 結果のインサイトでは、計算にインパクトを与える値「関連性の測定基準」を確認できます。 最初、プロットは、行列内で選択された点に自動入力されます(これらの点は詳細ペインでもハイライトされます)。 各表示では、指標スコアが最も高い特徴量が属するクラスターに加えて、特徴量ペアの指標関連性スコアが表示されます。特徴量は、モデル(およびクラスターとスコア更新)から直接変更できます。

クラスタータブからアクセスした場合でも、関連性タブからアクセスした場合でも、インサイトは同じです。 表示されたインサイトは、PNGをダウンロードをクリックして保存できます。

表示されるプロットは、データ型に応じて3つの種類があります。

  • 数値特徴量と数値特徴量を比較する散布図。
  • 数値特徴量とカテゴリー特徴量を比較する箱ひげ図。
  • カテゴリー特徴量とカテゴリー特徴量を比較する分割表。

各種類の例と共にインサイトから取得できる内容を以下に示します。

散布図

数値特徴量と数値特徴量を比較する場合、散布図では、X軸に結果の範囲が示されます。 点のサイズ(または重複する点)は、値の頻度を表します。

たとえば、上記のチャートでは、12m_interestとreviews_seasonalで明らかな関連が認められないので、2つの特徴量が共有する相互情報量は非常に低いと考えられます。

箱ひげ図

箱ひげ図は、データのグループの上位四分位点と下位四分位点をグラフィカルに表示します。 箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。 X軸またはY軸にどの特徴量を設定するかに応じて、プロットは垂直または水平方向の形になります。 いずれの場合でも、エンドポイントは最大値と最小値を示し、箱は値の最高発生数を示します。 DataRobotでは、数値特徴量とカテゴリー特徴量のペアのインサイトを作成するために箱ひげ図が使用されます。

上の例では、プロットはonline_sitesの特徴量がバラつくのはE1の箇所であることを示してします。 その他の地域間では、はらつきはほとんどありません。

分割表

両方の特徴量がカテゴリー特徴量である場合、選択した特徴量の値の頻度分布を示す分割表が作成されます。 分割表には、最大6つのビンが含まれます。 各ビンは一意の特徴量値を表します。5つ以上の一意の値のある特徴量の場合、上位の5つが表示されます。残りの値は、「その他」という名前のビンに集約されます。

分割表の意味を以下に示します。9か月のバケットよりも多くの合計レビューがあるので、12か月のバケット内の点はすべて大きく表示されます。 レビュー_部門バケット全体の点のサイズに多くのばらつきはないので、最新の_応答に関するナレッジによってレビュー_部門に関するナレッジは向上しません。 結果は低い指標スコアです。

行列表示の制御

行列ビューは、ソート条件を変更するか、関連性を計算する指標を変更することによって変更できます。 これらのコントロールは、行列の下にあります。

ソート条件オプションを使用すると以下の条件でソートできます。

  • クラスター(デフォルト)。
  • ターゲット(データページからの値)に対する有用性。
  • アルファベット順

指標の選択によって、特徴量ペアの間の関連性の計算方法(相互情報量またはクラメールのV相関アルゴリズム)が決定されます。

特徴量セットの選択によって、プロジェクトの特徴量セットの特徴量の関連性を計算できます。 リストを選択すると、ページがリフレッシュされ、選択した特徴量セットのマトリクスが表示されます。

さらに、綿密に観測するために行列セクションを以前にハイライトした場合は、ズームをリセットをクリックして完全な行列ビューに戻ります。

詳しい情報...

以降のセクションでは、以下の内容について説明します。

  • 関連性に関する一般的な情報。
  • 相互情報量およびクラメールのV指標の理解。
  • 関連性の計算方法。

関連性とは?

特徴量ペアの相互の関係性を表す一般的な用語としては、特徴量の関連性、相互依存、同時生起のレベル、相関(厳密には意味が若干異なります)などがあります。 特徴量の関連性タブは、広角レンズ(行列全体)とクローズアップ(行列ズームと特徴量の関連性ペアの詳細の両方)で関連性を可視化するためのツールです。

行列の各点は、「これらの特徴量のいずれかの値がわかっている場合、もう一方の値を推定する場合の精度はどの位か」を示します。指標値は、その答えの数値を示します。 指標値が0に近いほど、対象となる特徴量の相互の依存は低くなります。 どちらか一方の値がわかっていても、もう一方の値はよくわかりません。 逆に、スコアが1である場合、Xの値がわかっていれば、Yの値もわかります。 中間地はパターンを示しますが、完全な信頼性を示すものではありません。 「完全な相互情報量」もしくは1に近いほど、指標スコアが高くなり、行列における表示は不透明度が高くなります。

指標の詳細

指標スコアは、行列および詳細ペインにおけるクラスターと特徴量の順序と配置の基準となります。 相互情報量(デフォルト)またはクラメールのVのいずれかの指標を選択できます。 これらの指標の詳細については、インターネット上の資料を参照してください。

いずれの指標でも特徴量間の依存を測定できます。どちらの指標を選択するかは、ある程度は好みの問題です。 クラメールのVの方が真陽性率が高いので、特徴量の相互依存が低い場合、相互情報量ではレポートされない関連性がレポートされます。

関連性の計算方法

関連性を計算する際、DataRobotでは上位50の数値特徴量とカテゴリー特徴量(50未満の場合はすべての特徴量)が選択されます。 「上位」は、最も高い有用性スコアの特徴量(ターゲットに対する特徴量の関連性を表す値)として定義されます。 これらの特徴量からのデータは、最大10,000行のサブサンプルが作成されます。

以下の点に注意してください。

  • 関連性の場合、DataRobotでは数値特徴量の分位ビニングは実行されますが、データ補完は行われません。 欠損値は新しいビンにグループ化されます。
  • 外れ値は相関分析から除外されます。
  • クラスタリングの場合、関連性のしきい値(0.1)よりも下の特徴量は排除されます。
  • すべての特徴量が相互に相対的に依存しない場合(明確な群がない場合)、行列が表示されますが、すべての点は白で表示されます。
  • 値の90%以上が欠損している特徴量は、計算から除外されます。
  • 2000を超える値を持つカーディナリティの高いカテゴリー特徴量は、計算から除外されます。

更新しました July 18, 2023