Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量の関連性タブ

データページからアクセスした特徴量の関連性タブでは、データ内の関連事項を追跡して視覚化する行列を提供します。この情報は、次のようなさまざまな指標から派生します:

  • 複数の特徴量が相互にどれだけ依存するかを決定するために役立つ指標。
  • 特徴量を個別のクラスターまたは「族」にパーティション分割するプロトコルを提供する指標。

行列はEDA2中に特徴量の有用性スコアを使用して作成され、有用な特徴量の特徴量セットで見つかった特徴量を元にしています。行列を使用するには、特徴量の関連性タブ(データページ)をクリックします。

このページには、行列(1)およびクラスター、全般的な関連性、および関連性のペアに関する情報を示す詳細ペイン(2)が表示されます。詳細ペインからは、関連性の表示および特定の特徴量ペアの間の関係性(3)の表示を行うことができます。行列の下には、ビューを変更するための行列コントロールのセット(4)があります。

特徴量の関連性の行列は、数値およびカテゴリー特徴量と特徴量クラスターのペア(数値/カテゴリー、数値/数値、カテゴリー/カテゴリー)の間の関連性の強さに関する情報を提供します。クラスター(行列上で色分けされた特徴量の群)は、類似性に基づいてグループにパーティション分割された特徴量です。行列による直感的な可視化により、以下のことが可能になります。

  • 関連性分析をすばやく実行し、データに関する理解を深める
  • 関連性の強さと本質を理解する
  • ペアワイズ相関のクラスターの群を検出する
  • モデル構築の前に高関連性の特徴量のクラスターを識別する(モデル入力に各グループ内の1つの特徴量を選択する一方でその他の特徴量を差分化するなど)

行列の表示

EDA2が完了すると行列が使用可能になります。X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。特徴量ペアの交点は、特徴量の同時生起のレベルを示します。デフォルトで、行列は相互情報別に表示されます。

デフォルトの行列からは、一般的に次のような結論が得られます。

  • ターゲット特徴量は白の太字で表示されます。
  • 個々の点は、2つの特徴量(特徴量ペア)の間の関連性を表します。
  • 各クラスターは異なる色で表されます。
  • 色の不透明度は、特徴量ペアの間における0~1の同時生起(関連または依存)を示します。レベルは、相互情報量またはクラメールのVのいずれかの設定指標によって測定されます。
  • 灰色の網掛けの点は、2つの特徴量が何らかの依存を示しているものの、同じクラスターに入っていないことを示します。
  • 白い点は、クラスターに分類されなかった特徴量を表します。
  • 「弱い ...強い」の関連凡例は、指標内の点の不透明度が指標スコアの強さを表すことを示します。

行列内の点をクリックすると、右側の詳細ペインが更新されます。デフォルトビューをリセットするには、選択したセルを再度クリックします。行列の下にあるコントロールを使用すると、表示条件を変更できます。

行列は有用性でフィルターすることができます。二値分類、連続値および多クラスのプロジェクトでは、ACE(有用性)スコアで上位50の特徴量がランク付けされます。

ディスプレイの操作

行列内の点をクリックすると、2つの特徴量の間の関連性がハイライトされます。

カーソルをドラッグすると、行列の任意のセクションの周囲に境界を描画できます。行列がズームされ、描画した境界内のポイントだけが表示されます。コントロールペインのズームをリセットをクリックすると、行列全体のビューに戻ります。

ズームした行列または行列全体は、左上にあるをクリックすることによってエクスポートできます。

詳細ペイン

デフォルトでは、行列セルが選択されていない状態で詳細ウインドウは、以下のように動作します。

  • 関連性タブでは、関連性指標スコアでランク付けされた最も強い関連性を表示します
  • クラスタータブでは、識別されたすべてのクラスターのリストおよびその平均指標スコアを表示します。
  • 特徴量ペアの関連性の詳細のチャートへのアクセスを提供します。

リストは、行列を計算するときにDataRobotで実行される内部計算に基づきます。

「関連性」タブ

行列で1つのセルを選択すると、関連性タブが更新され、選択した特徴量ペアに固有の情報が反映されます。

フィールドの説明を次の表示示します。

カテゴリ 説明
feature_1」と「feature_2
クラスター ペアの両方の特徴量が属するクラスター(または別のクラスターからの場合)には「なし」と表示されます。
指標名 依存特徴量が相互に有する指標。値は指標セット(相互情報量またはクラマーのVのいずれか)に依存します。
feature_1」の詳細 「feature_2」の
詳細
有用性 正規化された有用性スコア(3桁)は、ターゲットに対する特徴量の有用性を示します。これはデータページに表示される値と同じ値です。
タイプ 特徴量のデータ型(数値または分類)。
平均 データページから、特徴量値の平均値。
最小/最大 データページから、特徴量の最小値および最大値。
feature_1」との強い関連性
feature_1 行列上の特徴量の交点を選択すると、指標スコアに基づいて関連性が最も強い5つの特徴量のリストが表示されます。

「クラスター」タブ

デフォルトでは、見つかったすべてのクラスターが平均指標スコアでランク付けされて表示されます。これらのランク付けは、相互依存が最も強いクラスターを示します。表示名は、クラスター内でターゲットに相対的な有用性スコアが最も高い特徴量に基づきます。行列内のポイントをクリックすると、クラスタータブの表示が変更されて、以下の内容がレポートされます。

  • クラスターのスコアの詳細
  • クラスター内のすべての特徴量のリスト

特徴量の関連性ペア

特徴量の関連性ペアを表示をクリックして、特徴量ペアの2つの特徴量の間の個々の関連性のプロットを表示するモデルを開きます。結果のインサイトでは、計算にインパクトを与える値(関連性の指標)を確認できます。最初、プロットは、行列内で選択された点に自動入力されます(これらの点は詳細ペインでもハイライトされます)。各表示では、指標スコアが最も高い特徴量が属するクラスターに加えて、特徴量ペアの指標関連性スコアが表示されます。特徴量は、モデル(およびクラスターとスコア更新)から直接変更できます。

インサイトは、クラスタータブまたは関連性タブのどちらからアクセスしても同じです。表示された後、PNGをダウンロードをクリックしてインサイトを保存します。

表示されるプロットは、データ型に応じて3つの種類があります。

  • 数値特徴量と数値特徴量を比較する散布図
  • 数値特徴量とカテゴリー特徴量を比較する箱ひげ図
  • カテゴリー特徴量とカテゴリー特徴量を比較する分割表

各種類の例と共にインサイトから取得できる内容を以下に示します。

散布図

数値特徴量と数値特徴量を比較する場合、散布図では、X軸に結果の範囲が示されます。点のサイズ(または重複する点)は、値の頻度を表します。

たとえば、上記のチャートでは、12m_interestとreviews_seasonalで明らかな関連が認められないので、2つの特徴量が共有する相互情報量は非常に低いと考えられます。

箱ひげ図

ボックスとウィスカープロットは、データのグループの上下位四分位数をグラフィックに表示します。分布が外れているか、またはデータセットに問題のある外れ値が含まれているかどうか判断するのに役立ちます。X軸またはY軸にどの特徴量を設定するかに応じて、プロットは垂直または水平方向の形になります。いずれの場合でも、エンドポイントは最大値と最小値を示し、箱は値の最高発生数を示します。DataRobotでは、数値特徴量とカテゴリー特徴量のペアのインサイトを作成するために箱ひげ図を使用します。

上の例では、プロットはonline_sitesの特徴量がバラつくのはE1の箇所であることを示してします。その他の地域間では、はらつきはほとんどありません。

分割表

両方の特徴量がカテゴリー特徴量である場合、選択した特徴量の値の頻度分布を示す分割表が作成されます。分割表には、最大6つのビンが含まれます。各ビンはユニーク数の特徴量値を表します。5つ以上のユニークな値のある特徴量の場合、上位の5つが表示されます。残りの値は、「その他」という名前のビンに集約されます。

次のように表を読んでください:9か月のバケットよりも合計レビュー数が多いため、12か月のバケットではドットがすべて大きくなります。reviews_departmentのバケット全体の点のサイズに多くのばらつきはないので、last_responseに関するナレッジによってreviews_departmentに関するナレッジは向上しません。結果、低い指標スコアです。

行列表示の制御

行列ビューは、ソート条件を変更するか、関連性を計算する指標を変更することによって変更できます。これらのコントロールは、行列の下にあります。

ソート条件オプションを使用すると以下の条件でソートできます。

  • クラスター(デフォルト)
  • ターゲット(データページからの値)に対する有用性
  • アルファベット順

指標の選択によって、特徴量ペアの間の関連性の計算方法(相互情報量またはクラメールのV相関アルゴリズム)が決定されます。

特徴量セットの選択によって、プロジェクトの特徴量セットの特徴量の関連性を計算できます。リストを選択すると、ページがリフレッシュされ、選択した特徴量セットの行列が表示されます。

さらに、綿密に観測するために行列セクションを以前にハイライトした場合は、ズームをリセットをクリックして完全な行列ビューに戻ります。

さらに詳しい情報...

以降のセクションでは、以下の内容について説明します。

  • 関連性に関する一般的な情報
  • 相互情報量およびクラメールのV指標の理解
  • 関連性の計算方法

関連性とは?

特徴量ペアの相互の関係性を表す一般的な用語としては、特徴量の関連性、相互依存、同時生起のレベル、相関(厳密には意味が若干異なります)などがあります。特徴量の関連性タブは、広角レンズ(行列全体)とクローズアップ(行列ズームと特徴量の関連性ペアの詳細の両方)で関連性を可視化するためのツールです。

行列の各点は、「これらの特徴量のいずれかの値がわかっている場合、もう一方の値を推定する場合の精度はどの位か」を示します。指標値は、その答えの数値を示します。指標値が0に近いほど、対象となる特徴量の相互の依存は低くなります。どちらか一方の値がわかっていても、もう一方の値はよくわかりません。逆に、スコアが1である場合、Xの値がわかっていれば、Yの値もわかります。中間地はパターンを示しますが、完全な信頼性を示すものではありません。「完全な相互情報量」もしくは1に近いほど、指標スコアが高くなり、行列における表示は不透明度が高くなります。

指標の詳細

指標スコアは、行列および詳細ペインにおけるクラスターと特徴量の順序と配置の基準となります。相互情報量(デフォルト)またはクラメールのVのいずれかの指標を選択できます。これらの指標の詳細については、インターネット上の資料を参照してください。

いずれの指標でも特徴量間の依存を測定できます。どちらの指標を選択するかは、ある程度は好みの問題です。クラメールのVの方が真陽性率が高いので、特徴量の相互依存が低い場合、相互情報量ではレポートされない関連性がレポートされます。

関連性の計算方法

関連性を計算する際、DataRobotでは上位50の数値特徴量とカテゴリー特徴量(50未満の場合はすべての特徴量)が選択されます。「上位」は、最も高い有用性スコアの特徴量(ターゲットに対する特徴量の関連性を表す値)として定義されます。これらの特徴量からのデータは、最大10,000行のサブサンプルが作成されます。

以下の点に注意してください。

  • 関連性の場合、DataRobotでは数値特徴量の分位ビニングは実行されますが、データ補完は行われません。欠損値は新しいビンにグループ化されます。
  • 外れ値は相関分析から除外されます。
  • クラスタリングの場合、関連性のしきい値(0.1)よりも下の特徴量は排除されます。
  • すべての特徴量が相互に相対的に依存しない場合(明確な群がない場合)、行列が表示されますが、すべての点は白で表示されます。

更新しました February 22, 2022
Back to top