クラスターインサイト¶
クラスターインサイトの可視化により、データセット内の各クラスターを理解し、名前を付けることができます。 クラスタリングによって、データの潜在的な特徴量を捉えたり、実用的なインサイトを迅速に把握して伝達したり、さらにモデリングするためにデータ内のセグメントを識別したりすることができます。
備考
クラスターインサイトで計算される特徴量の最大数は100です。特徴量は、モデルのトレーニングに使用された特徴量から、特徴量のインパクト(高~低)に基づいて選択されます。 残りの特徴量(モデルのトレーニングに使用されていないもの)はアルファベット順にソートされます。
データ内のクラスターを分析するには:
-
クラスタリングモデルを構築し、調べたいモデルを展開します。
-
解釈 > クラスターインサイトを選択します。
次の表は、クラスターインサイトの可視化について説明しています。
要素 説明 クラスターを選択 クリックして、表示するまたはビューから削除するクラスターを選択します。 クラスターの名前を変更する クラスターが何を表しているかを理解した上で、クラスターに名前を付けます。 特徴量セット デフォルトでは、DataRobotは有用な特徴量セットを使用してクラスタリングモデルを構築しますが、他の特徴量を比較するために別の特徴量セットを選択することもできます。 クラスターの生成に使用されなかった特徴量を分析することは、たとえば、「クラスタリングに使用していなくても、クラスター間で収益がどのように分布しているのか?」といった質問に答えるためにも有用です。 CSVのダウンロード クリックしてクラスターインサイトをダウンロードします。 CSVには、可視化されたクラスターインサイトに表示される情報と、より詳細な特徴量データが含まれます。 特徴量ページコントロール ページを移動して、より多くの特徴量を表示します。 クラスター クラスターは、特徴量の列に表示されます(デフォルトでは4つの特徴量が表示されます)。 クラスターのサイズが(パーセンテージで)上に表示されます。 クラスターはサイズが大きい順でソートされます。 クラスター矢印 クリックして、より多くのクラスターを表示します。 右端のクラスターには、ベースライン比較として100%が含まれます。 特徴量 特徴量は特徴量の有用性でソートされます。 デフォルトでは有用な特徴量セットが表示されますが、別の特徴量セットを選択できます。 -
クラスター全体の説明特徴量の分布と、各クラスター内の特徴量値を評価します。
特徴量を表示¶
特徴量は、特徴量のインパクトが大きいものから順番に表示されます。
特徴量のページを移動するには、クラスターの上の右矢印をクリックします。
デフォルトでは4つの特徴量が表示されますが、特徴量ページコントロールをクリックして10を選択することで一度に10個の特徴量を表示できます。
クラスター名の設定¶
クラスターに名前を付ける前に、クラスターが何を表しているかを把握する必要があります。 データを見て、明らかな共通点があるかどうかを確認し、それに応じてクラスターに名前を付けます。 クラスター名は他のインサイトと予測に反映され、クラスターをさらに分析できます。
-
クラスターの名前を変更するをクリックし、各クラスターの名前を入力します。
-
編集を終了するをクリックし、確認画面で続行するをクリックします。
表示中のクラスターの追加または削除¶
-
表示または削除するクラスターを選択するには、クラスターを選択をクリックします。
-
下矢印をクリックして新しいクラスターを選択します。
-
+ クラスターを追加をクリックすると、追加のクラスターが表示されます。
-
ゴミ箱アイコンをクリックすると、表示からクラスターが削除されます。
クラスターインサイトのダウンロード¶
クラスターの上にあるCSVをダウンロードをクリックすると、クラスターインサイトをCSVファイルとしてダウンロードして、さらに分析することができます。
クラスター特徴量の調査¶
以下のセクションでは、クラスター特徴量の調査に使用する可視化ツールを示します。 サンプルデータセットには、住宅データを表す特徴量が含まれます。
このデータセットはターゲット特徴量としてprice
の教師ありモードで実行できますが、クラスタリングモードではターゲットが指定されません。
データセットには以下の特徴量タイプが含まれます。
数値特徴量¶
クラスターインサイトで数値特徴量を表示するには:
-
クラスターインサイトタブで数値特徴量を見つけます。
-
特徴量名の近くをクリックして、展開します。 各クラスターの青いバーにカーソルを合わせると、最大値、中央値、平均値、最小値、欠損割合、第1四分位数、第3四分位数が表示されます。
カテゴリー特徴量¶
クラスターインサイトでカテゴリー特徴量を表示するには:
-
クラスターインサイトタブでカテゴリー特徴量を見つけます。
特徴量の低頻度ラベルは、その他のカテゴリーにグループ化されます。 たとえば、データセット内の少数の住宅だけに
floor_type
エンジニアリングウッドがある場合、エンジニアリングウッドがある住宅はfloor_type
特徴量の他のカテゴリーにグループ化されます。 -
各クラスターのバーにカーソルを合わせるとクラスター内の内訳が表示されます。
-
特徴量名の近くをクリックして、展開します。 これによって、より多くのカテゴリーを表示できます。
-
カテゴリーを掘り下げるには、特徴量名の横にある歯車アイコンをクリックして、高カーディナリティビューを選択します。 カーソルを合わせると、各値があるレコードの割合が表示されます。
テキスト特徴量¶
テキスト特徴量の場合、クラスターインサイトは有用性でランク付けされたn-gramを表示します(有用性が高い順)。 These are displayed as blue bars that represent the relative importance. To see the actual importance value, download the CSV.
Deep dive: Calculating importance scores
Importance scores are an estimation, computed using an adaptation of the TF-IDF method. The basis of the methodology is:
- N-grams that are common in every cluster will have lower importance.
- N-grams that are common in a specific cluster, but missing or rare in other clusters, will have higher importance for the specific cluster.
- The importance score is robust to clusters with different numbers of rows.
- N-grams that frequently occur only in a single example in a cluster will not skew the importance higher.
Specifically, the estimation method used to compute the importance works as follows. Consider, for example:
How frequent is n-gram j in cluster i?
frequency_j_i = (クラスターiでn-gram jを含むドキュメントの数) / (クラスターiのドキュメント数)
Now, How frequent is n-gram j in another average cluster k?
frequency_j_not_i = [(i以外のクラスターでn-gram jを含むドキュメントの数) + 1] / [(i以外のクラスターのドキュメント数) * (クラスター数 - 1)]
最後に:
importance of n-gram _i_ in cluster _j_ = frequency_i_j / frequency_j_not_i
In the CSV download, the values associated with the text feature column will show the entire list of n-grams that exist in the dataset. If the n-gram exists for a cluster, it will contain an importance value; if it doesn't exist in the cluster, the importance field will be blank.
-
クラスターインサイトタブでテキスト特徴量を見つけます。 特徴量名の近くをクリックして、展開します。
備考
欠損値が空白を補完します。欠損値が有用なものとしてスコアリングされている場合、
blank
がn-gramとして含まれます。 -
クラスター内のn-gramにカーソルを合わせると、単語が含まれるサンプル文字列が表示されます。
-
その他のコンテキストの例を見るをクリックして、展開します。
コンテキストウィンドウに、n-gramを含む10個のランダム抜粋が表示されます。
イメージ特徴量¶
イメージ特徴量の場合、クラスターインサイトには各クラスターからのサンプル画像が表示されます。 DataRobotは、Maximal Marginal Relevance基準を使用して、クラスターを代表する画像を選択しますが、クラスター内ではばらつきがあります(そのため、すべてがクラスターのセントロイドから取られているわけではありません)。
-
クラスターインサイトタブでテキスト特徴量を見つけます。 デフォルトでは、4つの画像が表示されます。 特徴量名の近くをクリックして、10個の画像を表示します。
-
画像にカーソルを合わせてズームインします。
地理空間位置特徴量¶
地理空間位置特徴量のマップを表示するには:
-
クラスターインサイトタブで地理空間位置特徴量を見つけます。
DataRobotは、Maximal Marginal Relevance基準を使用して、地理空間データをポイントに変換します。
ヒント
DataRobotは、地理空間位置特徴量から数値特徴量(面積や座標など)を派生します。 多くの場合、派生した特徴量は有用な特徴量セットに表示されますが、元の地理空間位置特徴量は表示されません。 元の地理空間特徴量の地理空間マップを表示するには、特徴量セットドロップダウンからすべての特徴量を選択して特徴量を探します。
-
特徴量名の近くをクリックして、マップを展開します。
個々のクラスターを表示するには、マップ凡例をクリックし、クラスター名をクリックしてクラスターを非表示にします。 マップビジュアライゼーションにはズームボタンが含まれます。