ワードクラウド¶
テキスト特徴量には、強い反応を示す単語が含まれていることがよくあります。 ワードクラウドインサイトでは、最も影響力のある語句がワードクラウド形式で最大200個表示されます。
備考
DataRobot NextGenで、エクスペリメントのワードクラウドを表示する際に利用できる追加機能については、 ワークベンチでのワードクラウドを参照してください。
リーダーボードからモデルを選択し、解釈 > ワードクラウドをクリックして、チャートを表示します。
要素 | 説明 | |
---|---|---|
1 | 選択した単語 | 選択した単語の詳細を表示します。 (ここでの単語という用語は、単語のシーケンスである可能性のあるn-gramに相当します。) 単語の上にマウスを置いて選択します。 ワードクラウドでは出現頻度の高い単語は大きい文字で表示され、頻度の低い単語は小さい文字で表示されます。 |
2 | 係数 | 単語に固有の係数値を表示します。 |
3 | カラースペクトル | 青から赤までのカラースペクトルと単語の値の凡例を表示します。青はnegative効果を示し、赤はpositive効果を示します。 |
4 | #行に出現 | 単語が表示される行数を指定します。 |
5 | ストップワードをフィルタリング | ストップワード(よく使用される用語のうち検索対象から除外できる用語)を表示から除外できます。 |
6 | エクスポート | ワードクラウドをエクスポートできます。 |
7 | ズームコントロール | キャンバスに表示される画像を拡大または縮小します。 または、画像をダブルクリックします。 表示領域を移動してフォーカスするには、クリックしてドラッグします。 |
8 | クラスを選択 | 多クラスプロジェクトの場合、ワードクラウドを使用して調査するクラスを選択します。 |
ワードクラウドの可用性
インサイトページまたはリーダーボードからワードクラウドにアクセスできます。 モデルの各バージョンの動作は同じです。リーダーボードタブを使用してワードクラウドを表示し、個々のモデルを調査します。インサイトページを使用して、プロジェクトの各ワードクラウドへのアクセスおよびワードクラウドの比較を行います。 さらに、ワードクラウドはマルチモーダルなデータセット(画像、テキスト、カテゴリーなどが混在するデータセット)でも使用でき、データに含まれるすべてのテキストについて、ワードクラウドが表示されます。
ワードクラウドの視覚化は、次のモデルタイプおよびブループリントでサポートされています。
-
二値分類
- ElasticNet分類子(線形ファミリーモデル)のすべてのバリアント(TinyBERT ElasticNet分類子とFastText ElasticNet分類子を除く)
- ElasticNet予測でのLightGBM
- 残差に収まるテキスト
- マルチモーダルデータセットの拡張サポート(単一の自動調整されたNグラムを使用)
-
多クラス:
- TinyBERTSGD分類器とFastTextSGD分類器を除く、少なくとも1つのテキスト列を持つ確率的勾配降下法
-
連続値:
- Ridge Regressor
- ElasticNet Regressor
- Lasso Regressor
- 単一の自動調整されたマルチモーダル
- ElasticNet予測でのLightGBM
- 残差に収まるテキスト
備考
あるモデルのワードクラウドは、データセット全体ではなく、そのモデルのトレーニングに使用されたデータに基づいています。 たとえば、32%のサンプルサイズでトレーニングされたモデルは、同じ32%の行を反映したワードクラウドになります。
DataRobotでの単一文字のワードの処理方法の詳細については、テキストベースのインサイトを参照してください。