ワードクラウド¶
テキスト特徴量には、強い反応を示す単語が含まれていることがよくあります。 ワードクラウドのインサイトでは、最も影響力のある単語や短いフレーズを最大200個までワードクラウド形式で表示します。 文字の色は、単語の係数値を示します。クラウド内のレンダリングサイズは、データ内の単語の出現頻度を示します。
ワードクラウドでは、個々の単語の詳細を表示したり、表示を絞り込んだり、インサイトをエクスポートしたりできます。
備考
モデルのワードクラウドは、データセット全体ではなく、そのモデルのトレーニングに使用されたデータに基づいています。 たとえば、64%のサンプルサイズでトレーニングされたモデルは、同じ64%の行を反映したワードクラウドになります。
単語の詳細を表示¶
インサイトに表示される用語をクリックすると、詳細が表示されます。 例:
詳細 | 説明 |
---|---|
単語 | 選択した単語。 もう一度クリックすると選択が解除され、詳細がクリアされます。 |
係数 | 指定された親特徴量のコンテキストにおける、その単語とターゲットの正または負の相関関係。 たとえば、糖尿病のデータセットでは、insulin という単語が複数の異なるテキスト列に表示され、それぞれの列で係数が異なる可能性があります。 |
件数 | データ内でその単語が出現した行の数を、実際の行数とパーセンテージの両方で表します。 |
特徴量 | その単語が見つかったデータの特徴量(親特徴量)。 |
表示のフィルター¶
フィルターオプションを使用して、結果に含める単語の条件を設定します。 フィルターを適用すると、ワードクラウドが更新され、該当する単語のみが表示されます。
フィルター | 説明 |
---|---|
係数 | ドロップダウンを使用して、表示される単語の係数値の範囲を設定します。 選択内容(任意、より大きい、より小さい、含まれる、含まれない)に応じて、追加のエントリーボックスが使用可能になります。 |
件数 | ドロップダウンを使用して、単語数の値の条件を設定します。 選択内容(任意、より大きい、より小さい)に応じて、追加のエントリーボックスが使用可能になります。 |
特徴量 | ドロップダウンを使用して、特定の親特徴量を選択します。 その特徴量の列に出現した単語だけが表示されます。 |
ストップワードを含める | このチェックボックスをオンにすると、通常検索から除外される一般的な用語("to"、"of"、"the"など)が表示されます。 オフにすると、一般的な用語は表示されません。 |
フィルターを個別にクリアするか、すべてクリアすると、元の表示に戻ります。
エクスポート¶
ワードクラウド全体をCSV、PNG、またはZIPファイルとしてエクスポートできます。 適用されたフィルターはエクスポートされたファイルには反映されませんが、ストップワードの削除は 適用されます 。
テキストベースのインサイトの可用性
これらのテキストインサイトのいずれかが表示されることを予期していたのに表示されない場合には、ログタブでエラーメッセージを表示して、モデルがない理由を確認してください。
テキストモデルが構築されない最も一般的な理由は、DataRobotでモデルを構築する際に単一文字の「ワード」が削除されるからです。 この処理は、そのようなワードが一般的に情報を提供するものではないからです(英語の「a」や「I」など)。 この削除による副作用は、1桁の数字も削除されることです。 したがって、「1」、「2」、「a」、「I」などが削除されます。 これはテキストマイニングにおける一般的な手法です(Sklearn Tfidf Vectorizerの「2つ以上の英数文字のトークンを選択」する手法など)。
これは、(一部の組織でデータを匿名化するために行っているように)エンコードしたワードを数値として使用する場合に問題となります。 たとえば、「john jacob schmidt」の代わりに「1 2 3」を使用した場合、および「john jingleheimer schmidt」の代わりに「1 4 3」を使用した場合、1桁の数字が削除され、テキストは「」と「」になります。 DataRobotで(1桁の数値であるために)テキスト型の特徴量のワードがまったく検出できない場合、エラーになります。
このエラーの回避策として、2つの方法があります。
- 番号の振り当てを10から開始する(「11 12 13」や「11 14 13」など)
- 各IDに1文字を追加する(「x1 x2 x3」や「x1 x4 x3」など)。