Skip to content

ワードクラウド

タブ 説明
説明 最もインパクトのある単語と短いフレーズを最大200個、ワードクラウド形式で表示します。

テキスト特徴量には、強い反応を示す単語が含まれていることがよくあります。 ワードクラウドインサイト内のテキストの色は、単語の係数値を示し、クラウド内のレンダリングサイズは、データ内の用語の出現頻度を示します。

ワードクラウドでは、個々の単語の詳細を表示したり、表示を絞り込んだり、インサイトをエクスポートしたりできます。

備考

モデルのワードクラウドは、データセット全体ではなく、そのモデルのトレーニングに使用されたデータに基づいています。 たとえば、64%のサンプルサイズでトレーニングされたモデルは、同じ64%の行を反映したワードクラウドになります。

単語の詳細を表示

インサイトに表示される用語をクリックすると、詳細が表示されます。 例:

詳細 説明
単語
係数
件数 データ内でその単語が出現した行の数を、実際の行数とパーセンテージの両方で表します。
特徴量 その単語が見つかったデータの特徴量(親特徴量)。

表示のフィルター

フィルターオプションを使用して、結果に含める単語の条件を設定します。 フィルターを適用すると、ワードクラウドが更新され、該当する単語のみが表示されます。

フィルター 説明
係数
件数
特徴量
ストップワードを含める

フィルターを個別にクリアするか、すべてクリアすると、元の表示に戻ります。

エクスポート

ワードクラウド全体をCSV、PNG、またはZIPファイルとしてエクスポートできます。 適用されたフィルターはエクスポートされたファイルには反映されませんが、ストップワードの削除は 適用されます

テキストベースのインサイトの可用性

これらのテキストインサイトのいずれかが表示されることを予期していたのに表示されない場合には、ログタブでエラーメッセージを表示して、モデルがない理由を確認してください。

テキストモデルが構築されない最も一般的な理由は、DataRobotでモデルを構築する際に単一文字の「ワード」が削除されるからです。 この処理は、そのようなワードが一般的に情報を提供するものではないからです(英語の「a」や「I」など)。 この削除による副作用は、1桁の数字も削除されることです。 したがって、「1」、「2」、「a」、「I」などが削除されます。 This common practice in text mining (for example, the Sklearn Tfidf Vectorizer selects tokens of 2 or more alphanumeric characters).

これは、(一部の組織でデータを匿名化するために行っているように)エンコードしたワードを数値として使用する場合に問題となります。 たとえば、「john jacob schmidt」の代わりに「1 2 3」を使用した場合、および「john jingleheimer schmidt」の代わりに「1 4 3」を使用した場合、1桁の数字が削除され、テキストは「」と「」になります。 DataRobotで(1桁の数値であるために)テキスト型の特徴量のワードがまったく検出できない場合、エラーになります。

このエラーの回避策として、2つの方法があります。

  • 番号の振り当てを10から開始する(「11 12 13」や「11 14 13」など)
  • 各IDに1文字を追加する(「x1 x2 x3」や「x1 x4 x3」など)。