クラスタリングによる正規化¶
Data Prepのクラスター + 編集操作を使うと、列データを迅速に正規化できます。これは、列の一貫性の欠如やエラーの発見に特に役立ちます。
データセットの列でクラスター+編集を実行すると:
- Data Prepはすべての列の値を検索し、密接に一致する値をひとつのクラスターにまとめます。
- 各クラスターは、クラスターサイズ(クラスター内のユニークな値の数)およびクラスターの行数(列内で各ユニーク値が発生する回数)とともにクラスター+編集ペインに表示されます。
クラスター化されたデータに基づいて、Data Prepはクラスターのすべての値を正規化するための単一の置換値を提案します。提案された値を適用するか、または、別の値の設定してクラスターを標準化することもできます。
以下に、クラスター+編集ペインとそのコンポーネントの説明を示します。
要素 | アクション | |
---|---|---|
![]() |
列フィールド | 操作を実行する列。 |
![]() |
使用 | ドロップダウンメニューを使って、クラスタリング操作用に使用するアルゴリズムを選択します。詳細については、クラスタリングアルゴリズムを参照してください。 |
![]() |
対象 | ドロップダウンメニューを使って、出力オプション用に使用するアルゴリズムの1つを選択します。選択したアルゴリズムによってクラスターに対する値の提案が変わります。詳細については、出力アルゴリズムを参照してください。 |
![]() |
選択 | クリックして、更新するクラスターを選択します。 |
![]() |
サイズ | クラスター内のユニークな値の数。 |
![]() |
行数 | クラスター内の行数。 |
![]() |
クラスター内の値 | Data Prepがクラスター内のすべての値の代替として提案する値を表示します。Data Prepの提案は、選択したクラスタリングアルゴリズムに基づいています。Data Prepの提案をオーバーライドするには、別の値を入力します。値の横の「X」をクリックして、更新されないようにします。 |
![]() |
25 / 50 / 100 | 一括編集用に、ページごとにクラスター数を選択します。 |
![]() |
ページを選択 | 一括編集用のクラスターを選択できます。バルク編集では、1ページのクラスター上で操作します。ページサイズフィールドを使用して、ページあたりのクラスター数を指定します。 |
![]() |
クラスター化を自動的に行う | 保存をクリックした後、データセットの全行に一括編集を実行します。 |
![]() |
保存 | 変更を保存します。 |
クラスター+編集を使用するタイミング¶
次の表は、クラスター+編集を使用する一般的なシナリオを示します。
シナリオ | 説明 | 例 |
---|---|---|
修正と一貫性の欠如 | データ入力の誤り、スペルミス、異なった省略形や略記の一括修正。 | Acme Co.、Acme Company、Acme Comp. |
再分類 | 詳細値を集計値に再分類します。 | 「12オンスのソーダ」と「8オンスのソーダ」の両方が「ソーダ」になります。 |
統合 | 異なるシステムからのデータが 1 つのカラムに組み込まれたときに生じる、一貫性があるが異なる値を結合する。 | あるデータソースでは一貫して「ソーダ」と表記され、別のデータソースでは一貫して「トニック」と表記されている場合。 |
列でクラスター+編集を実行する¶
-
正規化する列を検索します。
-
列メニューアイコン
にカーソルを合わせ、その他 > クラスター+編集をクリックします。
-
クラスター+編集ペインが開きます。
-
使用フィールドで、ドロップダウンメニューを使用して、クラスタリング操作に使用するアルゴリズムを選択します。
詳細については、クラスタリングアルゴリズムを参照してください。
-
対象フィールドで、ドロップダウンメニューを使って、出力オプションに対して使用するアルゴリズムを選択します。選択したアルゴリズムによってクラスターに対する値の提案が変わります。
詳細については、出力アルゴリズムを参照してください。
-
Data Prepがクラスターに提案した値を変更するには、使用フィールドに用語を入力します。
-
Data Prepで値が置換されないようにするには、値の横のXをクリックします。
-
選択列で、更新するクラスターの横のチェックボックスをクリックし、保存をクリックします。
-
引き続き個別のクラスター編集を行います。
クラスターの一括編集を実行する¶
一括編集を使用すると、ページのすべてのクラスターをスピーディに正規化できます。
-
ページごとに25、50、または100のクラスターを選択します。
一括編集操作は、クラスターの1ページに制限されています。
-
一括編集を実行するには、次のうちいずれかを実行します。
- ページを選択をクリックして、ページのすべてのクラスターを選択します。
保存する前に提案された置換値を確認して編集を行いたい場合には、この方法を使用します。
- クラスター化を自動的に行うをクリックして、データセットのすべてのクラスターを選択します。
提案した置換値をすべて受け入れることが確定している場合は、この方法を使用します。
- ページを選択をクリックして、ページのすべてのクラスターを選択します。
-
クラスターを更新するには、保存ボタンをクリックします。
各クラスターで、すべての値が提案された値に変更されます。
クラスターの操作に使用するツール¶
次のツールは、クラスター用に提案された値がどのように派生したかをよりよく認識できるように、視覚的なキューを提供します。
要素 | 説明 | |
---|---|---|
![]() |
固定幅フォント | デフォルトでは、クラスター値が可変幅フォントで表示されます。固定幅フォントでクラスターの値を表示するには、このオプションをクリックします。固定幅のオプションを使用すると、すべての文字が揃えられ、クラスター間の空白や他の方式の文字も簡単に比較できます。 |
![]() |
ハイライトツール | ハイライトすることで、提案されたクラスター置換値がどのように派生したかを認識できます。追加ツールは、すべての一般的な文字に対して追加された文字がハイライトされます。削除ツールでは、一般的な文字を派生させるためにどこが削除されるかが示されます。削除箇所は赤いXに凝縮されます。追加と削除ツールは同時に有効化できます。 |
クラスタリングアルゴリズム¶
クラスタリングアルゴリズムを使用すると、一緒にグループ化するべき値を定義できます。
備考
すべてのクラスタリングアルゴリズムでは、クラスターを構築する際に空白や Null は含まれません。
アプリケーションでは次のアルゴリズムを利用できます。
metaphone¶
metaphoneアルゴリズムは、デフォルト選択で、英語の発音に基づいて単語をグループ化します。これは、テキストを発話したときの音がどれだけ似ているか異なっているかに基づいているため、「音声的」アルゴリズムに分類されます。このアルゴリズムは、手動で入力したデータ(ミススペルが含まれている可能性があるデータ)や、複数のソースシステムから追加されたデータ(細かい差異が含まれている可能性があるデータ)を操作する場合に役立ちます。
ngram¶
ngramアルゴリズムは、列内のデータを指定された文字数(n)に分割します。テキストのこれらの「チャンク」(すなわちgrams)は、その後に続く可能性のある確率に基づいて比較されます。ngramアルゴリズムは検索エンジンでよく使用されます。ユーザーが検索バーに文字を入力すると、エンジンが最終的な検索語が取る可能性のある形式の確率を調べ、ユーザーが入力すると同時に候補を表示します。
fingerprint¶
fingerprintアルゴリズムは、類似した値を、句読点、語順、大文字化のみが異なるクラスターにグループ化します。fingerprintアルゴリズムは、たとえば「Adèle Smith」と「SMITH, ADELE」という名前を一致させるためによく使用されます。
outputアルゴリズム¶
with出力オプションは、クラスターの値に対するデフォルト置換値を決定します。出力オプションは、新しい値に対する最良の推奨を行うことを試みます。置換値はユーザーの具体的なビジネス要件に合わせて手動で編集することができます。
アプリケーションは次のアルゴリズムを提供します。
最頻値¶
「最頻値」出力アルゴリズム(デフォルト選択)は、クラスター内で最も頻繁に発生する値を使用してクラスターを構築します。
すべての一般的な単語¶
「すべての一般的な単語」出力アルゴリズムは、一致する単語の文字列を使用して、順序に関係なく、文字列の先頭からクラスターを構築します。その次に、各文字列が発生する頻度により新しい値が決定されます。
例
Apple Computer Corporation
Apple Computer Inc
Apple Corporation Computer
Apple Computer
Apple Corp Computer
新しい値:Apple Computer
クラスターを構築する際に使用するアルゴリズムは、提案値に影響を及ぼします。
-
metaphoneはクラスター内の単語の語義的な意味を維持しようと試みるため、提案値の一部がクラスター内のすべての一般的な単語を厳密に反映していない場合があります。クラスターに句読点が含まれている場合がこれに該当するかもしれません。
-
クラスター内の非連続の共通の語を含めるには、ngram アルゴリズムを使用する必要があります。
連続した一般的な単語¶
「連続した一般的な単語」出力アルゴリズムは、文字列の先頭から始まり、一致する連続する単語の最長のシーケンスを使用してクラスターを構築します。新しい値の推奨を決定する際に、クラスターの10%未満で発生する値は含まれません。ほとんどの句読点は、一致のシーケンスを妨げません。
例
Apple-Computer
Apple Computer
Apple ComputerAG
Apple Computer Corp
Apple Computer Corporation
Apple Computer Inc
新しい値:Apple Computer