プロファイルデータセット¶
備考
Data Prepの管理者は、アプリケーションでこの特微量を有効化する必要があります。
データセットのプロファイルを作成すると、そのデータセットのデータに関する統計情報が生成されます。結果は、データセットの[プロファイル]ページに表示されます。
また、作成されたプロファイルは、プロファイルタイプのAnswerSetであることを示す名前でライブラリに自動的に保存されます。
データのプロファイルの使用方法¶
データの取得は、パッケージの内容がわからないだけで、パッケージの取得に似ています。パッケージには、パッケージスリップが含まれているので、その内容を知るためにすべてを掘り起こし、解剖する必要はありません。Data Prepがあれば、データのプロファイルを作成することができるので、すぐに理解できます。
データプロファイルは、データセットの中のデータの品質を、そのデータを扱う前に判断する上で欠かせません。たとえば、データ、Null、印刷不可能な文字、例外的なパターンに混合されたタイプがある場合、素早く判定できます。
データプロファイルに基づいて、データをData Prepプロジェクトに取り込むことで品質の問題に対処できます。
ライブラリのデータセットのバージョンを手動または自動のインポートによって更新し続けながら、個々の後続バージョンのプロファイルを継続的に作成できます。このようにして、バージョンごとにデータセットのデータ品質を監視し、必要に応じて修正することができます。
プロファイルのAnswerSetに表示される各列の意味¶
データセットのプロファイルを作成すると、データセットの各列を表す行を含むAnswerSetが生成されます。プロファイルAnswerSetの各列は、データセットの列に関する以下の統計情報を提供します。
以下は、各列のデータプロファイルに含まれる統計です。
列名 | 定義 |
---|---|
行数 | データセット内の合計行数 |
空白の割合(%) | 列に含まれる空白の割合 |
テキストの割合(%) | 列に含まれるテキスト値の割合 |
数字の割合(%) | 列に含まれる数値の割合 |
日付の割合(%) | 列に含まれる日付値の割合 |
ブーリアンの割合(%) | 列に含まれるブール値の割合 |
主たるデータ型の割合(%) | 列に含まれる、最も支配的なデータ型を持つ値の割合 |
主たるデータ型 | 列内で最も支配的なデータ型 |
一意の値の数 | 列内の一意の値の数 |
音声学的に一意の値の数(Metaphone) | metaphone(発音近似)アルゴリズムを使用して類似した値をクラスターした後の、列内の一意の値の数。たとえば、「Good Samaritan」と「Good Samertitan」は同じ値としてカウントされます。 |
音声学的に音声が重複している割合(Metaphone)(%) | 音声学的に一意の値の数(Metaphone)/一意の値の数。この比率は、列に重複がある可能性を示します。数値が大きいほど、重複する値が含まれる可能性は高くなります。その場合、重複する値を識別するために列に対してCluster + Edit操作を行う必要があります。 |
トップ5 | 列に最も多く含まれる値の上位5件 |
最小文字列長 | 列内の最短文字列の長さ |
最大文字列長 | 列内の最長文字列の長さ |
平均文字列長 | 列内の文字列の平均文字列の長さ |
NA、NONE、またはNullの数 | 列に「na」、「none」、「null」が含まれる回数 |
すべて大文字の割合(%) | すべて大文字の文字列を含むセルの割合 |
すべて小文字の割合(%) | すべて小文字の文字列を含むセルの割合 |
非標準のASCII文字を含む割合(%) | 制御文字などの印字不可能な文字を含むセルの割合 |
HTMLタグを含む割合(%) | HTMLタグを含むセルの割合 |
連続する空白の平均数 | 列に含まれる連続する空白の平均数 |
負の数の割合(%) | 負の数を含むセルの割合 |
ゼロの割合(%) | ゼロの値を含むセルの割合 |
データセットのプロファイルを作成する¶
データプロファイルを作成するには:
-
ライブラリページで、データプロファイルを作成するデータセットにマウスを置きます。
-
その他のアクションをクリックし、プロファイルを選択します。
-
プロファイルページで、右上にあるプロファイルの生成をクリックします。
プロファイルがプロファイルペインに表示されます。さらに、作成されたプロファイルはAnswerSetとしてライブラリに自動的に保存されます。
備考
AnswerSetのライブラリプレビューは、プロファイルの最初の100行に制限されています。