Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

プロファイルデータセット

備考

Data Prepの管理者は、アプリケーションでこの特微量を有効化する必要があります。

データセットのプロファイルを作成すると、そのデータセットのデータに関する統計情報が生成されます。結果は、データセットの[プロファイル]ページに表示されます。

また、作成されたプロファイルは、プロファイルタイプのAnswerSetであることを示す名前でライブラリに自動的に保存されます。

データのプロファイルの使用方法

データの取得は、パッケージの内容がわからないだけで、パッケージの取得に似ています。パッケージには、パッケージスリップが含まれているので、その内容を知るためにすべてを掘り起こし、解剖する必要はありません。Data Prepがあれば、データのプロファイルを作成することができるので、すぐに理解できます。

データプロファイルは、データセットの中のデータの品質を、そのデータを扱う前に判断する上で欠かせません。たとえば、データ、Null、印刷不可能な文字、例外的なパターンに混合されたタイプがある場合、素早く判定できます。

データプロファイルに基づいて、データをData Prepプロジェクトに取り込むことで品質の問題に対処できます。

ライブラリのデータセットのバージョンを手動または自動のインポートによって更新し続けながら、個々の後続バージョンのプロファイルを継続的に作成できます。このようにして、バージョンごとにデータセットのデータ品質を監視し、必要に応じて修正することができます。

プロファイルのAnswerSetに表示される各列の意味

データセットのプロファイルを作成すると、データセットの各列を表す行を含むAnswerSetが生成されます。プロファイルAnswerSetの各列は、データセットの列に関する以下の統計情報を提供します。

以下は、各列のデータプロファイルに含まれる統計です。

列名 定義
行数 データセット内の合計行数
空白の割合(%) 列に含まれる空白の割合
テキストの割合(%) 列に含まれるテキスト値の割合
数字の割合(%) 列に含まれる数値の割合
日付の割合(%) 列に含まれる日付値の割合
ブーリアンの割合(%) 列に含まれるブール値の割合
主たるデータ型の割合(%) 列に含まれる、最も支配的なデータ型を持つ値の割合
主たるデータ型 列内で最も支配的なデータ型
一意の値の数 列内の一意の値の数
音声学的に一意の値の数(Metaphone) metaphone(発音近似)アルゴリズムを使用して類似した値をクラスターした後の、列内の一意の値の数。たとえば、「Good Samaritan」と「Good Samertitan」は同じ値としてカウントされます。
音声学的に音声が重複している割合(Metaphone)(%) 音声学的に一意の値の数(Metaphone)/一意の値の数。この比率は、列に重複がある可能性を示します。数値が大きいほど、重複する値が含まれる可能性は高くなります。その場合、重複する値を識別するために列に対してCluster + Edit操作を行う必要があります。
トップ5 列に最も多く含まれる値の上位5件
最小文字列長 列内の最短文字列の長さ
最大文字列長 列内の最長文字列の長さ
平均文字列長 列内の文字列の平均文字列の長さ
NA、NONE、またはNullの数 列に「na」、「none」、「null」が含まれる回数
すべて大文字の割合(%) すべて大文字の文字列を含むセルの割合
すべて小文字の割合(%) すべて小文字の文字列を含むセルの割合
非標準のASCII文字を含む割合(%) 制御文字などの印字不可能な文字を含むセルの割合
HTMLタグを含む割合(%) HTMLタグを含むセルの割合
連続する空白の平均数 列に含まれる連続する空白の平均数
負の数の割合(%) 負の数を含むセルの割合
ゼロの割合(%) ゼロの値を含むセルの割合

データセットのプロファイルを作成する

データプロファイルを作成するには:

  1. ライブラリページで、データプロファイルを作成するデータセットにマウスを置きます。

  2. その他のアクションをクリックし、プロファイルを選択します。

  3. プロファイルページで、右上にあるプロファイルの生成をクリックします。

    プロファイルがプロファイルペインに表示されます。さらに、作成されたプロファイルはAnswerSetとしてライブラリに自動的に保存されます。

備考

AnswerSetのライブラリプレビューは、プロファイルの最初の100行に制限されています。


更新しました February 22, 2022
Back to top