データ品質処理レポート¶
データ品質処理レポートは、モデルの説明タブにあります。
レポートには、トレーニングデータに基づく次の情報が含まれます。
フィールド | 説明 |
---|---|
特徴量名 | 特徴量名が表示されます。 データセット内の各特徴量に加えて、変換済み特徴量およびOTVの派生した特徴量も一覧表示されます。 |
特徴量の型 | 特徴量のvariable type(特徴量の型)。 |
行数 | トレーニングデータに特徴量が欠損している行の数がレポートされます。 列見出しをクリックすると、並べ替え順を変更できます。 |
パーセンテージ | トレーニングデータに特徴量が欠損している行の数がパーセンテージとしてレポートされます。 列見出しをクリックすると、並べ替え順を変更できます。 |
データ変換情報 | 特徴量に適用された補完タスクに加えて、適用された値がリストされます。 1つ以上の補完タスクが適用される場合、すべてのタスクがリストされます。 |
さらに、以下の操作を行うことができます。
- 検索を使用して特定の特徴量を検索する。
- 列ヘッダーでフィルタします。
サポートされるタスク¶
「データ品質処理レポート」タブには、サポートされている以下のタスクに関するレポートが表示されます。
- 補完された数値
- Numeric data cleansing
- Ordinal encoding of categorical variables
- Categorical Embedding
- Category Count
- One-hot Encoding
- カテゴリー型特徴量のVWエンコーディング
補完情報¶
データ変換情報列で返されるタスク情報には以下が含まれます。
-
タスクの名前。
-
欠損値の代わりに挿入された補完値。 補完に使用する値の割り当て方法は、補完タスクごとに異なります。 場合によっては、高度なチューニングタブで有効にすることができます。
-
DataRobotで欠損インジケーター特徴量が作成された場合の
Missing indicator treated as feature
メッセージ。 これは、元の特徴量で値が欠損していた行に1が補完され、値のあった行に0が補完されて、新しい特徴量がブループリント内に作成されたことを示します。 欠損値を含む行のパターンが予測できる場合、モデルに入力するときに精度を上げることができます。 -
カテゴリー特徴量のみ 欠損値が非頻出値として扱われた場合、
Missing values treated as infrequent
が表示されます。 これは、欠損値が、その行に将来あまり頻繁に発生しないカテゴリー値があったかのように処理されたことを示します。 カテゴリー特徴量の非頻出値の処理方法は、ブループリントごとに異なることがあります。 -
カテゴリー特徴量のみ 非頻出値が 欠損値として扱われた場合、
Infrequent values treated as missing
が表示されます。 これは、非頻出値を含む行が、その行にその特徴量の欠損値があったかのように処理されたことを示します。 -
カテゴリー特徴量のみ カテゴリー特徴量では、欠損値が無視された場合、
Missing values ignored
が表示されます。