Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データ品質処理レポート

データ品質処理レポートは、選定前のブループリントが有効になっている場合にのみ使用できます。

レポートには、トレーニングデータに基づく次の情報が含まれます。

フィールド 説明
特徴量名 特徴量名が表示されます。データセット内の各特徴量に加えて、変換済み特徴量およびOTVの派生した特徴量も一覧表示されます。
特徴量の型 特徴量のvariable type(特徴量の型)。
行数 トレーニングデータに特徴量が欠損している行の数がレポートされます。列見出しをクリックすると、並べ替え順を変更できます。
パーセンテージ トレーニングデータに特徴量が欠損している行の数がパーセンテージとしてレポートされます。列見出しをクリックすると、並べ替え順を変更できます。
データ変換情報 特徴量に適用された補完タスクに加えて、適用された値がリストされます。1つ以上の補完タスクが適用される場合、すべてのタスクがリストされます。

さらに、以下の操作を行うことができます。

  • 検索を使用して特定の特徴量を検索する。
  • 列ヘッダーでフィルタします。

サポートされるタスク

「データ品質処理レポート」タブには、サポートされている以下のタスクに関するレポートが表示されます。

  • 補完された数値
  • 数値データのクレンジング
  • カテゴリー型特徴量のオリジナルエンコーディング
  • カテゴリーエンベディング
  • カテゴリーカウント
  • ワンホットエンコーディング
  • カテゴリー型特徴量のVWエンコーディング

補完情報

データ変換情報列で返されるタスク情報には以下が含まれます。

  • タスクの名前。

  • 欠損値の代わりに挿入された補完値。補完に使用する値の割り当て方法は、補完タスクごとに異なります。場合によっては、高度なチューニングタブで有効にすることができます。

  • 欠損値インジケーター特徴量が作成された場合、Missing indicator treated as featureが表示されます。これは、元の特徴量で値が欠損していた行に1が補完され、値のあった行に0が補完されて、新しい特徴量がブループリント内に作成されたことを示します。欠損値を含む行のパターンが予測できる場合、モデルに入力するときに精度を上げることができます。

  • (カテゴリー特徴量のみ)欠損値が非頻出値として扱われた場合、Missing values treated as infrequentが表示されます。これは、欠損値が、その行に将来あまり頻繁に発生しないカテゴリー値があったかのように処理されたことを示します。カテゴリー特徴量の非頻出値の処理方法は、ブループリントごとに異なることがあります。

  • (カテゴリー特徴量のみ)非頻出値が 欠損値として扱われた場合、Infrequent values treated as missingが表示されます。これは、非頻出値を含む行が、その行にその特徴量の欠損値があったかのように処理されたことを示します。

  • カテゴリー特徴量では、欠損値が無視された場合、Missing values ignoredが表示されます。


更新しました September 28, 2022
Back to top