Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データ品質評価

データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。

その他の重要情報については、関連する注意事項を参照してください。

EDA1の一部として、DataRobotは、日付/時刻やターゲット情報を必要としない特徴量でチェックを実行します。 EDA2が起動すると、追加のチェックが実行されます。 最終的に、次のチェックが実行されます。

時系列プロジェクトは、すべてのベースラインデータ品質チェックと以下のチェックを実行します。

Visual Artificial Intelligence(AI)プロジェクトのデータ品質評価では、同じベースラインチェックと追加の欠損画像チェックが実行されます。

EDA1が完了すると、データ品質評価がデータページの特徴量セットの上に表示されます。

ベースラインのデータ品質評価に加えて、DataRobotでは、時系列およびVisual Artificial Intelligence(AI)プロジェクトの追加の詳細も表示されます。 モデルの構築が完了した後、 データ品質処理レポートで追加の補完情報を表示できます。

概要

データ品質評価は、モデル構築のステージに関連するデータ品質の問題に関する情報を提供します。 最初はEDA1(データ取込み)の一部として実行され、すべての特徴量セットに結果が表示されます。 再度実行されてEDA2の後に更新され、選択された特徴量セット(または、デフォルトでは、すべての特徴量)の情報が表示されます。 個々の特徴量に適用できないチェック(一貫性のないギャップなど)の場合、レポートは一般的なサマリーを提供します。 情報を表示をクリックするとレポートが表示されます(情報を閉じるをクリックすると情報が閉じます)。

各データ品質チェックは、問題のステータスフラグ、問題の短い説明、および推奨メッセージ(適切な場合)を提供します。

  • 警告():注意または必要なアクション

  • 情報():必要なアクションはありません

  • 問題なし(

結果は特徴量セットに基づくので、データページで選択した特徴量セットを変更すると、新しいチェックが表示されるか、現在のチェックが評価から消えます。 たとえば、特徴量セットList 1に外れ値を含む特徴量problemが含まれる場合、評価には外れ値チェックが表示されます。 リストを、problem(または外れ値のあるその他の特徴量)が含まれていないList 2に変更した場合、外れ値チェックでは「問題なし」()とレポートされます。

評価モーダル内から、問題のタイプでフィルターして、チェックをトリガーした特徴量を確認できます。 影響を受ける特徴量だけを表示をオンに切り替え、チェック名の横にあるチェックボックスを選択して、表示するチェックを選択します。

データページの選択した特徴量セット内で、選択したデータ品質チェックに違反する特徴量だけが表示されます。 アイコンにカーソルを合わせると詳細が表示されます。

多ラベルおよびVisual Artificial Intelligence (AI)プロジェクトの場合、評価により、データセット内に多カテゴリー形式エラー または欠損画像が検出された場合は、プレビューログが上部に表示されます。 プレビューログをクリックすると、各エラーの詳細ビューが表示されたウィンドウが開き、データセット内のエラーを簡単に見つけて修正できます。

評価の調査

EDA1が完了し、表示をフィルタしたら、調査対象の問題によって影響を受ける特徴量セットを表示します。 警告または情報通知をトリガーした値を確認するには、特徴量を展開して、ヒストグラムおよび頻出値の可視化をレビューします。

このページで説明されているトピックの詳細については、以下を参照してください。

機能に関する注意事項

データ品質評価機能を使用する場合は、以下の点に注意してください。

  • 偽装欠損値、インライア、および過剰なゼロの問題の場合、自動化処理は、モデルエラーが削減することが証明されている線形やKerasブループリントに対してのみ有効化されます。 検出は、すべてのブループリントに適用されます。
  • 自動化された補完処理は無効化できません。
  • パブリックAPIはまだ利用できません。
  • 自動化された特徴量エンジニアリングは、(ローリング平均を計算する前に、すべての過剰なゼロと偽装された欠損値を削除するのではなく)元のデータに対して実行されます。

更新しました February 6, 2024