Skip to content

データ品質評価

データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。

EDA1の一部として、DataRobotは、日付/時刻やターゲット情報を必要としない特徴量でチェックを実行します。 EDA2が起動すると、追加のチェックが実行されます。 最終的に、次のチェックが実行されます。

DataRobotでは、常に以下のベースラインデータ品質チェックが実行されます。

時系列エクスペリメントでは、ベースラインデータを対象としたすべての品質チェックに加えて、以下のチェックが行われます。

Visual Artificial Intelligence(AI)エクスペリメントのデータ品質評価では、同じベースラインチェックと追加の欠損画像チェックが実行されます。

Related reference

このページで説明されているトピックの詳細については、以下を参照してください。

Data Quality Assessment locations

データ品質評価は、モデル構築のステージに関連するデータ品質の問題に関する情報を提供します。 最初はEDA1(データ取込み)の一部として実行され、すべての特徴量セットに結果が表示されます。 再度実行されてEDA2の後に更新され、選択された特徴量セット(または、デフォルトでは、すべての特徴量)の情報が表示されます。 個々の特徴量に適用できないチェック(一貫性のないギャップなど)の場合、レポートは一般的なサマリーを提供します。

You can access a Data Quality Assessment from two areas in Workbench:

In a Workbench Use Case, open a dataset and select either the Data preview or Features tile. Then, click Show summary. This assessment displays data quality checks surfaced during EDA1.

In a Workbench Use Case, open an experiment and select either the Data preview or Features tile. Then, click Show summary. This assessment displays data quality checks surfaced during EDA2.

モデルの構築が完了した後、 データ品質処理レポートで追加の補完情報を表示できます。

ターゲットリーケージの特定

EDA2の計算時に、DataRobotはターゲットリーケージをチェックします。ターゲットリーケージは、予測時にその値を知ることができない特徴量を指し、過度に楽観的なモデルにつながります。 これらの特徴量の横にはバッジが表示されるため、簡単に識別して新しい特徴量セットから除外できます。

評価の調査

To view the Data Quality Assessment from one of the areas listed in the previous section, click Show summary (unless it is already open, then the button displays Hide summary).

次に、詳細を表示をクリックして詳細なレポートを開きます。

各データ品質チェックは、問題のステータスフラグ、問題の短い説明、および推奨メッセージ(適切な場合)を提供します。

ステータス 説明
Warning 注意または対応が必要です
Informational 対応は不要です
Passing 問題は検出されませんでした

Isolate features with data quality issues

評価モーダル内から、問題のタイプでフィルターして、チェックをトリガーした特徴量を確認できます。 影響を受ける特徴量だけを表示をオンに切り替え、チェック名の横にあるチェックボックスを選択して、表示するチェックを選択します。

選択した特徴量セット内で、選択したデータ品質チェックに違反している特徴量だけが表示されます。 アイコンにカーソルを合わせると、詳細が表示されます。

多ラベルおよびVisual Artificial Intelligence (AI)エクスペリメントの場合、評価により、データセット内に多カテゴリー形式エラー または欠損画像が検出された場合は、プレビューログが上部に表示されます。 プレビューログをクリックすると、各エラーの詳細ビューが表示されたウィンドウが開き、データセット内のエラーを簡単に見つけて修正できます。

View data quality checks

データ品質に問題がないか、個々の特徴量をチェックするには:

  1. From the Use Case, click on the dataset or experiment you want to view.
  2. 左側の特徴量タイルを開きます。 データ品質列は、DataRobotが特徴量でデータ品質の問題を検出したかどうかを示します。

  3. Hover over the icon to learn which check failed. You can then use the exploratory data insights to correct them.

結果は特徴量セットに基づいているため、選択された特徴量セットを変更すると、新しいチェックが表示されたり、現在のチェックが評価から消えたりする可能性があります。 たとえば、特徴量セットList 1に外れ値を含む特徴量problemが含まれる場合、評価には外れ値チェックが表示されます。 セットをproblem(または外れ値を持つ他の特徴量)が含まれないList 2に変更すると、外れ値チェックで「問題なし」 と報告されます。