データ品質評価¶
データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。
EDA1の一部として、DataRobotは、日付/時刻やターゲット情報を必要としない特徴量でチェックを実行します。 EDA2が起動すると、追加のチェックが実行されます。 最終的に、次のチェックが実行されます。
DataRobotでは、常に以下のベースラインデータ品質チェックが実行されます。
- 外れ値
- 多カテゴリー形式エラー
- インライア
- 過剰なゼロ
- 偽装欠損値
- ターゲットリーケージ
- 欠損画像(Visual Artificial Intelligence (AI)エクスペリメントの場合)
時系列エクスペリメントでは、ベースラインデータを対象としたすべての品質チェックに加えて、以下のチェックが行われます。
- 補完リーケージ
- 事前に派生したラグ特徴量
- 不規則な時間ステップ(一貫性のないギャップ)
- 先行または後続ゼロ
- まれな負の値
- 検定の新しい系列
Visual Artificial Intelligence(AI)エクスペリメントのデータ品質評価では、同じベースラインチェックと追加の欠損画像チェックが実行されます。
関連リファレンス
このページで説明されているトピックの詳細については、以下を参照してください。
- EDAの説明:DataRobotによるEDAの処理方法に関する詳細な説明。
- データ品質チェック:各データ品質チェックの詳細な説明、およびそれぞれの背後にあるロジックの概要。
- 機能に関する注意事項:データ品質に関する重要な追加情報。
データ品質評価を行う場所¶
データ品質評価は、モデル構築のステージに関連するデータ品質の問題に関する情報を提供します。 最初はEDA1(データ取込み)の一部として実行され、すべての特徴量セットに結果が表示されます。 再度実行されてEDA2の後に更新され、選択された特徴量セット(または、デフォルトでは、すべての特徴量)の情報が表示されます。 個々の特徴量に適用できないチェック(一貫性のないギャップなど)の場合、レポートは一般的なサマリーを提供します。
データ品質評価には、ワークベンチの次の2つの領域からアクセスできます。
ワークベンチのユースケースで、データセットを開き、データプレビューまたは特徴量タイルを選択します。 その後、サマリーを表示をクリックします。 この評価では、EDA1の過程で明らかになったデータ品質チェックの結果が表示されます。
ワークベンチのユースケースで、エクスペリメントを開き、データプレビューまたは特徴量タイルを選択します。 その後、サマリーを表示をクリックします。 この評価では、EDA2の過程で明らかになったデータ品質チェックの結果が表示されます。
モデルの構築が完了した後、 データ品質処理レポートで追加の補完情報を表示できます。
ターゲットリーケージの特定
EDA2の計算時に、DataRobotはターゲットリーケージをチェックします。ターゲットリーケージは、予測時にその値を知ることができない特徴量を指し、過度に楽観的なモデルにつながります。 これらの特徴量の横にはバッジが表示されるため、簡単に識別して新しい特徴量セットから除外できます。
評価の調査¶
前のセクションに記載されている領域のいずれかについてデータ品質評価を確認するには、サマリーを表示をクリックします(すでに開いている場合、ボタンにはサマリーを表示しないと表示されます)。
次に、詳細を表示をクリックして詳細なレポートを開きます。
各データ品質チェックは、問題のステータスフラグ、問題の短い説明、および推奨メッセージ(適切な場合)を提供します。
| ステータス | 説明 |
|---|---|
| Warning | 注意または対応が必要です |
| Informational | 対応は不要です |
| Passing | 問題は検出されませんでした |
データ品質に問題のある特徴量を特定する¶
評価モーダル内から、問題のタイプでフィルターして、チェックをトリガーした特徴量を確認できます。 影響を受ける特徴量だけを表示をオンに切り替え、チェック名の横にあるチェックボックスを選択して、表示するチェックを選択します。
選択した特徴量セット内で、選択したデータ品質チェックに違反している特徴量だけが表示されます。 アイコンにカーソルを合わせると、詳細が表示されます。
多ラベルおよびVisual Artificial Intelligence (AI)エクスペリメントの場合、評価により、データセット内に多カテゴリー形式エラー または欠損画像が検出された場合は、プレビューログが上部に表示されます。 プレビューログをクリックすると、各エラーの詳細ビューが表示されたウィンドウが開き、データセット内のエラーを簡単に見つけて修正できます。
データ品質チェックの表示¶
データ品質に問題がないか、個々の特徴量をチェックするには:
- ユースケースから、表示したいデータセットまたはエクスペリメントをクリックします。
-
左側の特徴量タイルを開きます。 データ品質列は、DataRobotが特徴量でデータ品質の問題を検出したかどうかを示します。
-
アイコンにカーソルを合わせると、どのチェックに失敗したかがわかります。 その後、探索的データインサイトを利用して修正することができます。
結果は特徴量セットに基づいているため、選択された特徴量セットを変更すると、新しいチェックが表示されたり、現在のチェックが評価から消えたりする可能性があります。 たとえば、特徴量セットList 1に外れ値を含む特徴量problemが含まれる場合、評価には外れ値チェックが表示されます。 セットをproblem(または外れ値を持つ他の特徴量)が含まれないList 2に変更すると、外れ値チェックで「問題なし」 と報告されます。





