EDAインサイト¶
EDA(探索的データ解析)は、DataRobotでデータセットを解析してその主要な特性のサマリーを作成するためのアプローチです。 EDAにはEDA1とEDA2には2つの段階があります。DataRobotは、データセットが最初にデータレジストリに追加される際には、モデリングの前にEDA1を実行します。EDAの一部として、データのサンプルに基づいてサマリー統計を生成し、すべての特徴量セットを評価して、一般的なデータ品質の問題を検出します。
以下は、1GB未満のデータセットに対するDataRobotモデルの構築プロセスを表しています。
- データセットをDataRobotにインポートし、データレジストリに登録します。
- DataRobotによってEDA1が起動されます(日付型の特徴量が検出された場合は、特徴量の変換が自動的に作成されます)。
- 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。
- セカンダリーデータセットをロードします。
- セカンダリーデータセットから特徴量を探索します。
- 探索結果から新しい特徴量を生成します。
- 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。
- EDA1が完了すると、データ探索ページの特徴量タブにインサイトが表示されます。
EDA2のインサイトはどこで表示できますか?
EDA2はターゲット認識であるため、インサイトはデータセットでエクスペリメントを設定して実行した後にのみ生成されますが、これらのインサイトは現在、ワークベンチではサポートされていません。 唯一の例外は、特徴量探索データセットの特徴量の系統インサイトです。
EDA1¶
DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。 拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。
EDA1では以下の要素が返されます。
インサイト¶
データの準備は反復プロセスです。 DataRobotにアップロードする前にトレーニングデータをクリーニングして準備したとしても、EDA1の結果として生成されたインサイトを使用して特徴を評価することで、その品質を向上させることができます。これらのインサイトにアクセスするには、
- ユースケースで、登録済みデータセットの横にあるアクションメニュー > 探索をクリックして、データ探索ページを開きます。
-
左側の特徴量タブを開きます。
-
パネルが開く特徴量をクリックすると、その特徴量の追加のサマリー指標が上部に表示され、使用可能な各インサイトのタブも表示されます。
以下の表は、データ型に基づいてEDA1の後に利用できるインサイトを示しています。
インサイト 説明 サポートされているデータ型 ヒストグラム 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 数値、集計されたカテゴリー型特徴量、多カテゴリー 頻出値 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 数値、分類、テキスト、ブール型 表 特徴量の値とその発生数の表が表示されます。 表示される値の先頭にスペースが含まれる場合、その旨を示すタグ(先頭にスペース)が表示されます。 これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル 例示 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 要約されたカテゴリー別のインサイトの違いも参照してください。 集計されたカテゴリー型特徴量 概要 特徴量で最も頻繁に使用される上位50のキーを表示します。 集計されたカテゴリー型特徴量 特徴量の系統 特徴量がどのように派生したかを示す視覚的な説明と特徴量の派生プロセスで使用されたデータセットを表示します。 特徴量探索データセットのみ
データ品質チェック¶
EDA1の一環として、DataRobotは一般的なデータ品質の問題を自動的に検出し、それらの多くをユーザーの手間をほとんどかけず、または全くかけずに処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これらのチェックは、日付/時刻やターゲット情報を必要としない特徴量に対してのみ実行されることに注意してください(データ品質チェックの完全なリストについては、上の表を参照してください)。
データ品質の問題をチェックするには:
- 登録が完了したら、データセットを選択してデータ探索ページを開きます。
-
左側の特徴量タブを開きます。 データ品質列は、DataRobotが特徴量でデータ品質の問題を検出したかどうかを示します。
-
アイコンにカーソルを合わせると、どのチェックが失敗したかを知ることができます。その後、探索的データインサイトを使用して訂正できます。