EDAインサイト¶
EDA(探索的データ解析)は、DataRobotでデータセットを解析してその主要な特性のサマリーを作成するためのアプローチです。 There are two stages of EDA—EDA1 and EDA2. DataRobot runs EDA1 prior to modeling when a dataset is added to the Data Registry for the first time, and as part of EDA, generates summary statistics based on a sample of your data and assesses the All Features list to detect common data quality issues.
以下は、1GB未満のデータセットに対するDataRobotモデルの構築プロセスを表しています。
- Import a dataset to DataRobot, registering it in the Data Registry.
- DataRobotによってEDA1が起動されます(日付型の特徴量が検出された場合は、特徴量の変換が自動的に作成されます)。
- 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。
- セカンダリーデータセットをロードします。
- セカンダリーデータセットから特徴量を探索します。
- 探索結果から新しい特徴量を生成します。
- 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。
- Upon completion of EDA1, insights are displayed on the Features tab of the data explore page.
Where can I view EDA2 insights?
Because EDA2 is target-aware, insights are only generated after setting up and running an experiment with a dataset, however, these insights are not currently supported in Workbench. The only exception is the Feature lineage insight for Feature Discovery datasets.
EDA1¶
DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。 拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。
EDA1では以下の要素が返されます。
分析タイプ | 分析します |
---|---|
自動データスキーマとデータ型 |
|
データの視覚化 |
|
データ品質チェック |
インサイト¶
データの準備は反復プロセスです。 Even if you clean and prep your training data prior to uploading it to DataRobot, you can still improve its quality by assessing features using the insights generated as a result of EDA1. To access these insights:
- In your Use Case, click the Actions menu > Explore next to a registered dataset, opening the data explore page.
-
Open the Features tab on the left.
-
Click a feature—a panel opens displaying additional summary metrics for the feature at the top, as well as tabs for each available insight.
The table below describes which insights are available after EDA1 based on the data type:
インサイト 説明 Supported data type ヒストグラム 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 数値、集計されたカテゴリー型特徴量、多カテゴリー 頻出値 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 数値、分類、テキスト、ブール型 表 特徴量の値とその発生数の表が表示されます。 表示される値の先頭にスペースが含まれる場合、その旨を示すタグ(先頭にスペース)が表示されます。 これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル 例示 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 See also the summarized categorical insight differences. 集計されたカテゴリー型特徴量 概要 Presents the top 50 most frequent keys for your feature. 集計されたカテゴリー型特徴量 特徴量の系統 Provides a visual description of how the feature was derived and the datasets that were involved in the feature derivation process. Feature Discovery datasets only
データ品質チェック¶
As part of EDA1, DataRobot automatically detects and surfaces common data quality issues and, often, handles them with minimal or no action on the part of the user. 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 Note that these checks are only run on features that don’t require date/time or target information (see the table above for a full list of data quality checks).
To check for data quality issues:
- After registration is complete, select the dataset to open the data explore page.
-
Open the Features tab on the left. The Data quality column indicates if DataRobot detected a data quality issue with the feature.
-
Hover over the icon to learn which check failed, and then you can use the exploratory data insights to correct them.