探索的データ解析(EDA)¶
EDA(探索的データ解析)は、DataRobotでデータセットを解析してその主要な特性のサマリーを作成するためのアプローチです。 一般的に、EDAにはEDA1とEDA2という2つの段階があります。EDA1は、データのサンプルに基づくサマリー統計を提供します。 EDA2はモデル構築に使用されるステップで、選択したオプションに基づいてデータセット全体が使用されます(以下参照)。
以下は、1GB未満のデータセットに対するDataRobotモデルの構築プロセスを表しています。
- データセットをインポートします。
- DataRobotによってEDA1が起動されます(日付型の特徴量が検出された場合は、特徴量の変換が自動的に作成されます)。
-
EDA1が完了したら、ターゲットを選択し、開始をクリックします。
-
データが分割されます。
- DataRobotはEDA2を起動し、その処理が完了すると、モデルの構築を開始します。
次の表に、EDAのコンポーネントを示します。
分析タイプ | 分析対象... |
---|---|
自動データスキーマとデータ型 |
|
データの視覚化 |
|
データ品質チェック |
|
特徴量の関連性の行列 | 指標 を使用して数値データとカテゴリーデータをサポートします。
|
EDA1¶
DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。 拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。
備考
大規模なデータセットの場合、EDA1中に高速EDAが実行され、入力データセットの一定量だけを使用して早期ターゲットの選択が計算されます。 使用されたデータの近似パーセンテージを示すメッセージが表示されます。 大規模データセットの早期ターゲットセクションの「詳細情報」を参照してください。
EDA1では以下の要素が返されます。
-
特徴量タイプ
- 数値
- カテゴリー
- ブーリアン
- 画像
- テキスト
-
特殊な特徴量タイプ
- 日付
- 通貨
- パーセンテージ
- Length
-
数値の場合、数値統計
- 平均
- 標準偏差
- 中央値
- 最小
- 最大
-
上位50項目の頻度分布
- モデリングための列検定(空ではなく重複なし)
EDA2¶
EDA1に使用したデータの部分に対してEDA2が計算されますが、プロジェクトのホールドアウトデータにも含まれる行(ホールドアウトがある場合)およびターゲットがN/A
である行は除外されます。 データセット全体を使用してターゲット列にも追加の計算が実行されます。
EDA2では以下の要素が返されます。
- EDA1で行われた数値統計の再計算。
- ターゲットに対する特徴量の相関(初期特徴量の有用性の計算)。 使用するターゲットデータは、その他のすべての列に使用されたサンプル部分からのものです。
以下の列タイプは「無効/非有益」としてフラグが設定され、変換できません。モデリングにも使用されません。
- 重複する列。
- 空の列およびモデリングを行うための十分なデータが欠如している列。
- 固有の識別子だけを含む列(リファレンスID列)。