探索的データ解析(EDA)¶
EDA(探索的データ解析)は、DataRobotでデータセットの解析およびその主要な特性のサマリーを作成するためのアプローチです。一般的に、EDAにはEDA1とEDA2という2つのステージがあります。EDA1は、データのサンプルに基づくサマリー統計を提供します。EDA2は、モデル構築に使用されるステップであり、選択したオプション(下記)に基づいてデータセット全体を使用します。
一般的に、1GB未満のデータセットでのDataRobotモデル構築プロセスは次のとおりです。
- データセットをインポートします。
- DataRobotでEDA1が開始されます(日付型特徴量が検出された場合は、特徴量の変換が自動的に行われます)。
-
EDA1が完了したら、ターゲットを選択し、開始をクリックします。
-
データが分割されます。
- DataRobotはEDA2を起動し、その処理が完了すると、モデルの構築を開始します。
EDA1¶
DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。
備考
大規模なデータセットの場合、EDA1中に高速EDAが実行され、入力データセットの一定量だけを使用して早期ターゲットの選択が計算されます。使用されたデータの近似パーセンテージを示すメッセージが表示されます。大規模データセットの早期ターゲットセクションの詳細情報を参照してください。
EDA1では以下の要素が返されます。
- 特徴量のタイプ(数値、分類、ブール型、画像、テキストに加えて、特殊な特徴量のタイプである日付、通貨、パーセンテージ、長さ)
- 数値の場合、数値統計(平均値、標準偏差、中央値、最小値、最大値)
- 上位50項目の頻度分布
- モデリングための列検定(空ではなく重複なし)
EDA2¶
EDA1に使用したデータの部分に対してEDA2が計算されますが、プロジェクトのホールドアウトデータにも含まれる行(ホールドアウトがある場合)およびターゲットがN/A
である行は除外されます。データセット全体を使用してターゲット列にも追加の計算が実行されます。
EDA2では以下の要素が返されます。
- EDA1で行われた数値統計の再計算
- ターゲットに対する特徴量の相関(初期特徴量の有用性の計算)使用するターゲットデータは、その他のすべての列に使用されたサンプル部分からのものです。
以下の列タイプは「無効/非有益」としてフラグが設定され、変換できません。 モデリングにも使用されません。
- 重複する列
- 空の列およびモデリングを行うための十分なデータが欠如している列
- ユニーク数の識別子だけを含む列(リファレンスID列)
- モデリングを行うには値が多すぎる値の分布を伴う数値以外の列