Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

探索的データ解析(EDA)

EDA(探索的データ解析)は、DataRobotでデータセットの解析およびその主要な特性のサマリーを作成するためのアプローチです。一般的に、EDAにはEDA1とEDA2という2つのステージがあります。EDA1は、データのサンプルに基づくサマリー統計を提供します。EDA2は、モデル構築に使用されるステップであり、選択したオプション(下記)に基づいてデータセット全体を使用します。

一般的に、1GB未満のデータセットでのDataRobotモデル構築プロセスは次のとおりです。

  1. データセットをインポートします。
  2. DataRobotでEDA1が開始されます(日付型特徴量が検出された場合は、特徴量の変換が自動的に行われます)。
  3. EDA1が完了したら、ターゲットを選択し、開始をクリックします。

    • 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。

      • セカンダリーデータセットをロードします。
      • セカンダリーデータセットから特徴量を探索します。
      • 探索結果から新しい特徴量を生成します。
    • 時系列プロジェクトの場合、DataRobotは特徴量派生プロセスを適用して、最終的な特徴量を作成します。

  4. データが分割されます。

  5. DataRobotはEDA2を起動し、その処理が完了すると、モデルの構築を開始します。

EDA1

DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。

備考

大規模なデータセットの場合、EDA1中に高速EDAが実行され、入力データセットの一定量だけを使用して早期ターゲットの選択が計算されます。使用されたデータの近似パーセンテージを示すメッセージが表示されます。大規模データセットの早期ターゲットセクションの詳細情報を参照してください。

EDA1では以下の要素が返されます。

  • 特徴量のタイプ(数値、分類、ブール型、画像、テキストに加えて、特殊な特徴量のタイプである日付、通貨、パーセンテージ、長さ)
  • 数値の場合、数値統計(平均値、標準偏差、中央値、最小値、最大値)
  • 上位50項目の頻度分布
  • モデリングための列検定(空ではなく重複なし)

EDA2

EDA1に使用したデータの部分に対してEDA2が計算されますが、プロジェクトのホールドアウトデータにも含まれる行(ホールドアウトがある場合)およびターゲットがN/Aである行は除外されます。データセット全体を使用してターゲット列にも追加の計算が実行されます。

EDA2では以下の要素が返されます。

  • EDA1で行われた数値統計の再計算
  • ターゲットに対する特徴量の相関(初期特徴量の有用性の計算)使用するターゲットデータは、その他のすべての列に使用されたサンプル部分からのものです。

以下の列タイプは「無効/非有益」としてフラグが設定され、変換できません。 モデリングにも使用されません。

  • 重複する列
  • 空の列およびモデリングを行うための十分なデータが欠如している列
  • ユニーク数の識別子だけを含む列(リファレンスID列)
  • モデリングを行うには値が多すぎる値の分布を伴う数値以外の列

更新しました February 22, 2022
Back to top