Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

探索的データ解析(EDA)

EDA(探索的データ解析)は、DataRobotでデータセットを解析してその主要な特性のサマリーを作成するためのアプローチです。 一般的に、EDAにはEDA1とEDA2という2つの段階があります。EDA1は、データのサンプルに基づくサマリー統計を提供します。 EDA2はモデル構築に使用されるステップで、選択したオプションに基づいてデータセット全体が使用されます(以下参照)。

以下は、1GB未満のデータセットに対するDataRobotモデルの構築プロセスを表しています。

  1. データセットをインポートします。
  2. DataRobotによってEDA1が起動されます(日付型の特徴量が検出された場合は、特徴量の変換が自動的に作成されます)。
  3. EDA1が完了したら、ターゲットを選択し、開始をクリックします。

    • 特徴量探索プロジェクトの場合、DataRobotは以下の処理を行います。

      • セカンダリーデータセットをロードします。
      • セカンダリーデータセットから特徴量を探索します。
      • 探索結果から新しい特徴量を生成します。
    • 時系列プロジェクトの場合、DataRobotは特徴量派生プロセスを適用して、最終的な特徴量を作成します。

  4. データが分割されます。

  5. DataRobotはEDA2を起動し、その処理が完了すると、モデルの構築を開始します。

次の表に、EDAのコンポーネントを示します。

分析タイプ 分析対象...
自動データスキーマとデータ型
  • 数値(数値統計、平均値、標準偏差、中央値、最小値、最大値)
  • カテゴリー
  • ブーリアン
  • テキスト
  • 特殊な特徴量タイプ、日付
  • 通貨
  • パーセンテージ
  • Length
  • 画像
  • 地理空間ポイント
  • 地理空間ラインまたはポリゴン
データの視覚化
  • ヒストグラム
  • 上位50項目の頻度分布
  • 時間の経過
  • モデリングための列検定(空ではなく重複なし)
  • 平均値
  • 外れ値
  • ターゲットへの特徴量の相関
データ品質チェック
  • インライア
  • 外れ値
  • 偽装欠損値
  • 過剰なゼロ
  • ターゲットリーケージ
  • 欠損画像
  • 重複画像
特徴量の関連性の行列 指標
を使用して数値データとカテゴリーデータをサポートします。
  • 共通情報
  • クラメールのV
  • ピアソン
  • スピアマン

EDA1

DataRobotでは、適用可能な変換または拡張の後、最大500 MBまでのデータセットに対してEDA1が計算されます。 拡張済みのデータセットが500 MB未満の場合、データセット全体が使用されます。500 MB以上の場合は、500 MBのランダムサンプルが使用されます(データセットが500 MB以上の場合は500 MB相当のランダムサンプリングが取得されます)。

備考

大規模なデータセットの場合、EDA1中に高速EDAが実行され、入力データセットの一定量だけを使用して早期ターゲットの選択が計算されます。 使用されたデータの近似パーセンテージを示すメッセージが表示されます。 大規模データセットの早期ターゲットセクションの「詳細情報」を参照してください。

EDA1では以下の要素が返されます。

  • 特徴量タイプ

    • 数値
    • カテゴリー
    • ブーリアン
    • 画像
    • テキスト
  • 特殊な特徴量タイプ

    • 日付
    • 通貨
    • パーセンテージ
    • Length
  • 数値の場合、数値統計

    • 平均
    • 標準偏差
    • 中央値
    • 最小
    • 最大
  • 上位50項目の頻度分布

  • モデリングための列検定(空ではなく重複なし)

EDA2

EDA1に使用したデータの部分に対してEDA2が計算されますが、プロジェクトのホールドアウトデータにも含まれる行(ホールドアウトがある場合)およびターゲットがN/Aである行は除外されます。 データセット全体を使用してターゲット列にも追加の計算が実行されます。

EDA2では以下の要素が返されます。

  • EDA1で行われた数値統計の再計算。
  • ターゲットに対する特徴量の相関(初期特徴量の有用性の計算)。 使用するターゲットデータは、その他のすべての列に使用されたサンプル部分からのものです。

以下の列タイプは「無効/非有益」としてフラグが設定され、変換できません。モデリングにも使用されません。

  • 重複する列。
  • 空の列およびモデリングを行うための十分なデータが欠如している列。
  • 固有の識別子だけを含む列(リファレンスID列)。

更新しました 2023年9月13日