Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

EDAによるデータ品質の評価

DataRobotでの探索的データ解析(EDA)の実行方法と、EDA(EDA1およびEDA2)の各段階でデータの品質を評価する方法を紹介します。

データの準備は反復プロセスです。 DataRobotにアップロードする前にトレーニングデータをクリーンアップして準備しても、EDA中に特徴量を評価することで品質を向上させることができます。

このページに表示されるサンプルデータセットには、患者データが含まれています。 その目的は、患者の再入院の可能性を予測することです。 ターゲット特徴量はreadmittedです。

EDAの段階

EDAの間、DataRobotはデータ品質評価を実行します。 評価は、実行中のモデル構築段階に関連するデータ品質問題についての情報を提供します。 次のタブのいずれかをクリックして、2つのEDAステージについてご覧ください。


データをアップロードすると、EDA1(データ取込み)が発生します。 EDA1はすべての特徴量セットを評価し、次のような問題を検出します。

EDA1の詳細については、 探索的データ解析をご覧ください。


データページで開始をクリックすると、DataRobotは再度EDAを実行します。 この段階では、DataRobotは ターゲットリーケージや特徴量とターゲット間の非線形相関を検出し、 特徴量の有用性を分析するのに役立ちます。 EDA2は、選択した特徴量セットをレポートします。 特徴量セットが選択されていない場合、EDA2はデフォルトのすべての特徴量セットをレポートします。

EDA2の詳細については、 探索的データ解析をご覧ください。

データセットをロードして表示する

データセットをロードし、新規プロジェクトを作成し、初期EDAを実行し、データのサンプルに基づいてサマリー統計を生成します。 右側のワーカーキューで進捗を表示します。

大規模データセットを操作する

DataRobotが、いかに大規模なデータセットを処理するかについては、 高速EDAを参照してください。

データをインポートしたら、データを参照をクリックするか下にスクロールして、データセット内の特徴量を表示します。

特徴量が表示され、サマリー情報と統計が提供されます。

ラベル 説明
1 特徴量の型 DataRobotがEDA中に特徴量に対して識別するデータ型。たとえば、数値、カテゴリー、ブーリアン、画像、テキスト、および日付などの特殊な特徴量型。
2 ユニーク数 特徴量の一意の値の数。
3 欠損 特徴量の欠損値の数。
4 平均、標準偏差、中央値、最小、最大 DataRobotは、数値特徴量についてこれらの統計を計算します。

EDA1後のデータ品質の評価

EDA1は、モデリング開始前にデータの問題を把握するのに役立ちます。

  1. 特徴量セットの上と右側にある、情報を表示をクリックします。

    データ品質評価ドロップダウンメニューが表示されます。

    ヒント

    データ品質評価では、以下の問題ステータスフラグが表示されます。

    • 警告: 注意またはアクションが必要です。
    • 情報:必要なアクションはありません。
    • 問題なし

  2. (Optional) Click Filter affected features by type of issue detected and select particular issues to search for.

  3. 下にスクロールして、問題のある特徴量を見つけます。

    特徴量に問題がある場合、問題ステータスフラグがデータ品質列に表示されます。 フラグにカーソルを合わせると、問題のタイプが表示されます。

  4. 問題ステータスフラグが表示されている特徴量をクリックしてから、ヒストグラム、頻出値、特徴量の関連性などのツールを使用して、さらに探索します。

EDA2後のデータ品質の評価

ターゲットを設定し、モデリングプロセスを開始すると、EDA2が開始されます。

  1. 何を予測しますか?で、ターゲット特徴量を入力します。

    モデリングモード

    モードをデフォルトのクイックオートパイロットに設定したままにすることも、別の モデリングモードを選択することもできます。 モデリング設定をカスタマイズすることもできます。

  2. 開始をクリックします。

    DataRobotは、多くの処理ステップを実行します。 ワーカーキューのステップを監視します。

    DataRobotで特徴量の分析が終了すると、特徴量の有用性を確認できます。 DataRobotは、ブループリントの生成を継続します。

特徴量の有用性の調査

有用性バーは、特徴量がターゲットと相関している度合いを示します。 有用性は、変数の情報内容を測定するアルゴリズムを使用して計算されます。 この計算は、データセット内の各特徴量に対して個別に行われます。

特徴量の有用性を調査して、精度の高いモデルを構築するのに最も有用な特徴量はどれか、トレーニングデータから削除できる特徴量はどれか判断します。

  1. データタブで、特徴量セットまで下にスクロールします。

  2. 有用性列を見てください。

    緑色のバーは、特徴量がターゲットとどの程度密接に関連しているかを示しています。

    ターゲットに無関係な特徴量を削除したい場合があります。

このページで説明されているトピックの詳細については、以下を参照してください。


更新しました March 13, 2024