EDAによるデータ品質の評価¶
DataRobotでの探索的データ解析(EDA)の実行方法と、EDA(EDA1およびEDA2)の各段階でデータの品質を評価する方法を紹介します。
データの準備は反復プロセスです。 DataRobotにアップロードする前にトレーニングデータをクリーンアップして準備しても、EDA中に特徴量を評価することで品質を向上させることができます。
このページに表示されるサンプルデータセットには、患者データが含まれています。 その目的は、患者の再入院の可能性を予測することです。 ターゲット特徴量はreadmitted
です。
EDAの段階¶
EDAの間、DataRobotはデータ品質評価を実行します。 評価は、実行中のモデル構築段階に関連するデータ品質問題についての情報を提供します。 次のタブのいずれかをクリックして、2つのEDAステージについてご覧ください。
データをアップロードすると、EDA1(データ取込み)が発生します。 EDA1はすべての特徴量セットを評価し、次のような問題を検出します。
EDA1の詳細については、 探索的データ解析をご覧ください。
データページで開始をクリックすると、DataRobotは再度EDAを実行します。 この段階では、DataRobotは ターゲットリーケージや特徴量とターゲット間の非線形相関を検出し、 特徴量の有用性を分析するのに役立ちます。 EDA2は、選択した特徴量セットをレポートします。 特徴量セットが選択されていない場合、EDA2はデフォルトのすべての特徴量セットをレポートします。
EDA2の詳細については、 探索的データ解析をご覧ください。
データセットをロードして表示する¶
データセットをロードし、新規プロジェクトを作成し、初期EDAを実行し、データのサンプルに基づいてサマリー統計を生成します。 右側のワーカーキューで進捗を表示します。
大規模データセットを操作する
DataRobotが、いかに大規模なデータセットを処理するかについては、 高速EDAを参照してください。
データをインポートしたら、データを参照をクリックするか下にスクロールして、データセット内の特徴量を表示します。
特徴量が表示され、サマリー情報と統計が提供されます。
ラベル | 説明 | |
---|---|---|
1 | 特徴量の型 | DataRobotがEDA中に特徴量に対して識別するデータ型。たとえば、数値、カテゴリー、ブーリアン、画像、テキスト、および日付などの特殊な特徴量型。 |
2 | ユニーク数 | 特徴量の一意の値の数。 |
3 | 欠損 | 特徴量の欠損値の数。 |
4 | 平均、標準偏差、中央値、最小、最大 | DataRobotは、数値特徴量についてこれらの統計を計算します。 |
EDA1後のデータ品質の評価¶
EDA1は、モデリング開始前にデータの問題を把握するのに役立ちます。
-
特徴量セットの上と右側にある、情報を表示をクリックします。
データ品質評価ドロップダウンメニューが表示されます。
ヒント
データ品質評価では、以下の問題ステータスフラグが表示されます。
- 警告: 注意またはアクションが必要です。
- 情報:必要なアクションはありません。
- 問題なし。
-
(オプション)検出された問題のタイプ別に影響を受ける特徴量をフィルターをクリックし、検索する特定の問題を選択します。
-
下にスクロールして、問題のある特徴量を見つけます。
特徴量に問題がある場合、問題ステータスフラグがデータ品質列に表示されます。 フラグにカーソルを合わせると、問題のタイプが表示されます。
-
問題ステータスフラグが表示されている特徴量をクリックしてから、ヒストグラム、頻出値、特徴量の関連性などのツールを使用して、さらに探索します。
EDA2後のデータ品質の評価¶
ターゲットを設定し、モデリングプロセスを開始すると、EDA2が開始されます。
-
何を予測しますか?で、ターゲット特徴量を入力します。
-
開始をクリックします。
DataRobotは、多くの処理ステップを実行します。 ワーカーキューのステップを監視します。
DataRobotで特徴量の分析が終了すると、特徴量の有用性を確認できます。 DataRobotは、ブループリントの生成を継続します。
特徴量の有用性の調査¶
有用性バーは、特徴量がターゲットと相関している度合いを示します。 有用性は、変数の情報内容を測定するアルゴリズムを使用して計算されます。 この計算は、データセット内の各特徴量に対して個別に行われます。
特徴量の有用性を調査して、精度の高いモデルを構築するのに最も有用な特徴量はどれか、トレーニングデータから削除できる特徴量はどれか判断します。
-
データタブで、特徴量セットまで下にスクロールします。
-
有用性列を見てください。
緑色のバーは、特徴量がターゲットとどの程度密接に関連しているかを示しています。
ターゲットに無関係な特徴量を削除したい場合があります。
関連資料¶
このページで説明されているトピックの詳細については、以下を参照してください。
- DataRobotが探索的データ解析(EDA)の各ステージを実行する方法。
- データ品質評価において、一般的なデータ品質の問題を検出し、表面化させる方法。
- DataRobotが潜在的なデータ品質の問題について実行するチェックについて説明します。