ヒストグラムを使用した特徴量の分析¶
DataRobotでは、各数値特徴量のヒストグラムが生成されるため、特徴量の値の分布を分析し、外れ値を表示できます。 このページでは、ヒストグラムを使用して、数値特徴量を分析する方法について説明します。
以下に示すサンプルデータセットには、患者のデータが含まれています。 患者の再入院の可能性を予測する目的で、ターゲット特徴量をreadmitted
とします。
特徴量分布の設定¶
DataRobotではデータがいくつかのビンに分割されます。ビンのサイズはデータセットの行の数に応じて異なります。 ビンの数を変更して、分布範囲を変更することができます。 ビンのオプションは、データセットに含まれるユニーク値の数に依存します。 分布範囲を変更するには、ドロップダウンを使います。
分類プロジェクトの場合は、行数またはターゲット値の割合に基づいてビンを埋めるように表示の基準を変更することもできます(EDA2の後)。 選択に一致するようにヒストグラムおよび平均ターゲット値オーバーレイの表示を変更することもできます。
数値特徴量の場合、ヒストグラムを使用して値の大まかな分布を表示します。
-
データセットをインポートした後、プロジェクトデータリストに移動し、特徴量を選択します。
数値特徴量の場合、ヒストグラムには等しいサイズの範囲(ビン)が表示されます。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
-
ビンにカーソルを合わせると、範囲と範囲内の行数が表示されます。
time_in_hospital
特徴量は、入院日数です。 ヒストグラムは、1~3日の来院が最も一般的であることを示しています。 -
左下にあるドロップダウンメニューの表示中をクリックして、ビンの数を変更します。
追加のビンを表示する場合、2~3日の訪問が最も一般的です。
外れ値を計算¶
ヒストグラムを使用して、外れ値のある特徴量を調査します。
-
特徴量セットに外れ値が存在する場合は、その特徴量を選択します。
外れ値特徴量の検索
データ品質評価ツールを使用して、外れ値のある特徴量を見つけます。 特徴量に外れ値がある場合、警告アイコン(
)がデータ品質列に表示されます。 警告のヒントは問題のタイプを示します。
-
表示されるヒストグラムで、外れ値を表示をオンに切り替えます。
ヒストグラムの上部にある赤い点は外れ値を表します。 金色の箱ひげ図では、データの四分位中央値が示されているので、分布が偏っているかどうかを判断するのに役立ちます。
備考
DataRobotは、表示に基づいてビン値を再シャッフルします。 外れ値を除外するとビンの数が増え、各ビンに含まれる行数が少なくなります。 オンにすると、ビンの値の範囲が拡大するので各ビンにはより多くの行が含まれます。
外れ値の表示設定に関係なく、ビンの選択ドロップダウンは通常通り機能します。
-
赤い点にカーソルを合わせると、外れ値の値が表示されます。
この例では、
num_medications
特徴量で示された外れ値は74.1で、中央値の14から大きく離れています。
平均ターゲット値を表示¶
DataRobotが EDA2の計算を開始した後、特徴量の平均ターゲット値を表示することもできます。
ヒストグラムでは、オレンジ色の円がビンの平均ターゲット値を示します。 この例では、8日間の通院の平均ターゲット値が最も高く、46.12%の行がreadmitted
= 1となっています。
次の表は、ビン範囲のサマリーに含まれる情報を示します。
要素 | 説明 |
---|---|
値 | X軸上のビン範囲が表示されます。 |
行 | (左Y軸上の)ビン内の行の数が表示されます。 |
パーセンテージ | (右Y軸上の)平均ターゲット値が表示されます。 |
関連資料¶
このページで説明されているトピックの詳細については、以下を参照してください。
- ヒストグラムチャートの生成方法。
- DataRobotが探索的データ解析(EDA)の各ステージを実行する方法。
- データ品質評価において、一般的なデータ品質の問題を検出し、表面化させる方法。
- DataRobotが実行する潜在的なデータ品質の問題についてチェックします。