特徴量の詳細¶
データページには、EDA1の計算中に検出されたさまざまな情報を示すタグが表示されます。特徴量名をクリックして詳細を表示することもできます。
情報タグ¶
データページの情報タグは次のとおりです。
タグ | 説明 |
---|---|
重複 | 取込みデータセット内で特徴量列が重複しています。 |
空 | 列に値が含まれていません。 |
値が少ない | データセットのサイズに対して、DataRobotで特徴量から意味のある情報を補完するための値が少なすぎます。 ユニーク数の数の指標ではなく、単一の値を支配するものであり、特微量をモデリングには不適格なものにします。 以下に具体例を示します。
|
値が多すぎる | データセットのサイズに対して、DataRobotで特徴量から意味のある情報を補完するための値が多すぎます。 カテゴリ機能の場合、ラベルは次の場合に適用されます。[一意の値の数] > [行の数]/2 | |
リファレンスID* | リファレンスIDを含む列(ユニークなシーケンス番号)。 |
ターゲットに関連する | 列はターゲット列から派生しています。 |
ターゲットリーケージ | 予測時に値が不明な特徴量を示します。 |
*リファレンスIDの計算
次のすべてに該当する場合、特徴量はリファレンスIDと見なされます。
- 特徴量は整数であり、日付ではありません。
- データの行数が2000を超えています。
- 特徴量の値は一意(
[ number of unique values] = [number of rows]
)です - 特徴量の値は「コンパクト」です。つまり、最大値と最小値の間隔は
100 * rows
以内になります。
使用可能な特徴量の詳細¶
DataRobotのデータページに特徴量が表示された後、特徴量名をクリックして特徴量の詳細を表示し、(場合によっては)そのタイプを変更することができます。 使用可能なオプションは特徴量の型に応じて異なります。
オプション | 説明 | 特徴量の型 |
---|---|---|
タブ | ||
ヒストグラム | 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 | 数値、集計されたカテゴリー型特徴量、多カテゴリー |
頻出値 | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 | 数値、分類、テキスト、ブール型 |
表 | 特徴量の値とその発生数の表が表示されます。 表示される値の先頭にスペースが含まれる場合、その旨を示すタグ(先頭にスペース)が表示されます。 これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 | 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル |
例示 | 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 概要とヒストグラムに関する詳細については、集計されたカテゴリータブの差異も参照してください。 | 集計されたカテゴリー型特徴量 |
カテゴリークラウド | EDA2が完了すると、対応する特徴量に最も関連性が高いキーがワードクラウド形式で表示されます。 これはカテゴリークラウドからアクセスできるワードクラウドと同じです(インサイトページ)。 データページから特徴量間でクラウドをより容易に比較できます。インサイトページでは、プロジェクトの複数のカテゴリーベースのモデルのワードクラウドを比較できます。 | 集計されたカテゴリー型特徴量 |
特徴量の統計 | 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 | 多ラベル |
時間の経過(時間認識のみ) | 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 | 数値、分類、テキスト、ブール型 |
特徴量の系統 (時系列) または (特徴量探索) | 派生した特徴量がどのように作成されたかを視覚的に説明します。 | 数値、分類、テキスト、ブール型 |
アクション | ||
特徴量の型変換 | 特徴量の型を変更するダイアログが表示されます。 (その特徴量の特徴量の型が以前に変換されている場合は表示されません。) | 数値、カテゴリー、テキスト |
変換 | 選択した変換済み特徴量の詳細および変換済み特徴量と親特徴量の比較が表示されます。 (変換済み特徴量にのみ適用されます。) | 数値、ブール型 |
備考
特徴量の値と表示はEDA1とEDA2で異なることがあります。EDA1の場合、チャートではデータセットからのデータがそのまま表現されます。 ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。 また、EDA2 の後、平均ターゲット値が表示されます。(EDA1では計算されません。)
ヒストグラムチャート¶
ヒストグラムチャートは、数値特徴量に対してデフォルトで表示されます。 数値特徴量の値を同じサイズの各範囲に「バケット化」して特徴量の度数分布を示し、値の頻度(X軸)に対してターゲット観測値(左Y軸)をプロットします。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
最初は、バケット化されたデータが表示されます。
外れ値を計算して表示するには、外れ値を表示を選択します。
チャートの上にある従来の箱ひげ図(金色で表示)では、データの四分位中央値が強調表示されているので、分布が偏っているかどうかを判断するのに役立ちます。 ひげの長さを決定するために、DataRobotは上田のアルゴリズムを使用して外れ値ポイントを特定します。 ひげは、これらの外れ値を除いた、データセット内の最小および最大のデータポイントの全範囲を示しています。箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。
外れ値を表示するためにX軸スケールと箱ひげ図の圧縮が変化することに注意してください。 外れ値を記録する行が少なくなる傾向があるため(これが外れ値となる理由です)、青いバーが表示されない場合があります。 その列にカーソルを合わせると、実際の行数を示すツールチップが表示されます。
EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。
外れ値を計算¶
サンプル平均の一番端にある観測ポイントである外れ値は、データの変動性の結果であることがあります。 外れ値はデータエラーを表すことがあります。その場合、ヒストグラムから外れ値を除外することが推奨されます。 外れ値検知(ヒューリスティックの組み合わせを使用してEDA1の一部として実行されます)は単なるヒストグラム視覚化ツールなので、モデリング処理には影響しません。
外れ値を表示ボックスを選択して、外れ値を含む行を特定する計算を開始します。 その後、外れ値を含むヒストグラムが再表示されます。
一般的に外れ値は次の2つの範囲のコレクションとして計算されます。
p25
は、データ分布の第1四分位の値を表します。p75
は、データ分布の第3四分位の値を表します。IQR
は四分位間の範囲で、第3四分位から第1四分位を差し引いた値です(IQR = p75-p25
)。
次に範囲が「第1四分位 - IQR(p25-IQR
)」および第3四分位 + IQR(p75+IQR
)」として計算されます。 これは外れ値計算の全般的な概要です。 これらの範囲とデータ分布の最小および最大値との比較方法に応じて、追加の計算が必要になります。 また、DataRobotでのIQRおよび外れ値しきい値の最終値の計算方法に関する例外で使用される追加のヒューリスティックもあります。
頻出値チャート¶
頻出値チャートでは、共通値に加えて、インライア、偽装欠損値、および過剰なゼロが表示されます。
集計されたカテゴリー特徴量¶
集計されたカテゴリー型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。 元のデータセットにこの型の特徴量がない場合、DataRobotはEDA2の一環としてそれらを作成します(以下で説明するように適切な場合)。集計されたカテゴリー型特徴量の概要やヒストグラム、カテゴリークラウド、表タブでは、ユニークな特徴量が詳細に表示されます。
備考
集計されたカテゴリー特徴量はモデリングのターゲットとして使用することはできません。
必要なデータセットの形式¶
特徴量が集計されたカテゴリー型特徴量として検出されるには(データタブの「特徴量の型」列に表示)、データセットの列が有効なJSON形式のディクショナリである必要があります。
"Key1": Value1, "Key2": Value2, "Key3": Value3, ...
"Key":
は、文字列である必要があります。Value
は、0よりも大きい数値(整数または小数値)である必要があります。- 各キーには対応する1つの値が必要です。 キーの値がない場合、データを使用できません。
- 列は、JSONでのシリアル化が可能である必要があります。
有効な集計されたカテゴリー型特徴量の列の例を以下に示します。
{“Book1”: 100, “Book2”: 13}
無効な集計されたカテゴリー型特徴量の列は、次の例のいずれかのようになります。
-
{‘Book1’: 100, ‘Book2’: 12}
- キーは引用符内にありません(JSONでシリアル化可能ではありません)。
-
{‘Book1’: ‘rate’,‘Book2’: ‘rate1’}
- これらの値は正の数値ではなく、文字列です。
-
{“Book1”, “Book2”}
- この例はJSONディクショナリ形式ではありません。
「概要」タブ¶
概要タブには、特徴量の最も頻繁に使用される上位50のキーが表示されます。 各キーには、キーが平均値、標準偏差、中央値、最小値、および最大値に現れる行のパーセンテージが表示されます。キーは、このいずれかのフィールドで並べ替えることができます。 その他のタイプの同じ情報のほとんどは、データページの列で表示されますが、集計されたカテゴリー型特徴量の場合、個々の各キーには、これらのフィールドに独自の値があります。
要素 | 説明 | |
---|---|---|
1 | エクスポート | キーおよびキーに関連付けられた値のリストをPNGとしてエクスポートする。 ダウンロードの前に、画像へのチャートタイトルの追加およびファイル名の編集を行うことができます。 |
2 | ページコントロール | リンクされたキーのページを移動する(1ページに10のキーが表示されます)。 |
3 | ヒストグラムアイコン | キーのヒストグラムにアクセスします。 |
「ヒストグラム」タブ¶
このタブのほとんどの機能は、ヒストグラムの操作に関する上記のセクションで説明されている機能と同じですが、この特徴量の型独自の違いがいくつかあります。 このタブに表示されるヒストグラムは、特徴量自身ではなく、特徴量の個々のラベル(キー)に対応しています。 キーのリストは、データベースの行での発生率またはアルファベット順に並べ替えることができます。
要素 | 説明 | |
---|---|---|
1 | 検索 | ラベルを検索します。 |
2 | 表示中 | ビンの分布を変更します。 表示するビンの数を選択します。 |
3 | ターゲット値 | ターゲット値表示の基準を設定します。 |
4 | 大きな値用のY軸目盛 | 大きな値用に、Y軸で測定される行数を減らします。 |
5 | エクスポート | ヒストグラムをエクスポートします。 |
備考
DataRobotは、ヒストグラムの値を計算するときにストップワードを自動的に除外します。
大きな値を表示する¶
Y軸の値を拡大するオプションを使用すると、Y軸で測定される行数が減り、大きな値が見やすくなります。大きな数が現れるのは一般的に数行だけです。 上記のヒストグラムのサイズを変更すると、次のようになります。
Y軸を拡大することにより、測定された最大値が大幅に減少します。 その結果、すべての値にわたる行の数が均等に表されます。
カテゴリークラウド¶
カテゴリークラウドタブは、集計されたカテゴリー特徴量に関するインサイトを提供します。 これはワードクラウド形式で表示され、対応する特徴量に最も関連性が高いキーが示されます。
カテゴリークラウドの可用性
カテゴリークラウドのインサイトは、モデル > インサイトタブおよびデータタブで利用できます。 インサイトページでは、プロジェクトのカテゴリーベースのモデルのワードクラウドを比較できます。 データページでは、特徴量間でクラウドをより簡単に比較できます。 多クラスターゲットを使用する場合、カテゴリークラウドは作成されないことに注意してください。
キーは、青色から赤色に変化する色スペクトルで表示されます。青色はnegative効果、赤色はpositive効果を示します。 出現頻度の高いキーはサイズの大きい文字で表示され、頻度の低いものは小さい文字で表示されます。
ストップワードをフィルタリングボックスをオンにすると、ストップワード(よく使用される用語のうち検索対象から除外できる用語)を表示から除外できます。 それらの単語が自動調整済みの集計されたカテゴリーモデルに有用でない場合は、削除することで解釈性を向上できます。
キーにマウスを合わせると、そのキーに固有の係数値が表示され、そのフルネーム(クラウドの左側に情報とともに表示)が読み取られます。 クラウドでの表示では、キーの名前は20文字に切り詰められます。それ以外の場合は100文字までに制限されています。
「例示」タブ¶
例示タブには、集計されたカテゴリー型データを特徴量として表す方法が示されます。 たとえば、上記の説明のように、次の図の値列には、5つの集計されたカテゴリー型特徴量が(ランダムに選択された)JSONディクショナリ形式で表示されています。
サマリーをクリックすると、集計された特徴量として処理する前に、初期状態のカテゴリー型値の表示方法を視覚化するボックスが表示されます。
「表」タブ¶
多ラベルプロジェクトのデフォルトタブである表タブには、多カテゴリー特徴量の上位50位の最頻出キーの詳細な数を示す2列の表が表示されます。
表には、値列の各キー、およびカウント列の該当するキーの数がリストされます。
「値」列でのUnicodeテキスト
Unicodeテキストを使用していて、「値」列に正常に表示されない場合は、テキストがUTF8でエンコードされているかどうかを確認してください。
平均ターゲット値¶
EDA2の後、ヒストグラムおよび頻出値チャートにグラフのオーバーレイとしてオレンジ色の円が表示されます。 円はビンの平均ターゲット値を示します。 (カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)
たとえば、特徴量num_lab_procedures
を考えてみます。
この例では、44から49.999999の検査手順を持つ人物が846名います。 円によって表現される平均ターゲット値(この場合、再入院の割合)は37.23%です。 (オレンジの点はヒストグラムの右軸に対応します。)
エクスポージャーによる出力の変化¶
プロジェクトのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。 この場合の詳細を以下に示します。
- 各ビンに含まれる行の数(1)。
- 各ビンに含まれるエクスポージャーの合計(2)。 これは、エクスポージャーによって加重されたすべての行の加重の合計です。
- 各ビンに含まれるターゲットの合計をエクスポージャーの合計(3)で除算した値。
加重による出力の変化¶
プロジェクトのウェイトパラメーターを設定した場合、DataRobotでは、行数および平均されたターゲット値がウェイトで加重されます。