Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量の詳細

データページには、EDA1の計算中に検出されたさまざまな情報を示すタグが表示されます。特徴量名をクリックして詳細を表示することもできます。

「データ」ページの情報タグ

データページの情報タグは次のとおりです。

タグ 説明
重複 取込みデータセット内で特徴量列が重複しています。
列に値が含まれていません。
値が少ない データセットのサイズに対して、DataRobotで特徴量から意味のある情報を補完するための値が少なすぎます。 ユニーク数の数の指標ではなく、単一の値を支配するものであり、特微量をモデリングには不適格なものにします。 以下に具体例を示します。
  • 欠損値がなく、ユニークな値を1つだけ持つ、1つの数値。
  • 99.9%超が同じ値である特徴量
値が多すぎる データセットのサイズに対して、DataRobotで特徴量から意味のある情報を補完するための値が多すぎます。 カテゴリ機能の場合、ラベルは次の場合に適用されます。[一意の値の数] > [行の数]/2 |
リファレンスID* リファレンスIDを含む列(ユニークなシーケンス番号)。
ターゲットに関連する 列はターゲット列から派生しています。
ターゲットリーケージ 予測時に値が不明な特徴量を示します。
* Reference ID calculations

A feature is considered a reference ID if all of the following apply:

  • The feature is an integer and not a date.
  • The number of rows in the data is greater than 2000.
  • Feature values are unique ([ number of unique values] = [number of rows])
  • Feature values are "compact." That is, the highest and lowest values are not more than 100 * rows apart.

特徴量の詳細を表示

DataRobotのデータページに特徴量が表示された後、特徴量名をクリックして特徴量の詳細を表示し、(場合によっては)そのタイプを変更することができます。 使用可能なオプションは特徴量の型に応じて異なります。

オプション 説明 特徴量の型
タブ
ヒストグラム 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 数値、集計されたカテゴリー型特徴量、多カテゴリー
頻出値 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 数値、分類、テキスト、ブール型
特徴量の値とその発生数の表が表示されます。 表示される値の先頭にスペースが含まれる場合、その旨を示すタグ(先頭にスペース)が表示されます。 これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル
集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 概要とヒストグラムに関する詳細については、集計されたカテゴリータブの差異も参照してください。 集計されたカテゴリー型特徴量
カテゴリークラウド EDA2が完了すると、対応する特徴量に最も関連性が高いキーがワードクラウド形式で表示されます。 これはカテゴリークラウドからアクセスできるワードクラウドと同じです(インサイトページ)。 データページから特徴量間でクラウドをより容易に比較できます。インサイトページでは、プロジェクトの複数のカテゴリーベースのモデルのワードクラウドを比較できます。 集計されたカテゴリー型特徴量
特徴量の統計 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 多ラベル
時間の経過(時間認識のみ) 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 数値、分類、テキスト、ブール型
特徴量の系統 (時系列) または (特徴量探索) 派生した特徴量がどのように作成されたかを視覚的に説明します。 数値、分類、テキスト、ブール型
アクション
特徴量の型変換 特徴量の型を変更するダイアログが表示されます。 (その特徴量の特徴量の型が以前に変換されている場合は表示されません。) 数値、カテゴリー、テキスト
特徴量の変換 選択した変換済み特徴量の詳細および変換済み特徴量と親特徴量の比較が表示されます。 (変換済み特徴量にのみ適用されます。) 数値、ブール型

備考

特徴量の値と表示はEDA1とEDA2で異なることがあります。EDA1の場合、チャートではデータセットからのデータがそのまま表現されます。 ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。 また、EDA2 の後、平均ターゲット値が表示されます。(EDA1では計算されません。)

ヒストグラムチャート

The Histogram chart is the default display for numeric features. It "buckets" numeric feature values into equal-sized ranges to show frequency distribution of the variable—the target observation (left Y-axis) plotted against the frequency of the value (X-axis). The height of each bar represents the number of rows with values in that range.

Histogram display variations

The display differs depending on whether the data quality issue "Outliers" was found.

Without data quality issues:

データ品質の問題がある場合:

最初は、バケット化されたデータが表示されます。

外れ値を計算して表示するには、外れ値を表示を選択します。

The traditional box plot above the chart (shown in gold) highlights the middle quartiles for the data to help you determine whether the distribution is skewed. ひげの長さを決定するために、DataRobotは上田のアルゴリズムを使用して外れ値ポイントを特定します。 ひげは、これらの外れ値を除いた、データセット内の最小および最大のデータポイントの全範囲を示しています。箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。

外れ値を表示するためにX軸スケールと箱ひげ図の圧縮が変化することに注意してください。 外れ値を記録する行が少なくなる傾向があるため(これが外れ値となる理由です)、青いバーが表示されない場合があります。 その列にカーソルを合わせると、実際の行数を示すツールチップが表示されます。

EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。

分布と表示の変更

DataRobotではデータがいくつかのビンに分割されます。ビンのサイズはデータセットの行の数に応じて異なります。 ビンの数を変更して、分布範囲を変更することができます。 ビンのオプションは、データセットに含まれるユニーク値の数に依存します。 分布範囲を変更するには、ドロップダウンを使います。

分類プロジェクトの場合は、行数またはターゲット値の割合に基づいてビンを埋めるように表示の基準を変更することもできます(EDA2の後)。 選択に一致するようにヒストグラムおよび平均ターゲット値オーバーレイの表示を変更することもできます。

サマリーの表示

選択したビンの詳細を表示するには、カーソルをビンの上に置いてポップアップを表示します。

要素 説明
X軸上のビン範囲が表示されます。
(左Y軸上の)ビン内の行の数が表示されます。
パーセンテージ (右Y軸上の)平均ターゲット値が表示されます。

外れ値を計算

サンプル平均の一番端にある観測ポイントである外れ値は、データの変動性の結果であることがあります。 外れ値はデータエラーを表すことがあります。その場合、ヒストグラムから外れ値を除外することが推奨されます。 外れ値検知(ヒューリスティックの組み合わせを使用してEDA1の一部として実行されます)は単なるヒストグラム視覚化ツールなので、モデリング処理には影響しません。

一般的に外れ値は次の2つの範囲のコレクションとして計算されます。

  • p25は、データ分布の第1四分位の値を表します。
  • p75は、データ分布の第3四分位の値を表します。
  • IQRは四分位間の範囲で、第3四分位から第1四分位を差し引いた値です(IQR = p75-p25)。

次に範囲が「第1四分位 - IQR(p25-IQR)」および第3四分位 + IQR(p75+IQR)」として計算されます。 これは外れ値計算の全般的な概要です。 これらの範囲とデータ分布の最小および最大値との比較方法に応じて、追加の計算が必要になります。 また、DataRobotでのIQRおよび外れ値しきい値の最終値の計算方法に関する例外で使用される追加のヒューリスティックもあります。

外れ値を表示ボックスを選択して、外れ値を含む行を特定する計算を開始します。 その後、外れ値を含むヒストグラムが再表示されます。

ボックスを選択または選択解除して、外れ値を除くヒストグラム表示と外れ値を含むヒストグラム表示を切り替えます。

ビン値は表示に基づいて再シャッフルされることに注意してください。 外れ値を除外すると行が多くなり、各ビンに含まれる行数が少なくなります。 オンにすると、ビンの値の範囲が拡大するので各ビンにはより多くの行が含まれます。

外れ値の表示設定に関係なく、ビンの選択ドロップダウンは通常通り機能します。

頻度値チャート

頻出値チャートは、カテゴリー、テキスト、ブール型の特徴量のデフォルト表示です(その他の特徴量タイプでも使用可能です)。 表示は、データ品質チェックの結果に応じて異なります。 データ品質の問題がない場合:

多くの場合、ソート順ドロップダウンで表示を変更できます。 デフォルトでは、頻度(行数)で降順にソートされます。 <特徴量_名>でソートすることもできます。その場合、アルファベット順または昇順(数値の場合)で表示されます。 エクスポートリンクを使用すると、頻出値チャートのイメージをPNGファイルとしてダウンロードできます。

EDA2が完了すると、頻度値チャートには平均ターゲット値オーバーレイも表示されます。

要約されたカテゴリー特徴量

集計されたカテゴリー型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。 元のデータセットにこの型の特徴量がない場合、DataRobotはEDA2の一環としてそれらを作成します(以下で説明するように適切な場合)。集計されたカテゴリー型特徴量の概要ヒストグラムカテゴリークラウドタブでは、ユニークな特徴量が詳細に表示されます。

備考

集計されたカテゴリー特徴量はモデリングのターゲットとして使用することはできません。

必要なデータセットの形式

特徴量が集計されたカテゴリー型特徴量として検出されるには(データタブの「特徴量の型」列に表示)、データセットの列が有効なJSON形式のディクショナリである必要があります。

"Key1": Value1, "Key2": Value2, "Key3": Value3, ...

  • "Key":は、文字列である必要があります。
  • Valueは、0よりも大きい数値(整数または小数値)である必要があります。
  • 各キーには対応する1つの値が必要です。 キーの値がない場合、データを使用できません。
  • 列は、JSONでのシリアル化が可能である必要があります。

有効な集計されたカテゴリー型特徴量の列の例を以下に示します。

{“Book1”: 100, “Book2”: 13}

無効な集計されたカテゴリー型特徴量の列は、次の例のいずれかのようになります。

  • {‘Book1’: 100, ‘Book2’: 12}

    • キーは引用符内にありません(JSONでシリアル化可能ではありません)。
  • {‘Book1’: ‘rate’,‘Book2’: ‘rate1’}

    • これらの値は正の数値ではなく、文字列です。
  • {“Book1”, “Book2”}

    • この例はJSONディクショナリ形式ではありません。

集計されたカテゴリー型特徴量の[概要]タブ

概要タブには、特徴量の最も頻繁に使用される上位50のキーが表示されます。 各キーには、キーが平均値、標準偏差、中央値、最小値、および最大値に現れる行のパーセンテージが表示されます。キーは、このいずれかのフィールドで並べ替えることができます。 その他のタイプの同じ情報のほとんどは、データページの列で表示されますが、集計されたカテゴリー型特徴量の場合、個々の各キーには、これらのフィールドに独自の値があります。

要素 説明
エクスポート キーおよびキーに関連付けられた値のリストをPNGとしてエクスポートする。 ダウンロードの前に、画像へのチャートタイトルの追加およびファイル名の編集を行うことができます。
ページコントロール リンクされたキーのページを移動する(1ページに10のキーが表示されます)。
ヒストグラムアイコン キーのヒストグラムにアクセスします。

集計されたカテゴリー値のヒストグラムタブ

このタブのほとんどの機能は、ヒストグラムの操作に関する上記のセクションで説明されている機能と同じですが、この特徴量の型独自の違いがいくつかあります。 このタブに表示されるヒストグラムは、特徴量自身ではなく、特徴量の個々のラベル(キー)に対応しています。 キーのリストは、データベースの行での発生率またはアルファベット順に並べ替えることができます。

要素 説明
検索 ラベルを検索します。
表示中 ビンの分布を変更します。 表示するビンの数を選択します。
ターゲット値 ターゲット値表示の基準を設定します。
大きな値用のY軸目盛 大きな値用に、Y軸で測定される行数を減らします。
エクスポート ヒストグラムをエクスポートします。

備考

DataRobotは、ヒストグラムの値を計算するときにストップワードを自動的に除外します。

大きな値を表示する

Y軸の値を拡大するオプションを使用すると、Y軸で測定される行数が減り、大きな値が見やすくなります。大きな数が現れるのは一般的に数行だけです。 上記のヒストグラムのサイズを変更すると、次のようになります。

Y軸を拡大することにより、測定された最大値が大幅に減少します。 その結果、すべての値にわたる行の数が均等に表されます。

要約されたカテゴリーのカテゴリークラウド

カテゴリークラウドタブは、要約されたカテゴリー特徴量にインサイトを提供します。 これはワードクラウド形式で表示され、対応する特徴量に最も関連性が高いキーが示されます。

カテゴリークラウドの可用性

カテゴリークラウドのインサイトは、モデル > インサイトタブおよびデータタブで利用できます。 インサイトページでは、プロジェクトのカテゴリーベースのモデルのワードクラウドを比較できます。 データページでは、特徴量間でクラウドをより簡単に比較できます。 多クラスターゲットを使用する場合、カテゴリークラウドは作成されないことに注意してください。

キーは、青色から赤色に変化する色スペクトルで表示されます。青色はnegative効果、赤色はpositive効果を示します。 出現頻度の高いキーはサイズの大きい文字で表示され、頻度の低いものは小さい文字で表示されます。

ストップワードをフィルタリングボックスをオンにすると、ストップワード(よく使用される用語のうち検索対象から除外できる用語)を表示から除外できます。 それらの単語が自動調整済みの集計されたカテゴリーモデルに有用でない場合は、削除することで解釈性を向上できます。

キーにマウスを合わせると、そのキーに固有の係数値が表示され、そのフルネーム(クラウドの左側に情報とともに表示)が読み取られます。 クラウドでの表示では、キーの名前は20文字に切り詰められます。それ以外の場合は100文字までに制限されています。

図表

タブには、集計されたカテゴリー型データを特徴量として表す方法が表示されます。 たとえば、上記の説明のように、次の図の列には、5つの集計されたカテゴリー型特徴量が(ランダムに選択された)JSONディクショナリ形式で表示されています。

サマリーをクリックすると、集計された特徴量として処理する前に、初期状態のカテゴリー型値の表示方法を視覚化するボックスが表示されます。

「表」タブ

多ラベルプロジェクトのデフォルトタブであるタブには、多カテゴリー特徴量の上位50位の最頻出キーの詳細な数を示す2列の表が表示されます。

表には、列の各キー、およびカウント列の該当するキーの数がリストされます。

Unicode text in the Values column

If you are using Unicode text and it appears abnormal in the Values column, make sure your text is UTF8 encoded.

平均ターゲット値

EDA2の後、グラフがヒストグラムと頻度値チャートにオーバーレイするとオレンジの円が表示されます。 円はビンの平均ターゲット値を示します。 (カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)

たとえば、特徴量num_lab_proceduresを考えてみます。

この例では、44から49.999999の検査手順を持つ人物が846名います。 円によって表現される平均ターゲット値(この場合、再入院の割合)は37.23%です。 (オレンジの点はヒストグラムの右軸に対応します。)

エクスポージャーによる出力の変化

プロジェクトのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。 この場合の詳細を以下に示します。

  • 各ビンに含まれる行の数(1)。
  • 各ビンに含まれるエクスポージャーの合計(2)。 これは、エクスポージャーによって加重されたすべての行の加重の合計です。
  • 各ビンに含まれるターゲットの合計エクスポージャーの合計(3)で除算した値。

加重による出力の変化

プロジェクトのウェイトパラメーターを設定した場合、DataRobotでは、行数および平均されたターゲット値がウェイトで加重されます。


更新しました January 11, 2023
Back to top