データタブ¶
DataRobotのデータページに特徴量が表示された後、特徴量名をクリックして特徴量の詳細を表示し、(場合によっては)そのタイプを変更することができます。使用可能なオプションは特徴量の型に応じて異なります。
オプション | 説明 | variable type(特徴量の型) |
---|---|---|
タブ | ||
ヒストグラム | 数値特徴量値を均等なサイズの複数の範囲に「区分け」して、特徴量の大まかな分布を示します。 | 数値、集計されたカテゴリー型特徴量、多カテゴリー |
頻出値 | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 | 数値、カテゴリー、テキスト、ブール型 |
表 | 特徴量の値とその発生数のテーブルが表示されます。表示される値の先頭にスペースが含まれる場合、その旨を示すタグ(先頭にスペース)が表示されます。これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と 36か月の両方が表示される場合など)。 | 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル |
図 | 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量の特徴量)が特徴量としてどのように表されるかを示します。概要とヒストグラムに関する詳細については、集計されたカテゴリータブの差異も参照してください。 | 集計されたカテゴリー |
カテゴリークラウド | EDA2が完了すると、対応する特報量に最も関連性が高いキーがワードクラウド形式で表示されます。これはカテゴリークラウド(インサイトページ)からアクセスできるものと同じワードクラウドです。データページからは、特徴量間のクラウドについてより簡単に比較できます。インサイトページでは、プロジェクトのカテゴリーベースのモデルに対するワードクラウドを比較できます。 | 集計されたカテゴリー |
特徴量の統計 | 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 | 多ラベル |
時間の経過(時間認識のみ) | 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 | 数値、カテゴリー、テキスト、ブール型 |
特徴量の系統(時系列)または(特徴量探索) | 派生した特徴量がどのように作成されたかを視覚的に説明します。 | 数値、カテゴリー、テキスト、ブール型 |
アクション | ||
特徴量の型の変換 | 特徴量の型を変更するダイアログが表示されます。(その特徴量の特徴量の型が以前に変換されている場合は表示されません。) | 数値、カテゴリー、テキスト |
特徴量の変換 | 選択した変換済み特徴量の詳細および変換済み特徴量と親特徴量の比較が表示されます。(変換済み特徴量にのみ適用されます。) | 数値、ブール型 |
備考
特徴量の値と表示はEDA1とEDA2で異なることがあります。EDA1の場合、チャートではデータセットからのデータがそのまま表現されます。ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。また、EDA2 の後、平均ターゲット値が表示されます。(EDA1では計算されません。)
ヒストグラムチャート¶
ヒストグラムチャートは数値特徴量のデフォルト表示です。ヒストグラムチャートは頻度の分布を表しており、値の頻度(X軸)に対するターゲット観測値(左のY軸)が示されています。データページから数値特徴量を展開すると、DataRobotにはそのヒストグラムが表示されます。表示は、データ品質の問題が見つかったかどうかに応じて異なります。問題がない場合:
データ品質の問題がある場合:
EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。
分布と表示の変更¶
DataRobotではデータがいくつかのビンに分割されます。ビンのサイズはデータセットの行の数に応じて異なります。ビンの数を変更して、分布範囲を変更することができます。ビンのオプションは、データセットに含まれる一意の値の数に依存します。分布範囲を変更するには、ドロップダウンを使います。
分類プロジェクトの場合は、行数またはターゲット値の割合に基づいてビンを埋めるように表示の基準を変更することもできます(EDA2の後)。選択に一致するようにヒストグラムおよび平均ターゲット値オーバーレイの表示を変更することもできます。
サマリーの表示¶
選択したビンの詳細を表示するには、カーソルをビンの上に置いてポップアップを表示します。
- ビン範囲(1)はX軸上に配置されます。
- 行の数(2)は左側のY軸上に配置されます。
- 平均ターゲット値(3)は右側のY軸上に配置されます。
外れ値の計算¶
サンプル平均の一番端にある観測ポイントである外れ値は、データの変動性の結果であることがあります。外れ値はデータエラーを表すことがあります。その場合、ヒストグラムから外れ値を除外することが推奨されます。外れ値検知(ヒューリスティックの組み合わせを使用してEDA1の一部として実行されます)は単なるヒストグラム視覚化ツールであり、モデリング処理に影響をおよぼすことはありません。
一般的に外れ値は次の2つの範囲のコレクションとして計算されます。
p25
は、データ分布の第1四分位の値を表します。p75
は、データ分布の第3四分位の値を表します。IQR
は四分位間の範囲で、第3四分位から第1四分位を差し引いた値です(IQR = p75-p25
)。
次に範囲が「第1四分位 - IQR(p25-IQR
)」および第3四分位 + IQR(p75+IQR
)」として計算されます。これは外れ値計算の全般的な概要です。これらの範囲とデータ分布の最小および最大値との比較方法に応じて、追加の計算が必要になります。またDataRobotには、例外的な場面で使用されるIQRおよび外れ値のしきい値の最終値の計算方法に関する追加のヒューリスティックもあります。
外れ値を表示ボックスを選択して、外れ値を含む行を特定する計算を開始します。その後、外れ値を含むヒストグラムが再表示されます。
ボックスを選択または選択解除して、外れ値を除くヒストグラム表示と外れ値を含むヒストグラム表示を切り替えます。
ビン値は表示に基づいて再シャッフルされることに注意してください。外れ値を除外すると行が多くなり、各ビンに含まれる行数が少なくなります。オンにすると、ビンの値の範囲が拡大するので各ビンにはより多くの行が含まれます。
外れ値の表示設定に関係なく、ビンの選択ドロップダウンは通常通り機能します。
頻度値チャート¶
頻出値チャートは、カテゴリー、テキスト、ブール型の特徴量のデフォルト表示です(その他の特徴量タイプでも使用可能です)。表示は、データ品質チェックの結果に応じて異なります。データ品質の問題がない場合:
多くの場合、ソート条件ドロップダウンで表示を変更できます。デフォルトでは、頻度(行数)で降順にソートされます。<特徴量名>でソートすることもできます。その場合、アルファベット順または降順(数値の場合)で表示されます。エクスポートリンクを使用すると、頻出値チャートのイメージをPNGファイルとしてダウンロードできます。
EDA2が完了すると、頻度値チャートに平均ターゲット値オーバーレイも表示されます。
要約されたカテゴリー特徴量¶
集計されたカテゴリ型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。元のデータセットにこの型の特徴量がない場合、DataRobotはEDA2の一環としてそれらを作成します(以下で説明するように適切な場合)。集計されたカテゴリ型特徴量の概要やヒストグラム、カテゴリークラウド、テーブルタブでは、ユニークな特徴量が詳細に表示されます。
備考
集計されたカテゴリー型特徴量はモデリングのターゲットとして使用することはできません。
必要なデータセットの形式¶
特徴量が集計されたカテゴリ型特徴量として検出されるには(データタブの「特徴量の型」列に表示)、データセットの列が有効なJSON形式のディクショナリである必要があります。
"Key1": Value1, "Key2": Value2, "Key3": Value3, ...
"Key":
は、文字列である必要があります。Value
は、0よりも大きい数値(整数または小数値)である必要があります。- 各キーには対応する1つの値が必要です。キーの値がない場合、そのデータを使用できません。
- 列は、JSONでのシリアル化が可能である必要があります。
有効な要約されたカテゴリー型特徴量の列の例を以下に示します。
{“Book1”: 100, “Book2”: 13}
無効な要約されたカテゴリー型特徴量の列は、次の例のいずれかのようになります。
-
{‘Book1’: 100, ‘Book2’: 12}
- キーは引用符内にありません(JSON-serializableではありません)。
-
{‘Book1’: ‘rate’,‘Book2’: ‘rate1’}
- これらの値は正の数値ではなく、文字列です。
-
{“Book1”, “Book2”}
- この例はJSONディクショナリ形式ではありません。
集計されたカテゴリー型特徴量の「概要」タブ¶
概要タブには、特徴量の最も頻繁に使用される上位50のキーが表示されます。各キーには、キーが平均値、標準偏差、中央値、最小値、および最大値に現れる行のパーセンテージが表示されます。キーは、このいずれかのフィールドで並べ替えることができます。この情報のほとんどは、データページの列内にある他の種類の特徴量からも確認できますが、集計されたカテゴリー特徴量の場合、各キーがそれぞれこれらのフィールドに独自の値を持っています。
概要タブでは、次の操作を行うことができます。
- キーおよびキーに関連付けられた値のリストをPNGとしてエクスポート(1)する。ダウンロードの前に、画像へのチャートタイトルの追加およびファイル名の編集を行うことができます。
- (2)リンクされたキーのページを移動する(1ページに10のキーが表示されます)。
- キーのヒストグラムにアクセス(3)する。
集計されたカテゴリー特徴量のヒストグラムタブ¶
このタブのほとんどの機能は、ヒストグラムの操作に関する上記のセクションで説明されている機能と同じですが、この特徴量タイプ独自の違いがいくつかあります。このタブに表示されるヒストグラムは、特徴量自身ではなく、特徴量の個々のラベル(キー)に対応しています。キーのリストは、データベースの行での発生率またはアルファベット順に並べ替えることができます。
DataRobotは、ヒストグラムの値を計算するときにストップワードを自動的に除外します。
「ヒストグラム」タブでは、次の操作を行うことができます。
- ラベルを検索(1)します。
- ビンの分布を変更する(2)。
- ターゲット値表示(3)の根拠を設定します。
-
Y軸の値を拡大する(4)。この操作では、Y軸で測定される行の数を減らすことができます。大きな値が現れるのは一般的に数行だけなので、大きな値が見やすくなります。上記のヒストグラムのサイズを変更すると、次のようになります。
Y軸を拡大することにより、測定された最大値が大幅に減少します。その結果、すべての値にわたる行の数が均等に表されます。
-
ヒストグラムをエクスポート(5)します。
図テーブル¶
図タブには、集計されたカテゴリーデータを特徴量として表す方法が表示されます。例えば、上記の説明のように、次の図の値列には、5つの集計されたカテゴリー特徴量が(ランダムに選択された)JSONディクショナリ形式で表示されています。
サマリーをクリックすると、集計されたカテゴリー特徴量として処理する前に、初期状態のカテゴリー値の表示方法を視覚化するボックスが表示されます。
テーブルタブ¶
多ラベルプロジェクトのデフォルトタブであるテーブルタブには、多カテゴリーの特徴量の上位50位の最頻出キーの詳細な数を示す2列のテーブルが表示されます。
テーブルには、値列の各キー、および件数列の該当するキーの数がリスト表示されます。
平均ターゲット値¶
EDA2の後、グラフがヒストグラムと頻度値チャートにオーバーレイするとオレンジの円が表示されます。円はビンの平均ターゲット値を示します。(カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)
例えば、特徴量num_lab_procedures
を考えてみます。
この例では、44から49.999999の検査手順を持つ人物が846名います。円によって表現される平均ターゲット値(この場合、再入院の割合)は37.23%です。(オレンジの点はヒストグラムの右軸に対応します。)
エクスポージャーによる出力の変化¶
プロジェクトのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。この場合の詳細を以下に示します。
- 各ビンに含まれる行の数(1)。
- 各ビンに含まれるエクスポージャーの合計(2)。これは、エクスポージャーによって加重されたすべての行の加重の合計です。
- 各ビンに含まれるターゲットの合計をエクスポージャーの合計(3)で除算した値。
加重による出力の変化¶
プロジェクトのウェイトパラメーターを設定した場合、DataRobotでは、行数および平均されたターゲット値がウェイトで加重されます。