データインサイトの分析¶
時間認識エクスペリメント
時間を認識するエクスペリメントでは、データプレビュー、特徴量、特徴量セットの各タイルに、派生データのみを表示するか、派生データと元のデータを表示するかを制御するトグルがあります。
以下のタブに表示されている情報は、EDA2の一部として生成されたものです。
データプレビュータイルは、トレーニングデータを探索して理解するための簡単で視覚的な方法を提供します。 これらのインサイトを利用すれば、同じエクスペリメントの中でモデルを繰り返し改良していくことができます。
| 要素 | 説明 | |
|---|---|---|
| 1 | ドロップダウンから特徴量を表示 | 特定の特徴量セットに含まれる特徴量を表示できます。 |
| 2 | + 特徴量セットを作成 | 新しい特徴量セットを作成します。 |
| 3 | 検索 | 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。 |
| 4 | 頻出値チャート | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 |
| 5 | サマリーを表示 | データセットの以下のサマリー情報を表示します。
|
| 6 | ラングリングレシピ | データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。 |
| 7 | プレビューサンプル | データセットの全行数のうち、プレビューの生成に使われた行数を表示します。 |
追加のサマリー統計およびインサイトを表示する特徴量を選択します。
| 要素 | 説明 | |
|---|---|---|
| 1 | 特徴量ドロップダウン | 現在表示中の特徴量を変更できます。 |
| 2 | サマリー統計 | データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。 |
| 3 | インサイト | その特徴量の型で取得可能なインサイトを表示できます。 |
| 4 | 詳細を表示 | チャートにカーソルを合わせると、追加情報が表示されます。 |
| 5 | 特徴量に移動 | 特徴量タイルを開き、表示していた特徴量を展開します。 |
特徴量タイルには、データセット内の特徴量が、サマリー統計(データ品質の問題など)や有用性スコアなどの情報とともに表示されます。 また、特徴量をクリックしてその他のインサイトを確認することで、データの理解を深めることもできます。
| 要素 | 説明 | |
|---|---|---|
| 1 | ドロップダウンから特徴量を表示 | 特徴量セットを切り替えて、データセット全体と比較できるため、特徴量セットをさらに絞り込むことができます。 |
| 2 | + 特徴量セットを作成 | 新しい特徴量セットを作成します。 |
| 3 | 検索 | 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。 |
| 4 | 特徴量 | 各特徴量を列として表示します。これにはデータ型と頻度チャートが含まれます。 |
| 5 | 有用性列 | 有用性列に緑色のバーを表示します。これは、1つの特徴量自体がターゲット特徴量の有用性とどの程度相関しているかを示す尺度です。 |
| 6 | プレビューサンプル | データセットの全行数のうち、プレビューの生成に使われた行数を表示します。 |
| 7 | サマリーを表示 | データセットの以下のサマリー情報を表示します。
|
| 8 | ラングリングレシピ | データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。 |
| 9 | 特徴量変換を作成 | データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。 |
追加のサマリー統計およびインサイトを表示する特徴量を選択します。
| 要素 | 説明 | |
|---|---|---|
| 1 | サマリー統計 | データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。 |
| 2 | インサイト | その特徴量の型で取得可能なインサイトを表示できます。 |
| 3 | 特徴量変換を作成 | データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。 |
特徴量セットタイルには、エクスペリメントに関連付けられたすべての特徴量セットが表示されます。 特徴量セットは、DataRobotでモデルの構築と予測に使用する特徴量のサブセットを制御します。
特徴量セットタイルを選択すると、DataRobotによって自動的に作成されたセットとカスタム特徴量セットの両方が表示されます。 カスタム特徴量セットは、モデリング前にデータ探索ページから、またはモデリング後にデータプレビュー、特徴量、またはこのタイルから作成できます。
特徴量セットおよびカスタム特徴量セットの作成については、特徴量セットのリファレンスページを参照してください。
| 要素 | 説明 | |
|---|---|---|
| 1 | + 特徴量セットを作成 | カスタム特徴量セットを作成できます。 詳細については特徴量セットを作成を参照してください。 |
| 2 | 検索 | 検索バーに入力されたキーワードに基づいて、既存の特徴量セットをフィルターします。 |
| 3 | アクションメニュー | 特定の特徴量セットのアクションメニュー を開きます。 |
アクションメニュー から、特徴量セットに対して以下のアクションを実行できます。
| アクション | 説明 |
|---|---|
| 特徴量を表示 | 特徴量セットのインサイトを探索します。 この選択により、フィルターが選択したセットに設定された特徴量タイルが開きます。 |
| 名前と説明の編集 | (カスタムリストのみ)リスト名を変更し、説明を変更または追加するダイアログが開きます。 |
| ダウンロード | そのセットに含まれる特徴量をCSVファイルとしてダウンロードします。 |
| モデリングを再実行 | モデリングを再実行モーダルが開き、新しい特徴量セットの選択、GPUワーカーによるトレーニング、オートパイロットの再起動が可能になります。 |
| 削除 | (カスタムリストのみ)選択したリストがエクスペリメントから完全に削除されます。 |
モデリングが完了したら、特徴量名をクリックして詳細を表示します。(場合によっては)タイプを変更することもできます。 使用可能なオプションは特徴量の型に応じて異なります。
| インサイト | 説明 | 特徴量の型 |
|---|---|---|
| 特徴量の関連性 | データインサイトタイルからのみ取得できます。 有用性スコアを使用したマトリックスを提供し、データ内の関連性を追跡および視覚化します。 X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 | N/A |
| ヒストグラム | 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 | 数値、集計されたカテゴリー型特徴量、多カテゴリー |
| 頻出値 | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 | 数値、分類、テキスト、ブール型 |
| 特徴量の統計 | 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 | 多ラベル |
| 特徴量の系統 (時系列) または (特徴量探索) | 派生した特徴量がどのように作成されたかを視覚的に説明します。 | 数値、分類、テキスト、ブール型 |
| 時間の経過(時間認識のみ) | 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 | 数値、分類、テキスト、ブール型 |
| データ品質評価 | 一般的なデータ品質の問題を検出して表示し、多くの場合、ユーザーによる操作を最小限に抑えて、あるいはまったく操作を必要とせずに処理します。 | N/A |
| 表 | 特徴量の値とその発生数の表が表示されます。 なお、表示される値の先頭にスペースが含まれる場合、その旨を示すタグ[leading space]が表示されます。 これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 |
数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル |
| 例示 | 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 概要とヒストグラムに関する詳細については、集計されたカテゴリータブの差異も参照してください。 | 集計されたカテゴリー型特徴量 |
備考
特徴量の値と表示は、EDA1(データアセットから表示)とEDA2(エクスペリメントから表示)で異なる場合があります。 EDA1の場合、チャートはデータセットから直接取得したデータを表します。 ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。 さらに、EDA2の後、EDA1ではまだ計算されていなかった平均ターゲット値が表示されます。
特徴量の関連性¶
データのインサイトタイルからアクセスできる特徴量の関連性インサイトでは、データ内の関連性の追跡と視覚化に役立つマトリックスを提供します。 これは、EDA2中に特徴量の有用性スコアを使用し、有用な特徴量特徴量セットにある数値およびカテゴリー特徴量に基づいて作成されます。
- 複数の特徴量が相互にどれだけ依存するかを決定するために役立つ指標。
- 特徴量を個別のクラスターまたは「ファミリー」にパーティション分割するプロトコルを提供します。
行列を使用するには、エクスペリメント内でデータインサイトタイルをクリックします。
| 要素 | 説明 | |
|---|---|---|
| 1 | 行列 | X軸とY軸の両方で、クラスター別に上位50個までの特徴量を一覧表示します。 |
| 2 | 詳細ペイン | クラスター、一般的な関連性、および関連性ペアに関するより具体的な情報を表示します。 |
| 3 | 特徴量ペア | 特定の特徴量ペア間の関連性と関係性を表示します。 |
| 4 | 行列のコントロール | ビューを変更できます。 |
特徴量の関連性の行列は、数値およびカテゴリー特徴量と特徴量クラスターのペア(数値/カテゴリー、数値/数値、カテゴリー/カテゴリー)の間の関連性の強さに関する情報を提供します。 クラスターは、行列上で色分けされた特徴量のファミリーであり、類似性に基づいてグループに分割された特徴量です。 行列の直感的な可視化により、以下のことが可能になります。
- 関連性分析をすばやく実行し、データに関する理解を深める。
- 関連性の強さと本質を理解する。
- ペア単位の関連性クラスターの群を検出する。
- モデル構築の前に高関連性の特徴量のクラスターを識別する(モデル入力に各グループ内の1つの特徴量を選択する一方でその他の特徴量を差分化するなど)。
行列の表示¶
EDA2が完了すると行列が使用可能になります。 X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 特徴量ペアの交点は、特徴量の同時生起のレベルを示します。 デフォルトでは、行列は相互情報量の値で表示されます。
デフォルトの行列からは、一般的に次のような結論が得られます。
- ターゲット特徴量は白の太字で表示されます。
- 個々の点は、2つの特徴量(特徴量ペア)の間の関連性を表します。
- 各クラスターは異なる色で表されます。
- 色の不透明度は、特徴量ペアの間における0~1の同時生起(関連または依存)を示します。 レベルは、相互情報量またはクラメールのVのいずれかの設定指標によって測定されます。
- 灰色の網掛けの点は、2つの特徴量が何らかの依存を示しているものの、同じクラスターに入っていないことを示します。
- 白い点は、クラスターに分類されなかった特徴量を表します。
- 「弱い ... 強い」の関連凡例は、指標内の点の不透明度が指標スコアの強さを表すことを示します。
行列内の点をクリックすると、右側の詳細ペインが更新されます。 デフォルトビューをリセットするには、選択したセルを再度クリックします。 表示条件を変更するには、行列の下のコントロールを使用します。
行列は、二値分類、連続値エクスペリメント、および多クラスのACE(有用性)スコアで上位50の特徴量をランク付けする有用性でフィルターすることもできます。
行列内の点をクリックすると、2つの特徴量の間の関連性がハイライトされます。
カーソルをドラッグすると、行列の任意のセクションの周囲に境界を描画できます。 行列がズームされ、描画した境界内のポイントだけが表示されます。 行列全体の表示に戻るには、行列の下にあるズームをリセットをクリックします。
行列ビューは、ソート条件を変更するか、関連性を計算する指標を変更することによって変更できます。 これらのコントロールは、行列の下にあります。
| 要素 | 説明 | |
|---|---|---|
| 1 | ソート条件ドロップダウン | 以下の条件で並べ替えできます。
|
| 2 | 特徴量セットのドロップダウン | エクスペリメントの特徴量セットで特徴量の関連性を計算できます。 リストを選択すると、ページがリフレッシュされ、選択した特徴量セットのマトリクスが表示されます。 |
| 3 | 指標ドロップダウン | 相互情報量またはクラメールのVの相関アルゴリズムを使用して、特徴量ペア間の関連性の計算方法を決定します。 |
| 4 | リセットズーム | 行列の一部を強調表示して詳細を確認した場合は、行列全体の表示に戻ります。 |
| 5 | エクスポート | 行列全体またはズームされた行列をエクスポートします。 |
詳細ペイン¶
デフォルトでは、行列セルが選択されていない状態で詳細ペインは、以下のように動作します。
- 最も強い関連性を、関連性指標スコアでランク付けして表示します。
- 識別されたすべてのクラスターのリスト(特徴量クラスタータブ)とその平均指標(wb-feat-associate){ target=_blank }スコアを表示します。
- 特徴量ペアの関連性の詳細のチャートへのアクセスを提供します。
リストは、行列を計算するときにDataRobotで実行される内部計算に基づきます。
行列でセルが選択されると、特徴量の関連性タブが更新され、選択された特徴量のペアに固有の情報が反映されます。
フィールドの説明を次の表示示します。
| カテゴリー | 説明 |
|---|---|
| 「特徴量_1」および「特徴量_2」 | |
| クラスター | ペアの両方の特徴量が属するクラスター(または別のクラスターからの場合)には「なし」と表示されます。 |
| 指標名 | 依存特徴量が相互に有する指標。 値は指標セット(相互情報量またはクラマーのVのいずれか)に依存します。 |
| 「特徴量_1」の詳細 「特徴量_2」の詳細 |
|
| 有用性 | 正規化された有用性スコア(3桁)は、ターゲットに対する特徴量の有用性を示します。 |
| タイプ | 特徴量のデータ型(数値または分類)。 |
| 平均 | 特徴量の平均値。 |
| 最小/最大 | 特徴量の最小値と最大値。 |
| 「特徴量_1」との強い関連性 | |
| 特徴量_1 | 行列上の特徴量の交点を選択すると、指標スコアに基づいて関連性が最も強い5つの特徴量のリストが表示されます。 |
デフォルトでは、見つかったすべてのクラスターが平均指標スコアでランク付けされて表示されます。 これらのランク付けは、相互依存が最も強いクラスターを示します。 表示名は、クラスター内でターゲットに相対的な有用性スコアが最も高い特徴量に基づきます。 行列内のポイントをクリックすると、特徴量クラスタータブの表示が変更されて、以下の内容がレポートされます。
- クラスターのスコアの詳細。
- クラスター内のすべての特徴量のリスト。
特徴量の関連性ペア¶
特徴量の関連性ペアを表示をクリックして、特徴量ペアの2つの特徴量の間の個々の関連性のプロットを表示するモデルを開きます。 結果のインサイトでは、計算にインパクトを与える値「関連性の測定基準」を確認できます。 最初、プロットは、行列内で選択された点に自動入力されます(これらの点は詳細ペインでもハイライトされます)。 各表示では、指標スコアが最も高い特徴量が属するクラスターに加えて、特徴量ペアの指標関連性スコアが表示されます。特徴量は、モデル(およびクラスターとスコア更新)から直接変更できます。
特徴量クラスタータブからアクセスしても、特徴量の関連性タブからアクセスしても、インサイトは同じです。 表示されたインサイトは、PNGをダウンロードをクリックして保存できます。
表示されるプロットは、データ型に応じて3つの種類があります。
- 数値特徴量と数値特徴量を比較する散布図。
- 数値特徴量とカテゴリー特徴量を比較する箱ひげ図。
- カテゴリー特徴量とカテゴリー特徴量を比較する分割表。
各種類の例と共にインサイトから取得できる内容を以下に示します。
数値特徴量と数値特徴量を比較する場合、散布図では、X軸に結果の範囲が示されます。 点のサイズ(または重複する点)は、値の頻度を表します。
たとえば、上のグラフを見ると、num_lab_proceduresがnumber_emergencyに明確な依存関係を持っていないと推測してしまうかもしれません。その結果、患者の医療ケアのうち、全く異なる、関連性のない部分を測定することになってしまいます。
箱ひげ図は、データのグループの上位四分位点と下位四分位点をグラフィカルに表示します。 箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。 X軸またはY軸にどの特徴量を設定するかに応じて、プロットは垂直または水平方向の形になります。 いずれの場合でも、エンドポイントは最大値と最小値を示し、箱は値の最高発生数を示します。 DataRobotでは、数値特徴量とカテゴリー特徴量のペアのインサイトを作成するために箱ひげ図が使用されます。
上記の例では、2つの特徴量の間には弱い関係性があることがグラフからわかります。しかし、すべての年齢層において救急外来の受診件数は少ないものの、60~70歳の層では、かなりの割合の人が非常に多くの回数受診しています。
両方の特徴量がカテゴリー特徴量である場合、選択した特徴量の値の頻度分布を示す分割表が作成されます。 分割表には、最大6つのビンが含まれます。 各ビンは一意の特徴量値を表します。5つ以上の一意の値のある特徴量の場合、上位の5つが表示されます。残りの値は、「その他」という名前のビンに集約されます。
上記の例では、円が大きくなるほど、race × insulinの組み合わせに該当する患者数が増えます。 このプロットから、人種とインスリン投与量の間には実質的に相関関係がないことがわかります。 このグラフから得られる重要なポイントは、より正確な分析を行うためには、人種構成をより均等にする必要があるということです。
ヒストグラム¶
ヒストグラムチャートは数値特徴量のデフォルト表示です。 数値特徴量の値を同じサイズの各範囲に「バケット化」して特徴量の度数分布を示し、値の頻度(X軸)に対してターゲット観測値(左Y軸)をプロットします。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
データ品質の問題である「外れ値」が検出されたかどうかによって、表示が異なります。
EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。
特徴量分布の設定¶
DataRobotでは、データを複数のビンに分割します。ビンのサイズは、データセット内の行数によって異なります。 ビンの数を変更して、分布範囲を変更することができます。 ビンのオプションは、データセットに含まれるユニーク値の数に依存します。
分類プロジェクトでは、表示の基準を変更し、行数やターゲット値の割合に基づいてビンを埋めるようにすることもできます。 選択に一致するようにヒストグラムおよび平均ターゲット値オーバーレイの表示を変更することもできます。
数値特徴量の場合、ヒストグラムを使用して値の大まかな分布を表示します。
-
エクスペリメントを実行したら、特徴量タイルに移動し、特徴量を選択します。
数値特徴量の場合、ヒストグラムには等しいサイズの範囲(ビン)が表示されます。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
-
ビンにカーソルを合わせると、範囲と範囲内の行数が表示されます。
たとえば、
time_in_hospital特徴量は入院日数です。 ヒストグラムは、1~3日の来院が最も一般的であることを示しています。 -
左下にあるドロップダウンメニューの表示中をクリックして、ビンの数を変更します。
外れ値を計算¶
外れ値(サンプル平均の一番端にある観測ポイント)は、データのばらつきの結果である可能性があります。 外れ値はデータエラーを表すことがあります。その場合、ヒストグラムから外れ値を除外することが推奨されます。 外れ値検知(ヒューリスティックの組み合わせを使用してEDA1の一部として実行)は単なるヒストグラム視覚化ツールなので、モデリング処理には影響しません。 詳細については、データ品質チェックを参照してください。
チャートの上にある従来の箱ひげ図(金色で表示)では、データの四分位中央値が強調表示されているので、分布が偏っているかどうかを判断するのに役立ちます。 ひげの長さを決定し、外れ値を特定するために、DataRobotでは上田のアルゴリズムを採用しています。このひげは、これらの外れ値を除くデータセット内の最低および最高のデータポイントの全範囲を示しています。 ひげは、これらの外れ値を除いた、データセット内の最小および最大のデータポイントの全範囲を示しています。箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。
ヒストグラムを使用して、外れ値を含む特徴量を調べます。
-
特徴量セットに外れ値が存在する場合は、その特徴量を選択します。
-
ヒストグラムチャートの下で、外れ値を表示をオンに切り替えて、外れ値を含む行を識別する計算を開始します。 その後、外れ値を含むヒストグラムが再表示されます。
ヒストグラムの上部にある赤い点は外れ値を表します。 金色の箱ひげ図では、データの四分位中央値が示されているので、分布が偏っているかどうかを判断するのに役立ちます。
外れ値を計算した後、なぜビンサイズが変更されるのでしょうか?
DataRobotは、表示に基づいてビン値を再シャッフルします。 外れ値を除外するとビンの数が増え、各ビンに含まれる行数が少なくなります。 オンにすると、ビンの値の範囲が拡大するので各ビンにはより多くの行が含まれます。
外れ値を表示できるように、X軸の目盛りを変更し、箱ひげ図を圧縮しました。 外れ値を記録している行は少ない傾向にあるため(それが外れ値である理由です)、紫色のバーが表示されない場合があります。 その列にカーソルを合わせると、実際の行数を示すツールチップが表示されます。
外れ値の表示設定に関係なく、ビンの選択ドロップダウンは通常通り機能します。
-
赤い点にカーソルを合わせると、外れ値の値が表示されます。
この例では、
num_medications特徴量に示されている外れ値は70であり、中央値の14から大きく外れています。
頻出値¶
頻出値チャートはヒストグラムであり、特徴量の各値を含む行の数やターゲットの各値に対する行の割合を示すだけでなく、インライア、偽装欠損値、過剰なゼロについても報告します。 このバージョンのヒストグラムは、カテゴリー型、テキスト型、およびブール型の特徴量に対してデフォルトで表示されますが、他の特徴量型でも使用できます。 表示は、データ品質チェックの結果に応じて異なります。
特徴量値チャートには、データセットにある特徴量の各値と、その値を持つ行の数が表示されます。 データ品質の問題がない場合:
多くの場合、ソート順ドロップダウンで表示を変更できます。 デフォルトでは、頻度(行数)で降順にソートされます。 また、<feature_name>で並べ替えることもできます。この場合は、アルファベット順、または数値の場合は小さい順に表示されます。 エクスポートリンクを使用すると、頻出値チャートの画像をPNGファイルとしてダウンロードできます。
ヒストグラムに重なる白い円は、ビンの平均ターゲット値(EDA2中に計算)を示します。
特徴量の系統¶
特徴量の系統インサイト(特徴量探索と時系列エクスペリメントで取得可能)は、特徴量がどのように派生したか、および特徴量派生プロセスに関係したデータセットを視覚的に説明します。 ここでは、元のデータセット(左側)から特徴量(右側)を生成するために使用された手順が可視化されます。 各要素は、アクションまたはJOINを表します。
詳細については、特徴量探索と時系列に関するDataRobot Classicのドキュメントを参照してください。
時間経過¶
時間経過チャートでは、元のモデリングデータと派生データの両方について、プライマリー日付/時刻特徴量に対する特徴量の変化を表示することで、データの傾向や潜在的なギャップを特定できます。 すべての時間認識エクスペリメント(OTV、単一系列、複数系列)で使用できます。 時系列の場合、ユーザー設定の各予測距離に使用できます。
詳細については、DataRobot Classicのドキュメントで特徴量の時間経過チャートを理解するを参照してください。
有用性スコア¶
特徴量タイルの有用性列に表示されている緑色のバーは、1つの特徴量が単独でターゲット特徴量とどの程度相関しているかを示します。 バーにカーソルを合わせると、正確な値が表示されます。
詳細については、モデリングプロセスのリファレンスドキュメントを参照してください。
データ品質評価¶
データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。
エクスペリメントからデータ品質評価にアクセスするには、特徴量またはデータプレビュータイルを開き、サマリーを表示をクリックします(すでに開いている場合、ボタンにはサマリーを表示しないと表示されます)。
追加の手順や処理ロジックの説明などの詳細については、データ品質評価のリファレンスドキュメントを参照してください。
平均ターゲット値¶
EDA2の後、ヒストグラムおよび頻出値チャートにグラフのオーバーレイとして白い円が表示されます。 円はビンの平均ターゲット値を示します。 (カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)
たとえば、特徴量num_lab_proceduresを考えてみます。
この例では、検査件数が44〜49.999999件の人が858人います。 平均ターゲット値は各ビン内の円で表され、ヒストグラムの右軸(この場合は再入院率)に対応しています。その値は37.88%です。
エクスポージャーによる出力の変化¶
エクスペリメントのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。 この場合の詳細を以下に示します。
- 各ビンの行数。
- 各ビンでのエクスポージャーの合計。 これは、エクスポージャーによって加重されたすべての行の加重の合計です。
- ターゲットの合計値をビン内のエクスポージャーの合計で割ったもの。
必要なデータセットの形式の詳細については、モデリングプロセスのドキュメントを参照してください。
加重による出力の変化¶
エクスペリメントにウェイトパラメーターを設定すると、行数と平均ターゲット値がウェイトで加重されます。
集計されたカテゴリー特徴量¶
集計されたカテゴリー型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。 元のデータセットにこの型の特徴量がない場合、EDA2の中でそれらが作成されます(こちらで説明するように適切な場合)。集計されたカテゴリー特徴量では、概要、ヒストグラム、例示、テーブルのインサイトで、特徴量に関する独自の詳細が表示されます。
多ラベルと集計されたカテゴリーの違い
これら2つの特徴量型の主な違いは、モデリングプロジェクトにおける役割にあります。
- 多ラベル特徴量は、多ラベル分類問題において、ターゲット特徴量としてのみ使用されます。 列が多カテゴリーとして設定されていても、ターゲットとして選択されていない場合は、モデリング時に無視されます。
- 集計されたカテゴリー特徴量はモデリングの入力特徴量として使用され、ターゲットとして使用することはできません。
概要¶
概要タブには、特徴量の最も頻繁に使用される上位50のキーが表示されます。 各キーには、キーが平均値、標準偏差、中央値、最小値、および最大値に現れる行のパーセンテージが表示されます。キーは、このいずれかのフィールドで並べ替えることができます。 この情報のほとんどは、特徴量のインサイトの上にあるサマリー統計では他の特徴量型でも確認できます。集計されたカテゴリー特徴量の場合、個々のキーごとにこれらのフィールドの値が異なります。
このタブでは、以下の操作を実行できます。
- エクスポートをクリックすると、キーとその関連値のリストがPNG形式でエクスポートされます。 ダウンロード前に、画像にチャートのタイトルを含めるかどうかを選択したり、ファイル名を編集したりすることができます。
- 特定のキーをクリックすると、そのヒストグラムが開きます。
ヒストグラム¶
このタブのほとんどの機能は、上記のヒストグラムセクションで説明されている機能と同じですが、この特徴量の型独自の違いがいくつかあります。 このタブに表示されるヒストグラムは、特徴量自身ではなく、特徴量の個々のラベル(キー)に対応しています。 キーのリストは、データベースの行での発生率またはアルファベット順に並べ替えることができます。
| 要素 | 説明 | |
|---|---|---|
| 1 | 検索 | ラベルを検索します。 |
| 2 | 表示中 | ビンの分布を変更します。 表示するビンの数を選択します。 |
| 3 | ターゲット値 | ターゲット値表示の基準を設定します。 |
| 4 | エクスポート | ヒストグラムをエクスポートします。 |
備考
DataRobotは、ヒストグラムの値を計算するときにストップワードを自動的に除外します。
表¶
多ラベルプロジェクトのデフォルトタブである表タブには、多カテゴリー特徴量の上位50位の最頻出キーの詳細な数を示す2列の表が表示されます。
表には、値列の各キー、およびカウント列の該当するキーの数がリストされます。
「値」列でのUnicodeテキスト
Unicodeテキストを使用していて、「値」列に正常に表示されない場合は、テキストがUTF8でエンコードされているかどうかを確認してください。
例示¶
例示タブには、集計されたカテゴリー型データを特徴量として表す方法が示されます。 たとえば、こちらで説明されているように、以下の図の値列には、5つの集計されたカテゴリー特徴量(ランダムに選択)がJSONディクショナリ形式で表示されています。
サマリーをクリックすると、集計された特徴量として処理する前に、初期状態のカテゴリー型値の表示方法を視覚化するボックスが表示されます。





































