Analyze data insights¶
タイル | 説明 |
---|---|
![]() |
Displays a more visual representation of the features in your dataset, including frequent values. |
![]() |
|
![]() |
Allows you to create new feature lists, manage existing ones, and retrain all the models in an experiment on a different feature list. |
![]() |
Helps you track and visualize associations within your data using the Feature Associations insight. |
備考
For time-aware experiments, the [Data preview]{0}, [Features]{1}, and [Feature lists]{2} tiles have a toggle that controls whether the display is derived data only or derived and original data.
Data preview tile¶
The Data preview tile provides a simplified, visual representation of the features in your dataset.
要素 | 説明 | |
---|---|---|
1 | Show features from dropdown | Allows you to view features from a specific feature list. |
2 | + 特徴量セットを作成 | Creates a new feature list. |
3 | 検索 | Searches for a specific feature in the dataset or feature list you're currently viewing. |
4 | 特徴量 | Displays each feature row and column for the selected feature list. |
5 | 頻出値チャート | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 |
6 | サマリーを表示 | |
7 | プレビューサンプル | Displays the number of rows used to generate the preview out of the totaly number of rows in the dataset. |
8 | ラングリングレシピ | Allows you to view the wrangling recipe, if applicable, associated with the dataset, as well as continue wrangling the dataset. |
各特徴量をクリックすると、その他の情報やインサイトが表示されます。
要素 | 説明 | |
---|---|---|
1 | Feature dropdown | Allows you to change the feature you're currently viewing. |
2 | サマリー統計 | Displays summary statistics for the feature, including data quality issues and unique values. |
3 | インサイト | Allows you to view available insights for the variable type of the feature. |
4 | Hover details | Displays additional information when you hover on the chart. |
5 | 特徴量に移動 | Opens the Features tile and expands the feature you were viewing. |
Features tile¶
The Features tile displays the features in your dataset alongside summary statistics, and also allows you to view additional insights and information to help you better understand your data.
要素 | 説明 | |
---|---|---|
1 | Show features from dropdown | Allows you to view features from a specific feature list. |
2 | + 特徴量セットを作成 | Creates a new feature list. |
3 | 検索 | Searches for a specific feature in the dataset or feature list you're currently viewing. |
4 | 特徴量 | Displays each feature, as well as summary statstics for each feature, in the selected feature list . |
5 | 重要度列 | 有用性列に表示される緑色のバーは、1つの特徴量が単独でターゲット特徴量とどの程度相関しているかを示す指標です。 |
6 | プレビューサンプル | Displays the number of rows used to generate the preview out of the totaly number of rows in the dataset. |
7 | サマリーを表示 | |
8 | ラングリングレシピ | Allows you to view the wrangling recipe, if applicable, associated with the dataset, as well as continue wrangling the dataset. |
各特徴量をクリックすると、その他の情報やインサイトが表示されます。
要素 | 説明 | |
---|---|---|
1 | サマリー統計 | Displays summary statistics for the feature, including data quality issues and unique values. |
2 | インサイト | Allows you to view available insights for the variable type of the feature. |
Feature lists tile¶
The Feature lists tile displays all feature lists associated with the experiment. 特徴量セットは、DataRobotでモデルの構築と予測に使用する特徴量のサブセットを制御します。 ターゲットリーケージの原因となる特徴量を除外したり、または重要でない特徴量を削除して予測を高速化したりできます。
When you select the Feature lists tile, the display shows both DataRobot's [automatically created]{0} lists and any [custom]{1} feature lists ("demographics" and "FiveFeatures" in this example).
要素 | 説明 | |
---|---|---|
1 | + 特徴量セットを作成 | |
2 | 検索 | Filters existing feature lists based on the key words entered in the search bar. |
3 | アクションメニュー | Opens the actions menu for a specific feature list. |
The following actions are available for feature lists from the actions menu :
アクション | 説明 |
---|---|
特徴量を表示 | |
名前と説明の編集 | (カスタムリストのみ)リスト名を変更し、説明を変更または追加するダイアログが開きます。 |
ダウンロード | そのセットに含まれる特徴量を.csv ファイルとしてダウンロードします。 |
モデリングを再実行 | モデリングを再実行モーダルが開き、新しい特徴量セットの選択、GPUワーカーによるトレーニング、オートパイロットの再起動が可能になります。 |
削除 | (カスタムリストのみ)選択したリストがエクスペリメントから完全に削除されます。 |
Custom feature lists can be created prior to modeling from the data explorer or after modeling from Data preview, Features, or this tile. 新規リストの作成については、 [カスタム特徴量セットのリファレンス]{0}を参照してください。
エクスペリメントから作成されたリストは以下の通りであることに注意してください。
- エクスペリメント内で、モデルの再トレーニングやブループリント リポジトリから新しいモデルのトレーニングに使用されます。
- ユースケースのすべてのエクスペリメントにわたってではなく、そのエクスペリメント内でのみ使用できます。
- データエクスプローラーでは使用できません。
Data insights tile¶
Displays the Feature Associations insight to help you track and visualize associations within your data.
使用可能なインサイト¶
Once modeling is complete, you can click a feature name to view its details and also (in some cases) modify its type. 使用可能なオプションは特徴量の型に応じて異なります。
| インサイト | 説明 | 特徴量の型 | | |-----------|-------------|-----------------| | ヒストグラム | 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 | numeric, summarized categorical, multicategorical | | 頻出値 | | 数値、分類、テキスト、ブール型 | | 表 | | 数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル | | 例示 | | 集計されたカテゴリー型特徴量 | | カテゴリークラウド | | 集計されたカテゴリー型特徴量 | | 特徴量の統計 | 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 | 多ラベル | | 時間の経過(時間認識のみ) | 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 | 数値、分類、テキスト、ブール型 | | Feature Lineage (time series) or (Feature Discovery) | 派生した特徴量がどのように作成されたかを視覚的に説明します。 | 数値、分類、テキスト、ブール型 | | 特徴量の関連性 | | N/A | | データ品質評価 | DataRobotは一般的なデータ品質の問題を自動的に検出し、それらの多くをユーザーの手間をほとんどかけず、または全くかけずに処理します。 | N/A |
備考
The values and displays for a feature may differ between EDA1 (viewed from Data assets) and EDA2 (Viewed from an Experiments). For EDA1, the charts represent data straight from the dataset. ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。 Additionally, after EDA2 DataRobot displays average target values which are not yet calculated for EDA1.
ヒストグラム¶
ヒストグラムチャートは数値特徴量のデフォルト表示です。 数値特徴量の値を同じサイズの各範囲に「バケット化」して特徴量の度数分布を示し、値の頻度(X軸)に対してターゲット観測値(左Y軸)をプロットします。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。
For more information, see the documentation on [Feature details and the Histogram chart]{0}.
頻出値¶
The Frequent Values chart is a histogram that in addition to showing the number of rows containing each value of a feature and the percentage of rows for each value of the target, also reports inliers, disguised missing values, and excess zeros.
頻出値チャートは、カテゴリー、テキスト、ブール型の特徴量のデフォルト表示です(その他の特徴量タイプでも使用可能です)。 The display is dependent on the results of the data quality check. カテゴリー特徴量やブール特徴量などの一部の特徴量では、頻出値 インサイトがデフォルトです。
EDA2が完了すると、頻出値チャートには平均ターゲット値オーバーレイも表示されます。
特徴量値チャートには、特徴量のデータセットに表示される各値およびその値を含む行数が表示されます。 データ品質の問題がない場合:
多くの場合、ソート順ドロップダウンで表示を変更できます。 デフォルトでは、頻度(行数)で降順にソートされます。 <特徴量_名
>でソートすることもできます。その場合、アルファベット順または昇順(数値の場合)で表示されます。 エクスポートリンクを使用すると、頻出値チャートのイメージをPNGファイルとしてダウンロードできます。
Notice the white circles that overlay the histogram. 円はビンの平均ターゲット値を示します。
特徴量の系統¶
The Feature Lineage insight—available for Feature Discovery and time series experiments—provides a visual description of how the feature was derived as well as the datasets that were involved in the feature derivation process. ここでは、元のデータセット(左側)から特徴量(右側)を生成するために使用された手順が可視化されます。 各要素は、1つのアクションまたはJOIN
を表します。
For more information, see the documentation on [Feature Discovery]{0} and [time series]{1}.
時間経過¶
時間経過チャートでは、元のモデリングデータと派生データの両方でプライマリ日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 チャートは、すべての時間認識エクスペリメント(OTV、単一系列、および複数系列)で使用可能です。 時系列の場合、ユーザー設定の各予測距離に使用できます。
For more information, see [Understand a feature's Over Time chart]{0}.
特徴量の関連性¶
Accessed from the Data insights tile, the Feature Associations insight provides a matrix to help you track and visualize associations within your data. この情報は、次のようなさまざまな指数から派生します。
- 複数の特徴量が相互にどれだけ依存するかを決定するために役立つ指標。
- 特徴量を個別のクラスターまたは「ファミリー」にパーティション分割するプロトコルを提供します。
行列は次のとおりです。
To use the matrix, within an experiment, click the Data insights tile.
要素 | 説明 | |
---|---|---|
1 | 行列 | X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 |
2 | 詳細ペイン | Displays more specific information on clusters, general associations, and association pairs. |
3 | Feature pairs | Displays associations and relationships between specific feature pairs. |
4 | Matrix controls | Allows you to modify the view. |
特徴量の関連性の行列は、数値およびカテゴリー特徴量と特徴量クラスターのペア(数値/カテゴリー、数値/数値、カテゴリー/カテゴリー)の間の関連性の強さに関する情報を提供します。 クラスター(行列上で色分けされた特徴量の族)は、類似性に基づいてグループにパーティション分割された特徴量です。 行列の直感的な可視化により、以下のことが可能になります。
- 関連性分析をすばやく実行し、データに関する理解を深める。
- 関連性の強さと本質を理解する。
- ペア単位の関連性クラスターの群を検出する。
- モデル構築の前に高関連性の特徴量のクラスターを識別する(モデル入力に各グループ内の1つの特徴量を選択する一方でその他の特徴量を差分化するなど)。
行列の表示¶
EDA2が完了すると行列が使用可能になります。 X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 特徴量ペアの交点は、特徴量の同時生起のレベルを示します。 デフォルトで、行列は相互情報別に表示されます。
デフォルトの行列からは、一般的に次のような結論が得られます。
- ターゲット特徴量は白の太字で表示されます。
- 個々の点は、2つの特徴量(特徴量ペア)の間の関連性を表します。
- 各クラスターは異なる色で表されます。
- 色の不透明度は、特徴量ペアの間における0~1の同時生起(関連または依存)を示します。 Levels are measured by the set metric, either mutual information or Cramer's V.
- 灰色の網掛けの点は、2つの特徴量が何らかの依存を示しているものの、同じクラスターに入っていないことを示します。
- 白い点は、クラスターに分類されなかった特徴量を表します。
- 「弱い ... 強い」の関連凡例は、指標内の点の不透明度が指標スコアの強さを表すことを示します。
行列内の点をクリックすると、右側の詳細ペインが更新されます。 デフォルトビューをリセットするには、選択したセルを再度クリックします。 行列の下にあるコントロールを使用すると、表示条件を変更できます。
行列は、二値分類、連続値エクスペリメント、および多クラスのACE(有用性)スコアで上位50の特徴量をランク付けする有用性でフィルターすることもできます。
行列内の点をクリックすると、2つの特徴量の間の関連性がハイライトされます。
カーソルをドラッグすると、行列の任意のセクションの周囲に境界を描画できます。 行列がズームされ、描画した境界内のポイントだけが表示されます。 To return to the full matrix view, click Reset Zoom below the matrix.
行列ビューは、ソート条件を変更するか、関連性を計算する指標を変更することによって変更できます。 これらのコントロールは、行列の下にあります。
要素 | 説明 | |
---|---|---|
1 | Sort by dropdown | Allows you to sort by:
|
2 | 特徴量セットのドロップダウン | |
3 | Metric dropdown | Determines how DataRobot calculates the association between feature pairs, using either the Mutual Information or Cramer's V correlation algorithms. |
4 | リセットズーム | Returns to the full matrix view if you previously highlighted a section of the matrix for closer observation. |
5 | エクスポート | Exports either the full or zoomed matrix. |
詳細ペイン¶
デフォルトでは、行列セルが選択されていない状態で詳細ペインは、以下のように動作します。
- 最も強い関連性を、関連性指標スコアでランク付けして表示します。
- 識別されたすべてのクラスターのリスト(特徴量クラスタータブ)とその平均指標(wb-feat-associate){ target=_blank }スコアを表示します。
- 特徴量ペアの関連性の詳細のチャートへのアクセスを提供します。
リストは、行列を計算するときにDataRobotで実行される内部計算に基づきます。
行列で1つのセルを選択すると、特徴量の関連性タブが更新され、選択した特徴量ペアに固有の情報が反映されます。
フィールドの説明を次の表示示します。
カテゴリー | 説明 |
---|---|
「特徴量_1」および「特徴量_2」 | |
クラスター | ペアの両方の特徴量が属するクラスター(または別のクラスターからの場合)には「なし」と表示されます。 |
指標名 | |
「特徴量_1」の詳細 「特徴量_2」の詳細 |
|
有用性 | 正規化された有用性スコア(3桁)は、ターゲットに対する特徴量の有用性を示します。 |
タイプ | 特徴量のデータ型(数値または分類)。 |
平均 | The mean of the feature value. |
最小/最大 | 特徴量の最小値および最大値。 |
「特徴量_1」との強い関連性 | |
特徴量_1 | 行列上の特徴量の交点を選択すると、指標スコアに基づいて関連性が最も強い5つの特徴量のリストが表示されます。 |
デフォルトでは、見つかったすべてのクラスターが平均指標スコアでランク付けされて表示されます。 これらのランク付けは、相互依存が最も強いクラスターを示します。 表示名は、クラスター内でターゲットに相対的な有用性スコアが最も高い特徴量に基づきます。 行列内のポイントをクリックすると、特徴量クラスタータブの表示が変更されて、以下の内容がレポートされます。
- クラスターのスコアの詳細。
- クラスター内のすべての特徴量のリスト。
特徴量の関連性ペア¶
特徴量の関連性ペアを表示をクリックして、特徴量ペアの2つの特徴量の間の個々の関連性のプロットを表示するモデルを開きます。 結果のインサイトでは、計算にインパクトを与える値「関連性の測定基準」を確認できます。 最初、プロットは、行列内で選択された点に自動入力されます(これらの点は詳細ペインでもハイライトされます)。 各表示では、指標スコアが最も高い特徴量が属するクラスターに加えて、特徴量ペアの指標関連性スコアが表示されます。特徴量は、モデル(およびクラスターとスコア更新)から直接変更できます。
特徴量クラスタータブからアクセスした場合でも、特徴量の関連性タブからアクセスした場合でも、インサイトは同じです。 表示されたインサイトは、PNGをダウンロードをクリックして保存できます。
表示されるプロットは、データ型に応じて3つの種類があります。
- 数値特徴量と数値特徴量を比較する散布図。
- 数値特徴量とカテゴリー特徴量を比較する箱ひげ図。
- カテゴリー特徴量とカテゴリー特徴量を比較する分割表。
各種類の例と共にインサイトから取得できる内容を以下に示します。
数値特徴量と数値特徴量を比較する場合、散布図では、X軸に結果の範囲が示されます。 点のサイズ(または重複する点)は、値の頻度を表します。
たとえば、上記のチャートでは、12m_interestとreviews_seasonalで明らかな関連が認められないので、2つの特徴量が共有する相互情報量は非常に低いと考えられます。
箱ひげ図は、データのグループの上位四分位点と下位四分位点をグラフィカルに表示します。 箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。 X軸またはY軸にどの特徴量を設定するかに応じて、プロットは垂直または水平方向の形になります。 いずれの場合でも、エンドポイントは最大値と最小値を示し、箱は値の最高発生数を示します。 DataRobotでは、数値特徴量とカテゴリー特徴量のペアのインサイトを作成するために箱ひげ図が使用されます。
上の例では、プロットはonline_sitesの特徴量がバラつくのはE1の箇所であることを示してします。 その他の地域間では、はらつきはほとんどありません。
両方の特徴量がカテゴリー特徴量である場合、選択した特徴量の値の頻度分布を示す分割表が作成されます。 分割表には、最大6つのビンが含まれます。 各ビンは一意の特徴量値を表します。5つ以上の一意の値のある特徴量の場合、上位の5つが表示されます。残りの値は、「その他」という名前のビンに集約されます。
分割表の意味を以下に示します。9か月のバケットよりも多くの合計レビューがあるので、12か月のバケット内の点はすべて大きく表示されます。 レビュー_部門バケット全体の点のサイズに多くのばらつきはないので、最新の_応答に関するナレッジによってレビュー_部門に関するナレッジは向上しません。 結果は低い指標スコアです。
有用性スコア¶
On the Features tile, the green bars displayed in the Importance column are a measure of how much a feature, by itself, is correlated with the target variable. バーにカーソルを合わせると、正確な値が表示されます。
有用性とは?
有用性バーは、特徴量がターゲットと相関している度合いを示します。 これらのバーは、「交替条件付き期待値」(ACE)スコアに基づいています。 ACEスコアは、ターゲットとの非線形関係性を検出できますが、単変量であるため、特徴量間の交互作用効果を検出できません。 有用性は、変数の情報内容を測定するアルゴリズムを使用して計算されます。計算はそれぞれの特徴量ごとに行われます。 有用性スコアは、2つのコンポーネント(Value
およびNormalized Value
)が含まれます。
Value
:これにより、その特徴量だけを使用してモデルを構築する場合に期待される指標スコアが(概ね)分かります。 多クラスの場合、Value
は各クラスの二値有用性上位モデルからの加重平均として計算されます。 二値分類および連続値の場合、選択したプロジェクト指標を使用して検定セットで評価された有用性上位モデルからの予測です。Normalized Value
:正規化されたValue
。1までのスコア(スコアが高いほど良い)。 0は、精度がトレーニングターゲットの平均を予測することと同じであることを意味します。 スコアが0未満の場合は、ACEモデルの予測がターゲットの平均モデルよりも劣っていること(過剰適合)を意味します。
これらのスコアは、その特徴量だけを使用してターゲットを予測するシンプルなモデルの予測能力の指標を示します。 (The score is adjusted by exposure if you set the Exposure parameter.) Scores are measured using the project's accuracy metric.
特徴量は、最も有用性の高いものから低い順にランク付けされています。 各特徴量の横にある緑色のバーの長さは、その相対的な有用性を示しています。—バーの全長と比較したバーの緑色の量は、潜在的な特徴量の最大の有用性を示しています(Normalized Value
に比例しています)。—バーの緑色が強いほど、その特徴量がより高い有用性であることを示しています。 緑色のバーの上にマウスを置くと両方のスコアが表示されます。 これらの数値は、その特徴量だけを使用するモデルのプロジェクト指標(プロジェクトが実行されたときに選択された指標)に関するスコアを表しています。 リーダーボードで指標を変更してもツールチップに表示されるスコアには影響しません。
データ品質評価¶
データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。
重要な追加情報については、関連する注意事項を参照してください。
[EDA1]{0}の一部として、DataRobotは、日付/時刻やターゲット情報を必要としない特徴量でチェックを実行します。 Once EDA2 starts, DataRobot runs:
DataRobot always runs the following baseline data quality checks:
- 外れ値
- 多カテゴリー形式エラー
- インライア
- 過剰なゼロ
- 偽装欠損値
- ターゲットリーケージ
- 欠損画像(Visual Artificial Intelligence (AI)エクスペリメントの場合)
時系列エクスペリメントは、すべてのベースラインデータ品質チェックと以下のチェックを実行します。
- 補完リーケージ
- 事前に派生したラグ特徴量
- 不規則な時間ステップ(一貫性のないギャップ)
- 先行または後続ゼロ
- まれな負の値
- 検定の新しい系列
Visual Artificial Intelligence(AI)エクスペリメントのデータ品質評価では、同じベースラインチェックと追加の欠損画像チェックが実行されます。
モデルの構築が完了した後、 データ品質処理レポートで追加の補完情報を表示できます。
ターゲットリーケージの特定
EDA2の計算時に、DataRobotはターゲットリーケージをチェックします。ターゲットリーケージは、予測時にその値を知ることができない特徴量を指し、過度に楽観的なモデルにつながります。 これらの特徴量の横にはバッジが表示されるため、簡単に識別して新しい特徴量セットから除外できます。
評価の調査¶
データ品質評価は、モデル構築のステージに関連するデータ品質の問題に関する情報を提供します。 最初はEDA1(データ取込み)の一部として実行され、すべての特徴量セットに結果が表示されます。 再度実行されてEDA2の後に更新され、選択された特徴量セット(または、デフォルトでは、すべての特徴量)の情報が表示されます。 個々の特徴量に適用できないチェック(一貫性のないギャップなど)の場合、レポートは一般的なサマリーを提供します。
You can access the Data Quality Assessment by clicking Show Summary (unless already open, then the button displays Hide summary) on either the Data Preview or Features tile.
Then, click Show details to open a detailed report.
各データ品質チェックは、問題のステータスフラグ、問題の短い説明、および推奨メッセージ(適切な場合)を提供します。
ステータス | 説明 |
---|---|
警告 | Attention or action required |
情報 | No action required |
合格 | No issue detected |
Because the results are feature-list based, it is possible that if you change the selected feature list, new checks will appear or current checks will disappear from the assessment. たとえば、特徴量セットList 1
に外れ値を含む特徴量problem
が含まれる場合、評価には外れ値チェックが表示されます。 リストを、problem
(または外れ値のあるその他の特徴量)が含まれていないList 2
に変更した場合、外れ値チェックでは「問題なし」 とレポートされます。
評価モーダル内から、問題のタイプでフィルターして、チェックをトリガーした特徴量を確認できます。 影響を受ける特徴量だけを表示をオンに切り替え、チェック名の横にあるチェックボックスを選択して、表示するチェックを選択します。
DataRobot then displays only features violating the selected data quality checks, and within the selected feature list. アイコンにカーソルを合わせると詳細が表示されます。
多ラベルおよびVisual Artificial Intelligence (AI)エクスペリメントの場合、評価により、データセット内に多カテゴリー形式エラー または欠損画像が検出された場合は、プレビューログが上部に表示されます。 プレビューログをクリックすると、各エラーの詳細ビューが表示されたウィンドウが開き、データセット内のエラーを簡単に見つけて修正できます。
集計されたカテゴリー特徴量¶
集計されたカテゴリー型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。 If your original dataset does not have features of this type, DataRobot creates them (where appropriate as described below) as part of EDA2. The summarized categorical variable type offers unique feature details in its Overview, Histogram, Category Cloud, Illustration, and Table insights.
備考
集計されたカテゴリー特徴量はモデリングのターゲットとして使用することはできません。
必要なデータセットの形式¶
特徴量が集計されたカテゴリー型特徴量として検出されるには(データタブの「特徴量の型」列に表示)、データセットの列が有効なJSON形式のディクショナリである必要があります。
"Key1": Value1, "Key2": Value2, "Key3": Value3, ...
"Key":
は、文字列である必要があります。Value
は、0よりも大きい数値(整数または小数値)である必要があります。- 各キーには対応する1つの値が必要です。 キーの値がない場合、データを使用できません。
- 列は、JSONでのシリアル化が可能である必要があります。
有効な集計されたカテゴリー型特徴量の列の例を以下に示します。
{“Book1”: 100, “Book2”: 13}
無効な集計されたカテゴリー型特徴量の列は、次の例のいずれかのようになります。
-
{‘Book1’: 100, ‘Book2’: 12}
- キーは引用符内にありません(JSONでシリアル化可能ではありません)。
-
{‘Book1’: ‘rate’,‘Book2’: ‘rate1’}
- これらの値は正の数値ではなく、文字列です。
-
{“Book1”, “Book2”}
- この例はJSONディクショナリ形式ではありません。
平均ターゲット値¶
EDA2の後、ヒストグラムおよび頻出値チャートにグラフのオーバーレイとしてオレンジ色の円が表示されます。 円はビンの平均ターゲット値を示します。 (カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)
たとえば、特徴量num_lab_procedures
を考えてみます。
この例では、44から49.999999の検査手順を持つ人物が846名います。 円によって表現される平均ターゲット値(この場合、再入院の割合)は37.23%です。 (オレンジの点はヒストグラムの右軸に対応します。)
エクスポージャーによる出力の変化¶
エクスペリメントのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。 この場合の詳細を以下に示します。
- 各ビンに含まれる行の数。
- 各ビンに含まれるエクスポージャーの合計。 これは、エクスポージャーによって加重されたすべての行の加重の合計です。
- 各ビンに含まれるターゲットの合計をエクスポージャーの合計で除算した値。
加重による出力の変化¶
エクスペリメントのウェイトパラメーターを設定した場合、DataRobotでは、行数および平均されたターゲット値がウェイトで加重されます。