データインサイトの分析¶
時間認識エクスペリメント
For time-aware experiments, the Data preview, Features, and Feature lists tiles have a toggle that controls whether the display is derived data only or derived and original data.
The information displayed in the tabs below is generated as part of EDA2:
The Data preview tile provides a simplified, visual way to explore and understand training data. Using these insights, you can continue iterating on models, all within the same experiment.
| 要素 | 説明 | |
|---|---|---|
| 1 | ドロップダウンから特徴量を表示 | 特定の特徴量セットに含まれる特徴量を表示できます。 |
| 2 | + 特徴量セットを作成 | 新しい特徴量セットを作成します。 |
| 3 | 検索 | 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。 |
| 4 | 頻出値チャート | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 |
| 5 | サマリーを表示 | データセットの以下のサマリー情報を表示します。
|
| 6 | ラングリングレシピ | データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。 |
| 7 | プレビューサンプル | データセットの全行数のうち、プレビューの生成に使われた行数を表示します。 |
追加のサマリー統計およびインサイトを表示する特徴量を選択します。
| 要素 | 説明 | |
|---|---|---|
| 1 | 特徴量ドロップダウン | 現在表示中の特徴量を変更できます。 |
| 2 | サマリー統計 | データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。 |
| 3 | インサイト | その特徴量の型で取得可能なインサイトを表示できます。 |
| 4 | 詳細を表示 | チャートにカーソルを合わせると、追加情報が表示されます。 |
| 5 | 特徴量に移動 | 特徴量タイルを開き、表示していた特徴量を展開します。 |
The Features tile displays the features in your dataset alongside information, including summary statistics (e.g., data quality issues) and importance scores. You can also click on a feature to view additional insights, helping you better understand your data.
| 要素 | 説明 | |
|---|---|---|
| 1 | ドロップダウンから特徴量を表示 | Allows you to switch between feature lists, which you can compare to the full dataset, helping you to further refine your feature list. |
| 2 | + 特徴量セットを作成 | 新しい特徴量セットを作成します。 |
| 3 | 検索 | 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。 |
| 4 | 特徴量 | Displays each feature as a column, which includes the data type and frequency chart. |
| 5 | 有用性列 | 有用性列に緑色のバーを表示します。これは、1つの特徴量自体がターゲット特徴量の有用性とどの程度相関しているかを示す尺度です。 |
| 6 | プレビューサンプル | データセットの全行数のうち、プレビューの生成に使われた行数を表示します。 |
| 7 | サマリーを表示 | データセットの以下のサマリー情報を表示します。
|
| 8 | ラングリングレシピ | データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。 |
| 9 | 特徴量変換を作成 | データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。 |
追加のサマリー統計およびインサイトを表示する特徴量を選択します。
| 要素 | 説明 | |
|---|---|---|
| 1 | サマリー統計 | データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。 |
| 2 | インサイト | その特徴量の型で取得可能なインサイトを表示できます。 |
| 3 | 特徴量変換を作成 | データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。 |
The Feature lists tile displays all feature lists associated with the experiment. 特徴量セットは、DataRobotでモデルの構築と予測に使用する特徴量のサブセットを制御します。
特徴量セットタイルを選択すると、DataRobotによって自動的に作成されたセットとカスタム特徴量セットの両方が表示されます。 Custom feature lists can be created prior to modeling from the data explore page or after modeling from Data preview, Features, or this tile.
特徴量セットおよびカスタム特徴量セットの作成については、特徴量セットのリファレンスページを参照してください。
| 要素 | 説明 | |
|---|---|---|
| 1 | + 特徴量セットを作成 | カスタム特徴量セットを作成できます。 詳細については特徴量セットを作成を参照してください。 |
| 2 | 検索 | 検索バーに入力されたキーワードに基づいて、既存の特徴量セットをフィルターします。 |
| 3 | アクションメニュー | 特定の特徴量セットのアクションメニュー を開きます。 |
アクションメニュー から、特徴量セットに対して以下のアクションを実行できます。
| アクション | 説明 |
|---|---|
| 特徴量を表示 | 特徴量セットのインサイトを探索します。 This selection opens the Features tile with the filter set to the selected list. |
| 名前と説明の編集 | (カスタムリストのみ)リスト名を変更し、説明を変更または追加するダイアログが開きます。 |
| ダウンロード | そのセットに含まれる特徴量をCSVファイルとしてダウンロードします。 |
| モデリングを再実行 | モデリングを再実行モーダルが開き、新しい特徴量セットの選択、GPUワーカーによるトレーニング、オートパイロットの再起動が可能になります。 |
| 削除 | (カスタムリストのみ)選択したリストがエクスペリメントから完全に削除されます。 |
The Data insights tile generates the Feature Associations insight to help you track and visualize associations within your data. This insight can help you further refine the dataset used to train your model by highlighting features with the strongest associations, that might be redundant, as well as those that have potential to cause data leakage.
Once modeling is complete, click a feature name to view its details and also (in some cases) modify its type. 使用可能なオプションは特徴量の型に応じて異なります。
| インサイト | 説明 | 特徴量の型 |
|---|---|---|
| 特徴量の関連性 | データインサイトタイルからのみ取得できます。 Provides a matrix using the Importance score to track and visualize associations within your data. X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 | N/A |
| ヒストグラム | 数値特徴量値を均等なサイズの複数の範囲にバケット化して、特徴量の大まかな分布を示します。 | 数値、集計されたカテゴリー型特徴量、多カテゴリー |
| 頻出値 | 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。 10以上のカテゴリーがある場合、DataRobotにはデータの95%を占める値が表示されます。残りの5%の値は、単一の「その他すべて」カテゴリーに区分けされます。 | 数値、分類、テキスト、ブール型 |
| 特徴量の統計 | 多ラベルデータセットの全体的な特性に加え、ラベルのペアに対するペア単位の統計や各ラベルのデータセット内への出現率を報告します。 | 多ラベル |
| 特徴量の系統 (時系列) または (特徴量探索) | 派生した特徴量がどのように作成されたかを視覚的に説明します。 | 数値、分類、テキスト、ブール型 |
| 時間の経過(時間認識のみ) | 元のモデリングデータと派生データの両方でプライマリー日付/時刻特徴量で特徴量がどのように変化するかを表示することによって、トレンドと潜在的なギャップを識別できます。 | 数値、分類、テキスト、ブール型 |
| データ品質評価 | 一般的なデータ品質の問題を検出して表示し、多くの場合、ユーザーによる操作を最小限に抑えて、あるいはまったく操作を必要とせずに処理します。 | N/A |
| 表 | 特徴量の値とその発生数の表が表示されます。 Note that if the value displayed contains a leading space, DataRobot includes the tag [leading space] to indicate as much. これは、特定の同じに見える値がヒストグラムで2回表示される理由を明確にする際に役立ちます(36か月と36か月の両方が表示される場合など)。 |
数値、カテゴリー、テキスト、ブーリアン、集計されたカテゴリー型特徴量、多ラベル |
| 例示 | 集計されたカテゴリーデータ(カテゴリーのコレクションをホストする特徴量)が特徴量としてどのように表されるかを示します。 概要とヒストグラムに関する詳細については、集計されたカテゴリータブの差異も参照してください。 | 集計されたカテゴリー型特徴量 |
備考
The values and displays for a feature may differ between EDA1 (viewed from Data assets) and EDA2 (viewed from an experiment). EDA1の場合、チャートはデータセットから直接取得したデータを表します。 ターゲットと構築モデルを選択した後、ホールドアウトや欠損値などが原因で、データの計算において行数が少なくなることがあります。 Additionally, after EDA2, DataRobot displays average target values which were not yet calculated for EDA1.
特徴量の関連性¶
Accessed from the Data insights tile, the Feature Associations insight provides a matrix to help track and visualize associations within your data. It is created during EDA2 using the feature importance score and based on numeric and categorical features found in the Informative Features feature list.
- 複数の特徴量が相互にどれだけ依存するかを決定するために役立つ指標。
- 特徴量を個別のクラスターまたは「ファミリー」にパーティション分割するプロトコルを提供します。
行列を使用するには、エクスペリメント内でデータインサイトタイルをクリックします。
| 要素 | 説明 | |
|---|---|---|
| 1 | 行列 | X軸とY軸の両方で、クラスター別に上位50個までの特徴量を一覧表示します。 |
| 2 | 詳細ペイン | クラスター、一般的な関連性、および関連性ペアに関するより具体的な情報を表示します。 |
| 3 | 特徴量ペア | 特定の特徴量ペア間の関連性と関係性を表示します。 |
| 4 | 行列のコントロール | ビューを変更できます。 |
特徴量の関連性の行列は、数値およびカテゴリー特徴量と特徴量クラスターのペア(数値/カテゴリー、数値/数値、カテゴリー/カテゴリー)の間の関連性の強さに関する情報を提供します。 クラスターは、行列上で色分けされた特徴量のファミリーであり、類似性に基づいてグループに分割された特徴量です。 行列の直感的な可視化により、以下のことが可能になります。
- 関連性分析をすばやく実行し、データに関する理解を深める。
- 関連性の強さと本質を理解する。
- ペア単位の関連性クラスターの群を検出する。
- モデル構築の前に高関連性の特徴量のクラスターを識別する(モデル入力に各グループ内の1つの特徴量を選択する一方でその他の特徴量を差分化するなど)。
行列の表示¶
EDA2が完了すると行列が使用可能になります。 X軸とY軸の両方に、クラスター別にソートされた上位50の特徴量がリストアップされます。 特徴量ペアの交点は、特徴量の同時生起のレベルを示します。 デフォルトでは、行列は相互情報量の値で表示されます。
デフォルトの行列からは、一般的に次のような結論が得られます。
- ターゲット特徴量は白の太字で表示されます。
- 個々の点は、2つの特徴量(特徴量ペア)の間の関連性を表します。
- 各クラスターは異なる色で表されます。
- 色の不透明度は、特徴量ペアの間における0~1の同時生起(関連または依存)を示します。 レベルは、相互情報量またはクラメールのVのいずれかの設定指標によって測定されます。
- 灰色の網掛けの点は、2つの特徴量が何らかの依存を示しているものの、同じクラスターに入っていないことを示します。
- 白い点は、クラスターに分類されなかった特徴量を表します。
- 「弱い ... 強い」の関連凡例は、指標内の点の不透明度が指標スコアの強さを表すことを示します。
行列内の点をクリックすると、右側の詳細ペインが更新されます。 デフォルトビューをリセットするには、選択したセルを再度クリックします。 表示条件を変更するには、行列の下のコントロールを使用します。
行列は、二値分類、連続値エクスペリメント、および多クラスのACE(有用性)スコアで上位50の特徴量をランク付けする有用性でフィルターすることもできます。
行列内の点をクリックすると、2つの特徴量の間の関連性がハイライトされます。
カーソルをドラッグすると、行列の任意のセクションの周囲に境界を描画できます。 行列がズームされ、描画した境界内のポイントだけが表示されます。 行列全体の表示に戻るには、行列の下にあるズームをリセットをクリックします。
行列ビューは、ソート条件を変更するか、関連性を計算する指標を変更することによって変更できます。 これらのコントロールは、行列の下にあります。
| 要素 | 説明 | |
|---|---|---|
| 1 | ソート条件ドロップダウン | 以下の条件で並べ替えできます。
|
| 2 | 特徴量セットのドロップダウン | エクスペリメントの特徴量セットで特徴量の関連性を計算できます。 リストを選択すると、ページがリフレッシュされ、選択した特徴量セットのマトリクスが表示されます。 |
| 3 | 指標ドロップダウン | 相互情報量またはクラメールのVの相関アルゴリズムを使用して、特徴量ペア間の関連性の計算方法を決定します。 |
| 4 | リセットズーム | 行列の一部を強調表示して詳細を確認した場合は、行列全体の表示に戻ります。 |
| 5 | エクスポート | 行列全体またはズームされた行列をエクスポートします。 |
詳細ペイン¶
デフォルトでは、行列セルが選択されていない状態で詳細ペインは、以下のように動作します。
- 最も強い関連性を、関連性指標スコアでランク付けして表示します。
- 識別されたすべてのクラスターのリスト(特徴量クラスタータブ)とその平均指標(wb-feat-associate){ target=_blank }スコアを表示します。
- 特徴量ペアの関連性の詳細のチャートへのアクセスを提供します。
リストは、行列を計算するときにDataRobotで実行される内部計算に基づきます。
行列でセルが選択されると、特徴量の関連性タブが更新され、選択された特徴量のペアに固有の情報が反映されます。
フィールドの説明を次の表示示します。
| カテゴリー | 説明 |
|---|---|
| 「特徴量_1」および「特徴量_2」 | |
| クラスター | ペアの両方の特徴量が属するクラスター(または別のクラスターからの場合)には「なし」と表示されます。 |
| 指標名 | 依存特徴量が相互に有する指標。 値は指標セット(相互情報量またはクラマーのVのいずれか)に依存します。 |
| 「特徴量_1」の詳細 「特徴量_2」の詳細 |
|
| 有用性 | 正規化された有用性スコア(3桁)は、ターゲットに対する特徴量の有用性を示します。 |
| タイプ | 特徴量のデータ型(数値または分類)。 |
| 平均 | 特徴量の平均値。 |
| 最小/最大 | 特徴量の最小値と最大値。 |
| 「特徴量_1」との強い関連性 | |
| 特徴量_1 | 行列上の特徴量の交点を選択すると、指標スコアに基づいて関連性が最も強い5つの特徴量のリストが表示されます。 |
デフォルトでは、見つかったすべてのクラスターが平均指標スコアでランク付けされて表示されます。 これらのランク付けは、相互依存が最も強いクラスターを示します。 表示名は、クラスター内でターゲットに相対的な有用性スコアが最も高い特徴量に基づきます。 行列内のポイントをクリックすると、特徴量クラスタータブの表示が変更されて、以下の内容がレポートされます。
- クラスターのスコアの詳細。
- クラスター内のすべての特徴量のリスト。
特徴量の関連性ペア¶
特徴量の関連性ペアを表示をクリックして、特徴量ペアの2つの特徴量の間の個々の関連性のプロットを表示するモデルを開きます。 結果のインサイトでは、計算にインパクトを与える値「関連性の測定基準」を確認できます。 最初、プロットは、行列内で選択された点に自動入力されます(これらの点は詳細ペインでもハイライトされます)。 各表示では、指標スコアが最も高い特徴量が属するクラスターに加えて、特徴量ペアの指標関連性スコアが表示されます。特徴量は、モデル(およびクラスターとスコア更新)から直接変更できます。
特徴量クラスタータブからアクセスしても、特徴量の関連性タブからアクセスしても、インサイトは同じです。 表示されたインサイトは、PNGをダウンロードをクリックして保存できます。
表示されるプロットは、データ型に応じて3つの種類があります。
- 数値特徴量と数値特徴量を比較する散布図。
- 数値特徴量とカテゴリー特徴量を比較する箱ひげ図。
- カテゴリー特徴量とカテゴリー特徴量を比較する分割表。
各種類の例と共にインサイトから取得できる内容を以下に示します。
数値特徴量と数値特徴量を比較する場合、散布図では、X軸に結果の範囲が示されます。 点のサイズ(または重複する点)は、値の頻度を表します。
For example, in the chart above you might assume there's no discernible dependence of num_lab_procedures on number_emergency, and as a result, measure very different, unrelated parts of a patient's healthcare.
箱ひげ図は、データのグループの上位四分位点と下位四分位点をグラフィカルに表示します。 箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。 X軸またはY軸にどの特徴量を設定するかに応じて、プロットは垂直または水平方向の形になります。 いずれの場合でも、エンドポイントは最大値と最小値を示し、箱は値の最高発生数を示します。 DataRobotでは、数値特徴量とカテゴリー特徴量のペアのインサイトを作成するために箱ひげ図が使用されます。
In the example above, the plot shows that there's a weak association between the two features, however, while the number of emergency room visits is low across all age groups, a significant portion of the 60-70 group has a very high number of visits.
両方の特徴量がカテゴリー特徴量である場合、選択した特徴量の値の頻度分布を示す分割表が作成されます。 分割表には、最大6つのビンが含まれます。 各ビンは一意の特徴量値を表します。5つ以上の一意の値のある特徴量の場合、上位の5つが表示されます。残りの値は、「その他」という名前のビンに集約されます。
In the example above, the larger the circle, the more patients that fall into the race x insulin combination. The plot indicates that there's essentially no correlation between race and insulin dosage. The key takeaway from this chart is that a more even distribution of race should be included for a more accurate analysis.
ヒストグラム¶
ヒストグラムチャートは数値特徴量のデフォルト表示です。 数値特徴量の値を同じサイズの各範囲に「バケット化」して特徴量の度数分布を示し、値の頻度(X軸)に対してターゲット観測値(左Y軸)をプロットします。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
The display differs depending on whether the data quality issue "Outliers" was found:
EDA2が完了すると、ヒストグラムに平均ターゲット値オーバーレイも表示されます。
特徴量分布の設定¶
DataRobot breaks data into several bins; the size of the bin depends on the number of rows in the dataset. ビンの数を変更して、分布範囲を変更することができます。 ビンのオプションは、データセットに含まれるユニーク値の数に依存します。
For classification projects, you can also change the basis of the display to fill bins based on the number of rows or percentage of target value. 選択に一致するようにヒストグラムおよび平均ターゲット値オーバーレイの表示を変更することもできます。
数値特徴量の場合、ヒストグラムを使用して値の大まかな分布を表示します。
-
After running an experiment, navigate to the Features tile and select a feature.
数値特徴量の場合、ヒストグラムには等しいサイズの範囲(ビン)が表示されます。 それぞれの棒の高さは、その範囲内の値を持つ行数を表します。
-
ビンにカーソルを合わせると、範囲と範囲内の行数が表示されます。
For example, the
time_in_hospitalfeature is the number of days spent in the hospital. ヒストグラムは、1~3日の来院が最も一般的であることを示しています。 -
左下にあるドロップダウンメニューの表示中をクリックして、ビンの数を変更します。
外れ値を計算¶
Outliers—the observation points at the far ends of the sample mean—may be the result of data variability. 外れ値はデータエラーを表すことがあります。その場合、ヒストグラムから外れ値を除外することが推奨されます。 Note that outlier detection—run as part of EDA1 using a combination of heuristics—is strictly a histogram visualization tool and does not influence the modeling process. For more information, see Data quality checks.
チャートの上にある従来の箱ひげ図(金色で表示)では、データの四分位中央値が強調表示されているので、分布が偏っているかどうかを判断するのに役立ちます。 To determine whisker length and identify outlier points, DataRobot uses Ueda's algorithm—the whiskers depict the full range for the lowest and highest data points in the dataset excluding those outliers. ひげは、これらの外れ値を除いた、データセット内の最小および最大のデータポイントの全範囲を示しています。箱ひげ図は、分布が歪んでいるかどうか、およびデータセットに多くの外れ値が含まれているかどうかを判断する際に役立ちます。
Use the histogram to investigate a feature that has outlier values:
-
特徴量セットに外れ値が存在する場合は、その特徴量を選択します。
-
Below the histogram chart, toggle Show outliers on to initiate a calculation identifying the rows containing outliers. DataRobot then re-displays the histogram with outliers included.
ヒストグラムの上部にある赤い点は外れ値を表します。 金色の箱ひげ図では、データの四分位中央値が示されているので、分布が偏っているかどうかを判断するのに役立ちます。
Why are the bins resized after calculating outliers?
DataRobotは、表示に基づいてビン値を再シャッフルします。 外れ値を除外するとビンの数が増え、各ビンに含まれる行数が少なくなります。 オンにすると、ビンの値の範囲が拡大するので各ビンにはより多くの行が含まれます。
The change in the X-axis scale and compression of the box plot to allow for outlier display. Because there tend to be fewer rows recording an outlier value (it's what makes them outliers), the purple bar may not display. その列にカーソルを合わせると、実際の行数を示すツールチップが表示されます。
外れ値の表示設定に関係なく、ビンの選択ドロップダウンは通常通り機能します。
-
赤い点にカーソルを合わせると、外れ値の値が表示されます。
In this example, the outlier shown for the
num_medicationsfeature is 70—far from the median of 14.
頻出値¶
The Frequent Values chart is a histogram that, in addition to showing the number of rows containing each value of a feature and the percentage of rows for each value of the target, also reports inliers, disguised missing values, and excess zeros. This version of the histogram is the default display for categorical, text, and boolean features, although it is also available to other feature types. 表示は、データ品質チェックの結果に応じて異なります。
特徴量値チャートには、データセットにある特徴量の各値と、その値を持つ行の数が表示されます。 データ品質の問題がない場合:
多くの場合、ソート順ドロップダウンで表示を変更できます。 デフォルトでは、頻度(行数)で降順にソートされます。 また、<feature_name>で並べ替えることもできます。この場合は、アルファベット順、または数値の場合は小さい順に表示されます。 エクスポートリンクを使用すると、頻出値チャートの画像をPNGファイルとしてダウンロードできます。
The white circles that overlay the histogram indicate the average target value(calculated during EDA2) for a bin.
特徴量の系統¶
特徴量の系統インサイト(特徴量探索と時系列エクスペリメントで取得可能)は、特徴量がどのように派生したか、および特徴量派生プロセスに関係したデータセットを視覚的に説明します。 ここでは、元のデータセット(左側)から特徴量(右側)を生成するために使用された手順が可視化されます。 各要素は、アクションまたはJOINを表します。
For more information, see the DataRobot Classic documentation on Feature Discovery and time series.
時間経過¶
The Over time chart helps you identify trends and potential gaps in your data by displaying, for both the original modeling data and derived data, how a feature changes over the primary date/time feature. It is available for all time-aware experiments (OTV, single series, and multiseries). 時系列の場合、ユーザー設定の各予測距離に使用できます。
For more information, see Understand a feature's Over Time chart in the DataRobot Classic documentation.
有用性スコア¶
特徴量タイルの有用性列に表示されている緑色のバーは、1つの特徴量が単独でターゲット特徴量とどの程度相関しているかを示します。 バーにカーソルを合わせると、正確な値が表示されます。
For more information, see the Modeling process reference documentation.
データ品質評価¶
データ品質評価機能は、一般的なデータ品質の問題を自動的に検出して表面化し、多くの場合、ユーザーのアクションを最小限(または完全)に抑えて、それらを処理します。 評価は、問題の発見と対処にかかる時間を節約するだけでなく、自動化されたデータ処理に対する透明性を提供します(適用された自動化処理を確認できます)。 これには問題の重大度を判別するのに役立つ警告レベルが含まれています。
To access the Data Quality Assessment from an experiment, open either the Features or Data preview tile and click Show Summary (unless already open, then the button displays Hide summary).
For more information, including additional instructions and a description of processing logic, see the Data Quality Assessment reference documentation.
平均ターゲット値¶
After EDA2, DataRobot displays white circles as graph overlays on the Histogram and Frequent Values charts. 円はビンの平均ターゲット値を示します。 (カテゴリー型特徴量の順序付けは便宜的であり、ヒストグラムは値の連続範囲を表示するので、これらの円は分類ではなく数値特徴量に関連付けられています。)
たとえば、特徴量num_lab_proceduresを考えてみます。
In this example, there are 858 people who had between 44-49.999999 lab procedures. The average target value is represented by the circle in each bin, corresponding to the right axis of the histogram—in this case, the percent readmitted—37.88%.
エクスポージャーによる出力の変化¶
エクスペリメントのモデルを構築するときにエクスポージャーパラメーターを使用した場合、エクスポージャーに合わせて調整されたグラフがヒストグラムおよび頻出値タブに表示されます。 この場合の詳細を以下に示します。
- 各ビンの行数。
- 各ビンでのエクスポージャーの合計。 これは、エクスポージャーによって加重されたすべての行の加重の合計です。
- ターゲットの合計値をビン内のエクスポージャーの合計で割ったもの。
For information about required dataset formatting, see the Modeling process documentation.
加重による出力の変化¶
If you set the Weight parameter for an experiment, DataRobot weights the number of rows and average target values by weight.
集計されたカテゴリー特徴量¶
集計されたカテゴリー型特徴量は、複数のカテゴリーのコレクション(同一製品のカテゴリーまたは部門ごとの点数など)を持つ特徴量に使用されます。 If your original dataset does not have features of this type, DataRobot creates them (where appropriate as described here) as part of EDA2. The summarized categorical variable type offers unique feature details in its Overview, Histogram, Illustration, and Table insights.
Differences between multilabel and summarized categorical
The primary distinction between the two feature types is their role in a modeling project:
- Multilabel features are used exclusively as the target variable for multilabel classification problems. If a column is formatted as multicategorical but is not selected as the target, it will be ignored during modeling.
- Summarized categorical features are used as input features for modeling and cannot be used as the target.
概要¶
概要タブには、特徴量の最も頻繁に使用される上位50のキーが表示されます。 各キーには、キーが平均値、標準偏差、中央値、最小値、および最大値に現れる行のパーセンテージが表示されます。キーは、このいずれかのフィールドで並べ替えることができます。 Most of this information is available for other feature types in the Summary statistics above feature insights, but for summarized categorical features each individual key has its own values for these fields.
このタブでは、以下の操作を実行できます。
- Click Export to export the list of keys and their associated values as a PNG. You can choose to include the chart title in the image and edit the file name before downloading it.
- Click on a given key to open its histogram.
ヒストグラム¶
While most of the functionality for this tab is the same as described in the histogram section above, there are some differences unique to this variable type. このタブに表示されるヒストグラムは、特徴量自身ではなく、特徴量の個々のラベル(キー)に対応しています。 キーのリストは、データベースの行での発生率またはアルファベット順に並べ替えることができます。
| 要素 | 説明 | |
|---|---|---|
| 1 | 検索 | ラベルを検索します。 |
| 2 | 表示中 | ビンの分布を変更します。 表示するビンの数を選択します。 |
| 3 | ターゲット値 | ターゲット値表示の基準を設定します。 |
| 4 | エクスポート | ヒストグラムをエクスポートします。 |
備考
DataRobotは、ヒストグラムの値を計算するときにストップワードを自動的に除外します。
表¶
多ラベルプロジェクトのデフォルトタブである表タブには、多カテゴリー特徴量の上位50位の最頻出キーの詳細な数を示す2列の表が表示されます。
表には、値列の各キー、およびカウント列の該当するキーの数がリストされます。
「値」列でのUnicodeテキスト
Unicodeテキストを使用していて、「値」列に正常に表示されない場合は、テキストがUTF8でエンコードされているかどうかを確認してください。
例示¶
例示タブには、集計されたカテゴリー型データを特徴量として表す方法が示されます。 For example, in the below image, the Values column contains five summarized categorical features displayed in JSON dictionary format (selected at random), as described here.
サマリーをクリックすると、集計された特徴量として処理する前に、初期状態のカテゴリー型値の表示方法を視覚化するボックスが表示されます。





































