Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量のインパクト

本機能の提供について

ワークベンチでの新しい特徴量のインパクトのサポートは、デフォルトでオンになっています。

機能フラグ: NextGenでユニバーサルSHAP

すべてのモデルタイプで利用可能な特徴量のインパクトは、モデルの決定を最も強力に推進している特徴量を識別する高レベルの視覚化を提供します。 以下の情報が表示されます。

  • 最も有用性の高い特徴量(人口統計データ、取引データ、またはモデルの結果を左右する他のデータ)。業界の専門家のナレッジとのすり合わせ。結果をモデル化するために重要な機能を理解することで、モデルがビジネスルールに準拠しているかどうかをより簡単に検証できます。

  • モデルを改善する機会の有無。たとえば、負の精度を持つ特徴量がある場合があります。 新しい特徴量セットを作成することで、そのような特徴量を削除すると、モデルの精度と速度が向上することがあります。 一部の特徴量は、有用性が予想外に低い可能性があるので調査する価値があります。データに問題があるかどうか。 データ型が正しく定義されているかどうか。

備考

特徴量のインパクトは、データページに表示される 特徴量の有用性指標とは異なります。 データページの有用性列内に表示される緑色のバーは、1つの特徴量が単独でターゲット特徴量との間にどのような相関性を有しているかを測定します。 これに対し、特徴量のインパクトは、ある特徴量がモデルのコンテキスト内でどの程度有用であるかを測定します。

インサイトのコントロールを使用して表示を変更します。

オプション 説明
データスライス データスライスを選択するか、または(スライスの管理を選択することによって)作成すると、特徴量値に基づいてモデルのデータの部分母集団を表示できます。
計算方法 インサイトの基盤となる計算方法(SHAPまたはPermutation)を選択します。 これは、デフォルトでPermutationのインパクトを計算する推奨モデルを除く、すべてのモデルのオンデマンド特徴量です。
ソート条件 ソート方法(インパクト(有用性)またはアルファベット順の名前)およびソート順を設定します。 デフォルトは、インパクトの降順なので、最もインパクトの大きい特徴量が最初に表示されます。
クイックコンピューティングの使用 チャートで使用するサンプルサイズを制御します。
検索 チャートを更新して、検索文字列に一致する特徴量のみを含めます。
Actions dropdown Either:
  • Export a CSV containing each feature and its relative importance, a PNG of the chart, or a ZIP file containing both.
  • Create a feature list from the top-ranked features.
さらに特徴量をロード チャートを展開してエクスペリメントで使用されたすべての特徴量を表示し、クリックするたびに25の特徴量がロードされます。 デフォルトでは、チャートは最もインパクトの大きい25個の特徴量を表します。 インサイトを離れると、表示は上位25件に戻ります。

データスライスの選択

スライスされたインサイトは、特徴量値(元の値または派生値)に基づいてモデルのデータの部分母集団を表示するオプションを提供します。

スライスされたインサイトから取得したセグメントベースの精度情報を使用するか、セグメントを「グローバル」スライス(すべてのデータ)と比較してトレーニングデータを改善します。 最初、各特徴量には、ターゲットに対する有用性を示す青いバーが表示されます。この有用性は、モデルのトレーニングに使用されるすべてのデータについて計算されたものです。 新しいスライスを選択または作成する場合、最初に、識別された部分母集団の値のみを反映するようにインサイトを再計算する必要があります。 その後、チャートが更新され、同じ上位25個の特徴量(ロードされている場合はそれ以上)が表示されます。 現在、青いバーは、ターゲットに対する部分母集団の有用性を表します。 黄色のマーカーを使用すると、すべてのデータのコンテキストで値を比較できます。 特徴量にカーソルを合わせると、詳細が表示されます。

スライスは、事実上、カテゴリー、数値、または両方のタイプの特徴量のフィルターです。 データスライスの作成、比較、および使用に関する完全なドキュメントを参照してください。

計算方法の選択

計算方法として、SHAPまたはPermutationのインパクトを選択できます。 デフォルトでは、DataRobotは 推奨モデルのPermutationのインパクトを計算します。 他のモデルのSHAP(または両方の方法)を確認するには、それぞれについて再計算する必要があります。

  • SHAPベースでは、平均で各機能がトレーニングデータの予測値にどの程度影響するかを示します。 教師ありプロジェクトの場合、SHAPはAutoMLプロジェクトのみに使用できます。 SHAPリファレンスおよびSHAPに関する注意事項も参照してください。

  • Permutationベースでは、列の値がシャッフルされた場合に、トレーニングデータのサンプルに基づいて、モデルの誤差がどの程度増加するかが示されます。

方法論のいくつかの顕著な特性:

  • SHAPベースおよびPermutationペースのインパクトは、すべてのモデリング手法で機能する、モデルにとらわれないアプローチを提供します。

  • SHAPベースの特徴量のインパクトは、サンプルサイズが小さい場合、Permutationベースの特徴量のインパクトよりも高速かつ堅牢です。

クイックコンピューティング

特徴量のインパクトを操作する場合、クイック計算を使用オプションは、視覚化で使用するサンプルサイズを制御します。 可視化の構築に使用される行数は、トグル設定および、スライスが適用されているかどうかに基づきます。

スライスされていない特徴量のインパクトでは:

  • オンの場合、DataRobotは、2500行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

  • オフの場合、DataRobotは、100,000行またはモデルトレーニングサンプルサイズの行数のいずれか小さい方を使用します。

データスライスが適用されているとき:

  • オンの場合、DataRobotは、2500行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。

  • オフの場合、DataRobotは、100,000行またはスライス適用後に使用できる行数のいずれか小さい方を使用します。

このオプションは、精度と安定性が高い結果を取得するために、例えば、デフォルトの2500行よりも大きいサンプルサイズ(またはダウンサンプリングした場合はより小さいサンプルサイズ)で、特徴量のインパクトをトレーニングする際に使用します。

備考

特徴量のインパクトの前に特徴量ごとの作用を実行すると、DataRobotは最初に特徴量のインパクトの計算を開始します。 その場合、クイックコンピューティングオプションが特徴量ごとの作用画面で使用できるようになり、特徴量のインパクトの計算基準が設定されます。

特徴量セットを作成

You can export Feature Impact data or create a feature list based on the relative impact of features. To create a feature list, choose + Create impact-based feature lists from the Actions dropdown.

  1. In the Select features for new list modal, select the number of features to include in the new list and click Next.

  2. 特徴量の表示元:ドロップダウンを使用して、選択可能な表示済み特徴量を変更します。 デフォルトでは、元の特徴量セットから特徴量をリスト表示します。 すべての自動生成されたカスタムリストは、ドロップダウンから使用できます。

  3. 含めたい各特徴量の横にあるボックスを選択します。

  4. オプションで検索フィールドを使用して、特徴量の表示元:の選択範囲で検索文字列に一致する特徴量のみを表示するように更新します。

  5. リストを保存します

特徴量セットの一括アクション

一度に複数の特徴量を追加するには、一括選択ドロップダウンから方法を選択します。

特徴量の型で選択を使用して、選択した特徴量の型のデータセットのすべての特徴量を含むリストを作成します。 選択できる特徴量の型は1つだけですが、選択後に他の特徴量(任意の型)を個別に追加できます。

既存の特徴量セットで選択を使用して、選択したセット内のすべての特徴量を追加します。

一括アクションは、特徴量の表示元:ドロップダウンの補助的なものであることに注意してください。 たとえば、"Top5"リストから特徴量を表示すると、カスタムリストに追加された5つの特徴量が表示されます。 次に、既存の特徴量セットで選択 > 有用な特徴量を使用すると、「有用な特徴量」にも含まれる"Top5"内のすべての特徴量が選択されます。 逆に、有用な特徴量を表示し、"Top5"特徴量セットで選択する場合、この5つの特徴量が選択されます。

最も重要なN個を選択を使用し、特徴量の表示元:ドロップダウンで選択したリストで使用可能な特徴量から、指定された数の「最も有用性の高い」特徴量を追加します。 有用性スコアは、その特徴量だけを使用してターゲットを予測する場合、特徴量が予測能力の指標を表すターゲットと相関する度合いを示します。

特徴量セットの保存

リストのすべての特徴量を選択した後、オプションでリスト名を変更し、特徴量セットのサマリーに説明を入力します。 サマリーには、リストに含まれる特徴量の数とタイプも表示されます。

次に、特徴量セットを作成をクリックして情報を保存します。 新しいセットは、 特徴量セットタブのリストに表示されます。

特徴量のインパクトに関するディープダイブ

特徴量のインパクトはオンデマンド特徴量なので、結果を使用するには各モデルに対して計算を行う必要があります。 ただし、モデル推奨プロセスの一環として、Permutationベースの結果が「デプロイ推奨」モデルに対して計算されます。 これはトレーニングデータを使用して計算され、デフォルトでは有用性の最も高いモデルから低いモデルにソートされ、有用性の最も高いモデルの精度が常に 1 に正規化されます。

方法の計算

このセクションには、2つの利用可能な方法のそれぞれの計算に関する技術的な詳細が含まれています。

  • Permutationベースの特徴量のインパクト
  • SHAPベースの特徴量のインパクト

Permutationベースの特徴量のインパクト

Permutationベースの特徴量のインパクトは、特徴量値がシャッフルされたときのモデル精度の低下を測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングレコードのサンプルで予測を作成します。デフォルトでは2500行、最大100,000行です。
  2. トレーニングデータを変更します(列の値をシャッフルします)。
  3. 新しい(シャッフルされた)トレーニングデータの予測を作成し、シャッフルによる精度の低下を計算する。
  4. 平均低下を計算する。
  5. 特徴量ごとに手順2~4を繰り返します。
  6. 結果を正規化します(一番上の特徴量のインパクトは100%)。

サンプリングプロセスは、以下の条件のいずれかに対応します。

  • 均衡したデータの場合、ランダムサンプリングが使用されます。
  • 不均衡な二値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、50/50により近い不均衡な二値ターゲットの分布を作成し、スコアリングに使用するサンプルの加重を調整します。
  • ゼロ過剰連続値データの場合、スマートダウンサンプリングが使用されます。DataRobotは、非ゼロ要素をマイノリティークラスにグループ化します。
  • 不均衡の多クラスデータの場合、ランダムサンプリングが使用されます。

SHAPベースの特徴量のインパクト

SHAPベースの特徴量のインパクトは、平均で各特徴量がトレーニングデータの予測値にどの程度影響するかを測定します。 値を計算するために、DataRobotでは次の処理が行われます。

  1. トレーニングデータからレコードのサンプルを取得します(デフォルトで5000行、最大100,000行)。
  2. サンプルの各レコードのSHAP値を計算し、各レコードの各特徴量の局所的な有用性を生成します。
  3. サンプル内の各特徴量のabs(SHAP values)の平均を取ることにより、グローバルな有用性を計算します。
  4. 結果を正規化します(一番上の特徴量のインパクトは100%)。

特徴量のインパクトに関する注意事項

特徴量のインパクトを評価する際は、以下の点に注意してください。

  • 特徴量のインパクトは、モデルのトレーニングデータのサンプルを使用して計算されます。 サンプルサイズが結果に影響する場合があるため、より大きいサンプルサイズで数値を再計算する必要があります。

  • 時折、データに含まれるランダムノイズが原因で、負の特徴量のインパクトスコアを含む特徴量がある場合があります。 極度にアンバランスなデータでは、大部分が負の値となる場合があります。 これらの特徴量を削除することを検討してください。

  • プロジェクト指標の選択は、特徴量のインパクトの結果に基づくPermutationに大きな影響を与える可能性があります。 AUCなど、一部の指標はモデル出力において小さい変更に対する真陽性率が低いので、特徴量の変化がモデルの精度にどれだけ影響するかを評価するには最適ではありません。

  • いくつかの条件の下では、モデリングに使用するアルゴリズムの関数が原因で特徴量のインパクトの結果が変わることがあります。 これは、多重共線性の場合などに発生する可能性があります。 そのような場合、L1ペナルティを使用するアルゴリズム(いくつかの線形モデルなど)の場合、インパクトは1つの信号に集中しますし、ツリーの場合は相関する複数の信号にわたって均一に分散されます。


更新しました July 10, 2024