Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

インサイト

インサイトタブには、モデルの詳細を表すグラフが表示されます。

「メンバー」タブ 説明 ソース
アクティベーションマップ 予測を作成するときにモデルで使用する画像の領域を可視化します。 トレーニングデータ
異常検知 スコアごとにソートされた異常な結果のサマリーテーブルが提供されます トレーニングデータの最も異常な行(最も高いスコアを含む行)
カテゴリークラウド 集計されたカテゴリー型特徴量のカテゴリーの集計値の関連性を視覚化します。 トレーニングデータ
ホットスポット 予測パフォーマンスを示します トレーニングデータ
画像埋め込み 類似性によって定義された画像の2次元空間への投影を表示します トレーニングデータ
テキストマイニング 語句の関連性を可視化します トレーニングデータ
特徴量の有用性(木型アルゴリズム) モデル内で有用性が最も高い特徴量の順位を表示します トレーニングデータ
各特徴量の効果 モデルの予測に対する特徴量の効果の規模と方向性を表します。 検定データ
ワードクラウド 特徴量キーワードの関連性を可視化します。 トレーニングデータ

備考

表示される特定のインサイトはモデルのタイプにより異なります。モデルのタイプはプロジェクトのタイプに依存します。したがって、上記の(および以下に示す)すべてのインサイトがすべてのプロジェクトで使用できるわけではありません。

以下のセクションでは、インサイトの各オプションについて説明します。すべてのインサイトに関して、ドロップダウンメニューを使用して、プロジェクトで利用可能なインサイト(1)とそのインサイトで利用可能なモデル(2)を表示および変更します。エクスポートボタンを使用すると、インサイトに応じて、PNG、CSV、またはZIP形式でデータをダウンロードできます。

特徴量の有用性(木型アルゴリズム)

特徴量の有用性(木型アルゴリズム)チャートは、特定のモデルを構成する主要なすべての変数を相対的有用性の順に並べて表示します。この表示は、プロジェクト内のモデルのすべての重要度チャートを蓄積し、これらのチャートをモデル間で比較しやすくします。ソート条件を変更すると、ランク付けされた有用性またはアルファベット順で特徴量がリストされます(2)。

備考

このチャートは、ツリー/フォレストモデルのみで利用可能です(Gradient Boosted Trees Classifierやランダムフォレストなど)。

このチャートは、モデルを構成する主要なすべての特徴量の相対的有用性を表示します。各特徴量の有用性は、ターゲットの予測において最も有用性の高い特徴量を基準に計算されます。最も有用性の高い特徴量の相対的有用性が100%に設定され、その他すべての特徴量はそれに対するパーセントで表されます。

チャートを解釈する際は以下を考慮してください。

  • 相対的有用性は、ある特定の特徴量の予測に対する有用性が他の特徴量と比べて大幅に高い時に非常に役に立ちます。この大幅に有用性の高い変数の値がレスポンスに依存していないかどうかは常に確認してください。依存している場合は、モデルのトレーニングからこの特徴量を除外することを検討してください。係数チャートがないモデルもあるため、モデルに対する特徴量のインパクトを可視化するには有用性グラフが唯一の方法となります。

  • ある特徴量が、DataRobotが構築した多くのモデルの中の1つのモデルにしか含まれてない場合は、あまり有用ではない可能性があります。特徴量セットからそれを除外することで、モデル構築や将来予測を最適化できます。

  • 同じモデルの特徴量セットを変えて特徴量の有用性がどのように変化するかを比較するのは有益です。簡易データセットで有用性が高いと認識された特徴量が、完全データセットで認識される特徴量と実質的に異なる場合があります。

各特徴量の効果

特徴量の有用性(木型アルゴリズム)は、異なる特徴量とモデルの関連度を表示し、各特徴量の効果チャートは、予測結果に各変数が与える影響を表示します。

このチャートを使用し、異なる定数スプラインモデルに対する特徴量の影響を比較します。特徴量の有用性の相対的な順位がモデル間で大幅に変異しないかどうか確認することは有益です。1つのモデルで有用性が非常に高いと認識され、positive効果がある特徴量が、他のモデルでnegative効果が見られる場合、データセットとモデルの両方を再度確認する価値があります。

各特徴量の効果では、次の操作を行うことができます。

  • 各特徴量の効果をクリックして、特徴量の相対的ランクを表示します。
  • ソート条件ドロップダウンを使用して、影響度(特徴量の係数)またはアルファベット順(特徴量の名前)に値を並べ替えます。

ヒント

各特徴量の効果は、前処理中に定数スプラインを使用したフルオートパイロットモデル構築でのみ使用できます。その他のモデルタイプの予測出力における各特徴量の影響を表示するには、係数タブを使用します。

テキストベースのインサイト

特徴量のキーワードの関連性を評価するために、DataRobotではテキストマイニングワードクラウドの両方のインサイトが提供されています。これらのテキストモデルの一つが表示されていることを期待し、実際には表示されていない場合、ログタブでエラーメッセージを表示して、モデルがない理由を確認してください。

テキストモデルが構築されない最も一般的な理由は、DataRobotでモデルを構築する際に単一文字の「ワード」が削除されるからです。この処理は、そのようなワードが一般的に情報を提供するものではないからです(英語の「a」や「I」など)。この削除による副作用は、1桁の数字も削除されることです。したがって、「1」、「2」、「a」、「I」などが削除されます。これはテキストマイニングにおける一般的な手法です(Sklearn Tfidf Vectorizerの「2つ以上の英数文字のトークンを選択」する手法など)。

これは、(一部の組織でデータを匿名化するために行っているように)エンコードしたワードを数値として使用する場合に問題となります。たとえば、「john jacob schmidt」の代わりに「1 2 3」を使用した場合、および「john jingleheimer schmidt」の代わりに「1 4 3」を使用した場合、1桁の数字が削除され、テキストは「」と「」になります。DataRobotで(1桁の数値であるために)テキスト型の特徴量のワードがまったく検出できない場合、エラーになります。

このエラーの回避策として、2つのシンプルな方法があります。

  • 番号の振り当てを10から開始する(「11 12 13」や「11 14 13」など)
  • 各IDに1文字を追加する(「x1 x2 x3」や「x1 x4 x3」など)

テキストマイニングインサイト

テキストマイニングチャートでは、テキストと認識されたすべての特徴量に含まれる最も関連度の高い語句が表示されます。テキスト特徴量には、強い反応を示す単語が含まれていることがよくあります。

最も有用性の高い語句がテキストマイニングチャートに表示され、係数の値で順位付けされます(語句がターゲットに対してどの程度高い相関性にあるのかを示します)。このランキングにより、これらの語句の存在の強さを比較することができます。並べて比較することにより、レスポンスのさまざまな影響とともに、個々の単語の使い方をさまざまな(時には反直感的な)形で確認できます。

テキストマイニングでは、次の操作を行うことができます。

  • positive効果のあるテキスト文字列は赤で表示され、negative効果のあるテキスト文字列は青で表示されます。
  • ソート条件ドロップダウン(1)を使用して、影響度(特徴量の係数)またはアルファベット順(特徴量の名前)に値を並べ替えます。
  • 多クラスプロジェクトの場合、クラスを選択ドロップダウン(2)を使用して、テキストマイニングのインサイトを表示する特定のクラスを選択します。

ワードクラウドインサイト

ワードクラウドでは、最も関連度の高い語句がワードクラウド形式で表示されます。テキスト特徴量には、強い反応を示す単語が含まれていることがよくあります。インサイトページまたはリーダーボードのいずれかでワードクラウドを使用します。モデルの各バージョンの動作は同じです。リーダーボードタブを使用してワードクラウドを表示し、個々のモデルを調査します。インサイトページを使用して、プロジェクトの各ワードクラウドへのアクセスおよびワードクラウドの比較を行います。さらに、ワードクラウドはマルチモーダルなデータセット(画像、テキスト、カテゴリーなどが混在するデータセット)でも使用でき、データに含まれるすべてのテキストについて、ワードクラウドが表示されます。

備考

あるモデルのワードクラウドは、データセット全体ではなく、そのモデルのトレーニングに使用されたデータに基づいています。例えば、32%のサンプルサイズでトレーニングされたモデルは、同じ32%の行を反映したワードクラウドになります。

ワードクラウドは以下のモデルタイプでサポートされています。

  • 二値分類:ElasticNet分類子(線形ファミリーモデル)のすべてのバリアント(TinyBERT ElasticNet分類子とFastText ElasticNet分類子を除く)。

  • 多クラス:確率的勾配降下法

  • 連続値:Ridge回帰、 ElasticNet回帰、Lasso回帰

ワードクラウドをクリックしてチャートを表示します。

  • 文字列は、青色から赤色に変化する色スペクトルで表示されます。 青色はnegative効果、赤色はpositive効果を示します。
  • 出現頻度の高い文字列はサイズの大きい文字で表示され、頻度の低いものは小さい文字で表示されます。

ワードクラウドでは、次の操作を行うことができます。

  • 単語にカーソルを合わせるとその単語の係数値(1)が表示されます。
  • 多クラスプロジェクトの場合、クラスを選択ドロップダウン(2)を使用して、ワードクラウドを表示する特定のクラスを選択します。
  • ストップワードをフィルタリングボックス(3)をオンにして、ストップワード(検索から除外できる一般的に使用される用語)を表示から削除します。

DataRobotでの単一文字の「ワード」の処理方法の詳細については、こちらのメモを参照してください。

ホットスポットインサイト

ホット/コールドスポットは、予測パフォーマンスが高いシンプルなルールを表します。これらのルールはデータに対する優れた予測変数で、容易に解釈してビジネスルールとして導入できます。

ホットスポットインサイトは、以下のものがある場合にのみ使用できます。

  • トレーニングデータセットで学習される(検定セットまたはホールドアウトセットでは学習されない)RuleFit分類または連続値モデル
  • 少なくとも1つの数値列またはカテゴリー列
  • 10万行未満

DataRobotは、RuleFitモデルによって作成されたルールを使用して、インサイトタブのホットスポットプロットを生成します。各スポットは1つのルールに対応します。

  • スポットのサイズは、ルールに準拠する観測値の数を示します。
  • ルールの色は、ルールによって定義されたグループの平均ターゲット値と母集団全体の間の相対的な差分を示します。

この差分は、ターゲットに対する平均相対(MRT)率として知られる比率も表します。これは、ルールによって定義されるサブグループの平均ターゲット値と母集団全体の平均ターゲット値の比率です。高いMRTの値(赤いドットまたは“ホットスポット”)は、高いターゲット値のグループを示し、低いMRTの値(青いドットまたは“コールドスポット”)は、低いターゲット値のグループを示します。

全体的な平均で除算されたサブグループの平均の例:データセット全体での再入院の平均レートは40%ですが、10回以上の入院経験のある患者の再入院の平均レートは80%なのでMRTは2.00です。これは、10回以上の入院経験のある患者の再入院の確率が2倍になるということを意味するものではなく、このルールは、Positiveインスタンスをキャプチャする場合、全体的なサンプル平均を使用してランダムな推定を行う場合に比べて2倍優れていることを示します。

カテゴリー特徴量のルールも存在します。x <= 0.5またはx > 0.5が含まれます。これらは、それぞれカテゴリーのx=0または「No」、あるいはx=1またはYesを表します。

たとえば、病院の入院患者に関するデータセットを考えてみます。カテゴリー特徴量Medical Specialtyは、患者を担当する医師の専門分野(Medical Specialty)を識別します(心臓、外科など)。この特徴量は、MEDICAL_SPECIALTY-Surgery-General <= 0.5というルールに含まれます。このルールは、担当医師の専門分野が「一般外科」(Surgery General)ではないすべての行をキャプチャします。

ホットスポットでは、次の操作を行うことができます。

  • ホットスポットをクリックしてチャートを表示します。

    • ホットスポットルールでは、青色はnegative効果(コールド)、赤色はpositive効果(ホット)を示します。
    • 高いレベルのPositiveまたはNegative効果のルールは赤または青の濃い網掛けで表示されます。低いレベルのルールは薄い網掛けで表示されます。
    • スポットの上にカーソルを置くと詳細が表示されます。
    • ホットスポット値は、画像の下にある表にも表示されます。
    • テーブルに表示される観測値%は、検定パーティションのデータを使用して計算されます。

  • ホット/コールドをクリックし、「ホットとコールド」チェックボックスを選択または選択解除してホットスポットのみ、またはコールドスポットのみを表示します。

カテゴリークラウドインサイト

カテゴリークラウドタブは、モデリングプロセスが完了した後、集計されたカテゴリー型特徴量で使用できるようになります。これはカテゴリークラウドタブ(データページ)からアクセスできるワードクラウドと同じワードクラウドです。インサイトページでは、プロジェクトの複数のカテゴリーベースのモデルのワードクラウドを比較できます。データページからは、特徴量間でクラウドをより容易に比較できます。多クラスターゲットを使用する場合、カテゴリークラウドは作成されないことに注意してください。

カテゴリークラウドには、対応する特報量に最も関連性が高いキーがワードクラウド形式で表示されます。キーは、青色から赤色に変化する色スペクトルで表示されます。 青色はnegative効果、赤色はpositive効果を示します。出現頻度の高いキーはサイズの大きい文字で表示され、頻度の低いものは小さい文字で表示されます。

ストップワードをフィルタリングボックスを選択すると、ストップワード(検索対象から除外できる一般的な用語)を表示から除外できます。それらの単語が自動調整済みの集計されたカテゴリーモデルに有用でない場合は、削除することで解釈性を向上できます。

キーにカーソルを合わせると、そのキーに固有の係数値が表示されます。クラウドでの表示では、キーの名前は20文字に切り詰められます。キーにカーソルを合わせると、完全な名前が表示されます(クラウドの左側に情報と共に表示されます)。この名前は100文字に制限されます。


更新しました February 22, 2022
Back to top