テキスト予測の説明¶
DataRobotでは、どの特徴量が最も予測しやすいかを理解する上で役立つ、いくつかの視覚化機能を用意しています。 ほとんどの特徴量の型では十分ですが、テキスト特徴量ではより複雑です。 テキストでは、影響力のあるテキスト特徴量だけでなく、特徴量内のどの特定の単語が影響力を持つかを理解する必要があります。
テキスト予測の説明は、テキストと、それらのテキスト特徴量内のどのデータポイントが実際に重要であるかという、モデルへの影響を単語レベルで理解するのに役立ちます。
テキスト予測の説明は、n-gram(テキストサンプルの音素、音節、文字、または単語からのn項目の連続したシーケンス)を評価します。 モデルの構築後(およびモデルのデプロイ後)に詳細なn-gramベースの有用性を調査できるため、負または正の予測の原因を把握できます。 また、モデルが正しい情報から学習していること、望ましくないバイアスが含まれていないこと、およびテキストデータの誤った詳細に対して過剰適合していないことも確認できます。
映画のレビューについて考えてみましょう。 データセットの各行には映画のレビューが含まれていますが、review
列にはさまざまな数の単語と記号が含まれています。 概して、レビューのためにDataRobotが予測を行ったと単純に述べるのではなく、テキスト予測の説明を使用すると、レビュー内のどの単語が予測につながったかをより詳細なレベルで特定できます。
テキスト予測の説明は、XEMPとSHAPの両方で利用できます。 リーダーボードのインサイトでは、さまざまな計算方法に基づいて定量的な指標がさまざまな視覚的形式で表示されますが、特定の説明モーダルはほぼ一貫しています( 以下で説明)。
テキストの説明へのアクセス¶
リーダーボードモデルの解釈 > 予測の説明タブから XEMPベースまたは SHAPの予測の説明にアクセスします。 機能は通常、テキスト以外の説明と同じです。 ただし、値列に生のテキストを表示するのではなく、開く()アイコンをクリックして、より詳細なテキスト説明を含むモーダルにアクセスします。
XEMPの場合:
SHAPの場合:
テキストの説明の表示¶
モーダルを開くと、提供される情報は、1つの値を除いて、両方の方法で同じです。
出力の理解¶
テキストの説明は、さまざまなn-gramの影響を色(n-gram影響スコア)で視覚化するのに役立ちます。 色が明るいほど、プラスかマイナスかに関係なく、影響度が大きくなります。 カラーパレットは、 ワードクラウドのインサイトに使用されるスペクトルと同じです。青はマイナスの影響を表し、赤はプラスの影響を表します。 以下の例では、表示されているテキストは、特徴量列「レビュー」の1行(47行目)の内容を表しています。
n-gramにカーソルを合わせると、カラーバーで色が強調されていることがわかります。 スクロールバーを使用して、行と特徴量のすべてのテキストを表示します。
不明なngramボックスにチェックを入れ、モデルによって認識されなかったn-gramを(グレー表示から)簡単に特定します(トレーニング中に認識されなかった可能性が最も高い)。 つまり、グレーで強調表示されたn-gramは、ブループリントのモデラーに入力されませんでした。
不明なngramの表示は、強いプラスの属性または強いマイナスの属性のいずれかを持つと予想される際に、トークンが中立的に属性付けされていることが示される場合に、モデルの有用性が誤って解釈されるのを防ぐことができます。 その理由は、繰り返しになりますが、モデルがトレーニング中にそれらを認識しなかったためです。
備考
テキストは、トークナイザーによる変更なしで、元の形式で表示されます。 これは、トークナイザーが前処理を実行する際に元のテキストを歪める可能性があるためです。 これらの変更により、説明が歪められる可能性もあります。 さらに、テキスト予測の説明のダウンロードおよびAPIレスポンスの場合、DataRobotはテキストデータを参照し、開始インデックスと終了インデックスを使用して、各ngramトークンの場所を提供します。 これにより、必要に応じて、同じビューを外部に複製することができます。 Pythonでは、データがテキストである場合、(text[starting_index: ending_index]
)を使用して、参照されたテキストngramトークンを返します。
予測を計算およびダウンロード¶
標準の予測説明と同じように説明を計算します。 同じモデルを使用して追加のデータをアップロードし、説明を計算してから、結果のCSVをダウンロードできます。 XEMPとSHAPの出力は若干異なります。
XEMPテキスト説明のダウンロード¶
計算後、次のようなCSVをダウンロードできます。
n-gramごとの説明のJSONエンコード出力には、開始インデックスと終了インデックスに従って、UIに表示されていたもの(アトリビューションスコア、インパクト 記号)を再作成するために必要なすべての情報が含まれています。 原文も表示されます。
詳細については、 XEMPの計算とダウンロードに関するドキュメントを参照してください。
SHAPテキスト説明のダウンロード¶
SHAPテキストのダウンロードの説明には、XEMPダウンロードに関する上記の情報も表示されます。 値のない行がある場合、テキストの説明は次を返します。
これを、JSONでエンコードされたデータを含む行と比較します。
詳細については、 SHAPの計算とダウンロードに関するドキュメントを参照してください。
デプロイからの説明¶
デプロイから予測を計算する場合(デプロイ > 予測 > 予測を作成)、以下を行います。
- データセットをアップロードする。
- 予測の説明を含めるをオンに切り替えます。
- ngramの数の説明ボックスにチェックを入れ、テキストの説明を含むCSV出力を利用できるようにします。
予測APIタブから、テキストの説明を生成できます。 任意のインターフェイスオプションからスクリプトコードを使用するため。 結果のスニペットでは、以下を有効にする必要があります。
maxExplanations
maxNgramExplanations
追加サポート¶
テキストの説明は、 ポータブル予測サーバーにデプロイされたモデルでサポートされています。 これらはmlpkg
ファイルとしてエクスポートされ、データセットに関連付けられた言語データが保存されます。
XEMPベースの説明の場合、 カスタムモデルと カスタムタスクでサポートされます。