Document AIのインサイト¶
DataRobotは、document
特徴量の理解に役立つさまざまな視覚化を提供します。
インサイト | 説明 |
---|---|
モデリングの前 | |
AIカタログの プロファイルタブ | データセットの列名と行データをプレビューします。 |
データ品質評価 (DQA) | EDA1の後、DQAを使用して、モデリングデータで潜在的な問題を見つけます。 |
モデリング後 | |
インサイトを文書化 | DataRobotが、モデリングのためにdocument 特徴量をどのように処理したかを理解します。 |
クラスタリングインサイト | (タイプdocument の)テキストが、どのようにクラスター化されているかを示します。これにより、潜在的な特徴量をキャプチャーしたり、またはコンテンツのセグメントを識別したりできます。 |
予測の説明* | ドキュメントから抽出されたテキストを表示します。 選択した各行のdocument テキストが表示され、各特徴量のプレビューを取得できますが、テキストの説明に付随する強調表示は利用できないことに注意してください。 |
ワードクラウド* | プロジェクトのdocument 列で、最も関連度の高い単語と短いフレーズを表示します。 |
リフトチャート* | document 特徴量の実測値と予測値のbinデータを表示します。 |
ブループリント | モデル ブループリントの一部として表されるテキスト抽出プロセスを表示します。 |
* これらのインサイトは、DataRobotでのtext
特徴量の処理と同様に機能しますが、若干の違いがあります。
インサイトを文書化¶
ドキュメントインサイトタブは、ドキュメントのテキスト要素固有の性質を、表示および理解するのに役立つdocument
特異な視覚化を提供します。 ドキュメントの提供されたページとドキュメントの抽出テキストを比較できます。 画面には、以下の複数の要素があります。
要素 | 説明 | |
---|---|---|
1 | フィルター | フィルターによって選択されたクラスに、一致するように表示を設定します。 実測フィルター値と予測フィルター値の両方が、and として表示に適用されます。 |
2 | タスク | テキスト抽出プロセスで使用されるタスクを識別します。 |
3 | 高レベルのページプレビュー | モデルで使用するPDFドキュメントをスクロールするか、または選択します。 エントリーをクリックすると、そのテキストを反映するために、中央の列と右の列が変更されます。 |
4 | 中レベルのページビュー | 選択したドキュメントの内容をページごとに表示し、テキストとして抽出した領域を強調表示します。 ページを移動するには、ページ(存在する場合)の下の矢印を使用します。 |
5 | 詳細ページビュー | 個々のテキスト行を表示します。 |
このインサイトは、DataRobotがドキュメントから抽出した情報、および正しいタスクを選択したかどうかを再確認するのに役立ちます。 たとえば、画像からの情報が使用できず、その画像内からテキストが必要な場合は、OCRタスクで再試行できます。
インサイトを使用するには:
-
高レベルのページプレビュー(1)をクリックして、ページを選択します。 中レベルおよび詳細ページが更新され、選択したページが反映されます。
-
中間レベルプレビュー(2)で1つの行を選択し、
- ズームイン/ズームアウト機能を使用して、ビューを変更します。
- 複数ページのドキュメントには、ページネーションを使用します。
- 線は、詳細ページビューで強調表示されることに注意してください。
-
詳細ページビューで行を選択
クラスタリングインサイト¶
Document AIは クラスターインサイトもサポートします。 document
特徴量に基づくクラスターごとに、DataRobotは、ドキュメント列に特徴量のngramを表示します。 各ngramは、有用性に応じてリストされます。 以下の例では、インサイトを示しています。
-
クラスター内画像のプレビュー。 カーソルを合わせると画像が拡大します。
-
見つかったngramのランク付けされた有用性。 特徴量にカーソルを合わせると、ドキュメント内での使用に関する詳細が表示されます。
高度なチューニング¶
Tesseract OCRエンジンは、非常に小さいテキストのドキュメント(一部の脚注など)を認識できない場合があります。 その場合、モデルの精度にテキストが必要な場合は、 高度なチューニングを使用して、モデルパラメーターを手動で設定します。
Tesseract OCRタスクが存在する場合、このチューニングでResolution
オプションが使用可能となります(言語オプションと同様)。 解像度は、DPIの数を設定し、Tesseractライブラリで処理する前に、ドキュメントページを画像に変換するために使用される値です。 数値が大きいほど、OCRの結果は改善する可能性がありますが、実行時間が長くなります。 つまり、ドキュメントインサイトなどからテキストが欠損していることに気付いた場合、値を増やして結果を比較できます。