ドキュメントの取込みとモデリング¶
モデリングに使用されるPDFドキュメントは、ブループリント内のタスクによって抽出され、単一テキスト列で構成されるデータセットとして登録されます。列内の各行は、単一のドキュメントを表し、値は、抽出されたテキスト—タイプの特徴量document
となります。
モデルを構築する手順は以下のとおりです。
- データの準備.
- 取込み、PDFのテキストへの変換、データの分析などのテキストを含むモデル。
PDFデータの準備¶
以下のオプションでは、モデリング用にDataRobotにインポートできるデータとして、スキャンを伴う埋め込みテキストPDFまたはPDFドキュメントを準備する方法について説明します。 両方のデータ処理方法の詳細については、以下の 詳細を参照してください。
-
データセット内に、base64でエンコードされた文字列として、PDFドキュメントを含めます。 (参考として、DataRobot Pythonクライアントの ユーティリティメソッドを参照してください。)
-
データセットに関連するPDFドキュメントを参照するデータセットファイルを含むアーカイブファイル(zipなど)をアップロードします(データセットのドキュメント列には、ドキュメントへのパスが含まれます)。
-
二値分類または多クラス分類の場合、フォルダーごとにPDFドキュメントクラスを分離し、分離されたPDFをアーカイブに圧縮してアップロードします。 DataRobotは、ディレクトリ名で列を作成し、ターゲットとして使用できます。
-
教師なしプロジェクトの場合、ルート(ディレクトリは必要ありません)にすべてのPDFファイルを含めます。
-
ドキュメントおよびその他のバイナリファイル(画像など)とともに、データセットを含めます。 データセットでは、アーカイブ内のデータセットファイルへの相対パスで、バイナリファイルを参照できます。 この方法は、任意のプロジェクトタイプで機能し、ドキュメントの特徴量タイプとDataRobotがサポートする他のすべての特徴量タイプを組み合わせることが可能です。
ZIPファイルをアップロードするときに、付随するCSVファイルを指定し、アップロード済みドキュメントをサポートする追加情報を提供します。 CSV内の1つの列には、参照ドキュメントファイル名を含むことが必要となります。 行に含まれる他のすべての値は、ドキュメントに関連付けられ、モデリング特徴量として使用されます。
Document Text Extractorタスクによるテキスト抽出
DataRobotは、テキストPDFドキュメントからすべてのテキストを抽出します。 画像にテキストが含まれている場合、そのテキストは、画像がいかに作成されたかに応じて、使用される場合と使用されない場合があります。 画像内のテキストがモデリングに使用できるかどうかを判断するには、PDFエディターで画像を開き、テキストを選択してみます。選択できる場合、DataRobotはそのテキストをモデリングに使用します。 DataRobotが任意の画像からテキストを抽出できるようにするため、Tesseract OCRタスクを選択可能です。
テキスト付きモデル¶
Document AIを使用してプロジェクトを開始するには:
-
アップロードまたはAIカタログのいずれかを介して、準備した データセットファイルをロードします。 以下の点に注意してください。
- 任意の
document
タイプの特徴量は、モデリング中に(ブループリントで)テキストに変換されます。 - 各ドキュメントは、行として表されます。
- ドキュメントから抽出されたすべてのテキストは、その行のセル内で表されます。
- 任意の
-
DataRobotが正しい ドキュメント処理タスクを使用していることを確認し、言語を設定します。
-
EDA1(取込み)後のデータを調べて、データセットの内容を理解します。
-
モデリングの構築を開始するには、「開始」を押します。
-
Document AIのインサイトを使用して、データを調べます。
ドキュメント設定¶
ターゲットを設定した後、ドキュメント設定の高度なオプションを使用して、ドキュメントタスクのタイプと言語を確認または変更します。
ドキュメントタスクを設定¶
ブループリントで使用する2つのドキュメントタスクのいずれかを選択します。 Document Text ExtractorまたはTesseract OCRです。 EDA1では、DataRobotが埋め込みテキストを検出できる場合、Document Text Extractorを適用します。それ以外の場合、Tesseract OCRを選択します。
- 埋め込みテキストの場合、Document Text Extractorは、高速で精度が高いので推奨されます。
-
ドキュメント内の画像からのテキストを含む、すべての表示可能なテキストを抽出するには、Tesseract OCRタスクを選択します。
-
PDFにスキャンが含まれている場合、スキャンに「ノイズ」を含む品質問題がある可能性があります。ページが回転しており、コントラストが鮮明ではありません。 EDA1が完了すると、データテーブルのタイプ
Document
エントリーを展開して、スキャンの状態を表示できます。
言語設定¶
ドキュメントの言語を確認して設定することが重要です。 適切な事前トレーニング済み言語モデルを設定するには、正しい言語が、OCRエンジンに設定されている必要があります。 DataRobotのOCRエンジンは、105の言語をサポートしています。
データ品質¶
データセットが、AIカタログにロードされている場合は、プロファイルタブを使用して、視覚的な検査を行います。
アップロードした後にデータを分析し、以下の内容を表示します。
-
特徴量名、つまり、アーカイブファイルが、ZIPファイルからのフォルダー、クラス列、フォルダー名に分割されている場合。
-
document
特徴量のタイプ。 -
データセットファイルが、アーカイブファイル内に指定されていない場合、リファレンスIDは、後でどの予測が、どのファイルに属するかの識別に役立つためのすべてのファイル名を提供します。
さらに、DataRobotのデータ品質評価は、モデリングの前にエラーを識別できるように、問題を識別するのに役立ちます。
ログをプレビューをクリックし、オプションでログをダウンロードし、エラーを識別し、データセットを修正します。 エラーには、以下のようなものがあります。
There is no file with this name
Found empty path
File not in PDF format or corrupted
The file extension indicates that this file is not of a supported document type
一歩進んだ操作:テキスト処理の詳細¶
DataRobotは、埋め込みテキストとPDFの両方をスキャン処理します。 埋め込みテキストドキュメントは、PDFビューアーでテキストを選択および/または検索できるPDFです。 スキャンを含むPDFは、光学文字認識(OCR)を介して処理され、テキストは、PDFビューアーで検索または選択を行うことはできません。 これは、テキストがPDF内の画像の一部であるためです。
埋め込みテキスト¶
リポジトリで使用できるブループリントは、テキスト特徴量で使用できるブループリントと同じです。 テキストベースのブループリントではテキストを直接使用しますが、document
特徴量を含むブループリントでは、Document Text Extractorタスクの追加を確認できます。 PDFファイルを取得し、テキストを抽出し、後続のすべてのタスクにテキストを提供します。
スキャンされたテキスト(OCR)¶
スキャンを含むPDFドキュメントには、埋め込みテキストがないため、テキストは、直接機械での読み取りができません。 DataRobotは、PDF上で光学文字認識(OCR)を実行し、テキストを識別して抽出します。 OCRを使用するブループリントは、Tesseract OCRタスクを使用します。
Tesseract OCRタスクは、ドキュメントを開き、各ページを画像に変換し、Tesseractライブラリで画像を処理してテキストを抽出します。 次に、Tesseract OCRタスクは、テキストを次のブループリントタスクに渡します。
モデル構築後に ドキュメントインサイトの視覚化を使用して、サンプルページと検出テキストを表示します。 Tesseractエンジンは、小さなフォントに問題がある可能性があるため、 高度なチューニングを使用して、解像度を調整します。
Base64文字列¶
DataRobotは、base64でエンコードされた文字列もサポートします。 ドキュメント(および 画像)データセットの場合、DataRobotは、PDFファイルをbase64文字列に変換し、取込み中にデータセットファイルに含めます。 取込み後、ZIPファイルの代わりに、画像およびPDFファイルをbase64文字列として含む単一CSVファイルがあります。