Document AIの概要¶
アナリストやデータサイエンティストは、PDFドキュメントに含まれる情報を利用してモデルを構築したいと考えることがよくあります。 しかし、データソースとしてドキュメントを効率的に使用するには、手作業によるデータ準備の必要性が困難な障壁となります。 多くの場合、ドキュメントの数が非常に多く、それぞれに目を通したり、手作業でフォーマットして表形式に整えたりすることは不可能です。 大規模な文書コーパスに散在する情報は、形式がばらばらで整合性が取れていないため、文書に含まれる貴重なテキスト情報にアクセスできないことがよくあります。
Document AIは、手作業が多いデータ準備手順を実行することなく、未処理のPDFドキュメントでモデルを構築する方法を提供します。 機械で容易に読み取り可能なエンコードテキストを含むPDFをエンドツーエンドでサポートします。
-
DocumentTextExtractor (DTE):埋め込みテキストを、PDFドキュメントから抽出します。 例:コンピューターに書き込まれたドキュメントを、PDFとして保存し、アップロードします。
-
光学文字認識(OCR):スキャンされたテキストを抽出します。 例:ドキュメントをプリントアウトし、スキャンしてPDFとしてアップロードします。 コンテンツは、ピクセルとして表示されます(「既知」のテキストとしてではありません)。
Document AIは、連続値、二値分類、多クラス分類、多ラベル、クラスタリング、異常検知など、多くのプロジェクトタイプで使用できます。 このプロセスはコンテンツを抽出し、モデリングのためにdocument
型として分類します。
プロジェクトには、1つ以上のdocument
特徴量だけでなく、DataRobotがサポートするその他の特徴量型を含めることができます。
ワークフローの概要¶
Document AIのワークフローを以下に示します。
-
AIカタログまたはローカルファイルのアップロードを介して、プロジェクトで使用する PDFベースのデータセットを作成します。
-
ドキュメントをプレビューして、潜在的な データ品質問題を確認します。
-
標準のDataRobotワークフローを使用したモデルの構築。
-
ドキュメント固有のインサイトを使用して、リーダーボードでモデルを評価します。
-
予測の作成に使用するモデルを予測を作成、DataRobot API、またはバッチ予測から選択します。
機能に関する注意事項¶
- 時系列プロジェクトはサポートされません。