ベクターデータベースのデータソース¶
Generative modeling in DataRobot supports three types of vector databases:
- Resident, "in-house" built vector databases, with the Source listed in the application showing DataRobot. Supporting up to 10GB, they are stored in DataRobot and can be found in Vector databases tile for a Use Case.
- Connected vector databases up to 100GB, which link out to an external provider. The Source listed in the application is the provider name and they are stored in the provider instance.
- 外部。検証と登録のためにワークショップでホストされ、ユースケースのディレクトリリストでは
外部
として識別されます。
データセットの要件¶
ベクターデータベースの作成に使用するデータセットをアップロードする場合、サポートされている形式は.zip
または.csv
です。 ファイルにはdocument
とdocument_file_path
の2つの列が必須です。 最大50のメタデータ列を追加して、プロンプトクエリーの際にフィルターに使用することができます。 メタデータのフィルターでは、document_file_path
がsource
として表示されます。
.zip
ファイルの場合、DataRobotはファイルを処理して、関連するリファレンスID(document_file_path
)列を持つテキスト列(document
)を含む.csv
バージョンを作成します。 テキスト列の内容はすべて、文字列として扱われます。 リファレンスID列は、.zip
がアップロードされると自動的に作成されます。 すべてのファイルは、アーカイブのルート(root)、またはアーカイブ内の単一のフォルダーに配置する必要があります。 フォルダーツリー階層の使用はサポートされていません。
サポートされているファイルコンテンツの詳細については、 注意事項を参照してください。
内部ベクターデータベース¶
DataRobotの内部ベクターデータベースは、取得速度を維持しながら、許容可能な取得精度を確保するために最適化されています。 内部ベクターデータベースのデータを追加します。
-
データの準備:
-
ナレッジソースを構成するファイルを単一の
.zip
ファイルに圧縮します。 ファイルを選択して、すべてのファイルを保持するフォルダーをzipまたは圧縮できます。 -
必須の
document
列とdocument_file_path
列、および最大50の追加メタデータ列を持つCSVを準備します。document_file_path
列には、解凍された.zip
ファイルの個々の項目がリストされます。document
列には、各ファイルの内容がリストされます。 For purposes of metadata filtering (RAG workflows),document_file_path
is displayed assource
.
CSV-specific requirement details
The mandatory columns for CSV are defined as follows:
document
can contain any amount (up to file size limitations) of free-text content.document_file_path
is also required and requires a file format suffix (for example,file.txt
).
Using a CSV file allows you to make use of the no chunking option during vector database creation. DataRobotは各行をチャンキングとして扱い、各行に埋め込みを直接生成します。
DataRobot vector databases only support using one text column from a CSV for the primary text content. If a CSV has multiple text columns, they must be concatenated into a single document
column. You can add up to 50 other columns in the CSV as metadata columns. These columns can be used for metadata filtering, which limits the citations returned by the prompt query.
If the CSV has multiple text columns, you can:
- Combine (concatenate) the text columns into one
document
column. - Convert the CSV rows into individual PDF files (one PDF per row) and then upload the PDFs.
例:
Consider a CSV file containing one column with large amounts of free text, swag
, and a second column with an ID but no text, InventoryID
. To create a vector database from the data:
- Rename
swag
todocument
. - Rename
InventoryID
todocument_file_path
. - Add "fake" paths to the
document_file_path
column. For example, change 11223344 to/inventory/11223344.txt
. In this way, the column is recognized as containing file paths.
-
ファイルをアップロードします。 アップロードは、次のいずれかの方法で行うことができます。
-
ローカルファイルまたはデータ接続からの ワークベンチユースケース。
-
ローカルファイル、HDFS、URL、JDBCデータソースからの AIカタログ。 DataRobotは
.zip
ファイルを.csv
形式に変換します。 登録したら、プロフィールタブを使用してデータを確認できます。
-
DataRobotでデータが利用可能になったら、それをプレイグラウンドで使用する ベクターデータベースとして追加できます。
ベクターデータベースのエクスポート¶
ベクターデータベースまたは特定バージョンのデータベースをデータレジストリにエクスポートして、別のユースケースで再利用できます。 エクスポートするには、ユースケースのベクターデータベースタイルを開きます。 アクション メニューをクリックし、最新のベクターデータベースバージョンをデータレジストリにエクスポートを選択します。
エクスポートすると、ジョブが送信されたことが通知されます。 データアセットタイルを開き、データレジストリから使用するために登録されているデータセットを確認します。 また、AIカタログにも保存されます。
登録されると、データセットをプレビューしたり、このデータセットから新しいベクターデータベースを作成したりできます。
エクスポートから新しいベクターデータベースを作成する前にプレビューするには、データアセットタイルのアクション メニューからベクターデータベースを作成を選択します。 次に、データを追加を選択します。
データレジストリが開きます。 新しくエクスポートされたベクターデータベースを選択します。 データプレビューでは、ベクターデータベースの各チャンクがデータセットの行になっていることが示されます。
From the Actions menu select Create vector database. データベースを設定するためのモーダルが開きます。
AIカタログからデータセットをダウンロードし、チャンクレベルで変更してから、再度アップロードして、新しいバージョンまたは新しいベクターデータベースを作成できます。
External (BYO) vector databases¶
外部"bring-your-own"(BYO)ベクターデータベースは、独自のモデルとデータソースを使用して、カスタムモデルデプロイをLLMブループリントのベクターデータベースとして活用する機能があります。 外部ベクターデータベースをUIから使用することはできません。DataRobotのPythonクライアントを使用してChromaDBの外部ベクターデータベースを作成する方法について説明したノートブックを確認してください。
外部ベクターデータベースの主な機能:
-
Custom model integration: Incorporate your own custom models as vector databases, enabling greater flexibility and customization.
-
入力および出力形式の互換性:外部BYO ベクターデータベースは、LLMブループリントとのシームレスな連携を確保するために、指定された入力および出力形式に準拠する必要があります。
-
検定と登録:カスタムモデルデプロイは、外部ベクターデータベースとして登録する前に、必要な要件を満たすように検定する必要があります。
-
LLMブループリントとのシームレスな統合:登録されると、外部ベクターデータベースをローカルベクターデータベースと同様にLLMブループリントで使用できます。
-
Error handling and updates: The feature provides error handling and update capabilities, allowing you to revalidate or create duplicates of LLM blueprints to address any issues or changes in custom model deployments.
基本的な外部ワークフロー¶
このノートブックで詳しく説明されている基本的なワークフローは次のとおりです。
- APIを介してベクターデータベースを作成します。
- カスタムモデルデプロイを作成して、ベクターデータベースをDataRobotに取り込みます。
- デプロイが登録されたら、ノートブックでのベクターデータベース作成の一部としてデプロイにリンクします。
ユースケース内のベクターデータベースタブから、ユースケースのすべてのベクターデータベース(および関連バージョン)を表示できます。 外部ベクターデータベースの場合、ソースタイプのみが表示されます。 これらのベクターデータベースはDataRobotによって管理されていないため、他のデータはレポートには利用できません。.