Vector database data sources¶
Generative modeling in DataRobot supports two types of vector databases:
- ローカル。「社内」構築されたベクターデータベース。
DataRobot
として識別され、データレジストリに保存されています。 - 外部。検定と登録のためにモデルワークショップでホストされ、ユースケースディレクトリリストでは
External
として識別されます。
データセットの要件¶
When uploading datasets for use in creating a vector database, the supported formats are either .zip
or .csv
. Two columns are mandatory for the files—document
and document_file_path
. Additional metadata columns, up to 50, can be added for use in filtering during prompt queries. Note that for purposes of metadata filtering, document_file_path
is displayed as source
.
For .zip
files, DataRobot processes the file to create a .csv
version that contains text columns (document
) with an associated reference ID (document_file_path
) column. All content in the text column is treated as strings. リファレンスID列は、.zip
がアップロードされると自動的に作成されます。 すべてのファイルは、アーカイブのルート(root)、またはアーカイブ内の単一のフォルダーに配置する必要があります。 フォルダーツリー階層の使用はサポートされていません。
サポートされているファイルコンテンツの詳細については、 注意事項を参照してください。
Internal vector databases¶
DataRobotの内部ベクターデータベースは、取得速度を維持しながら、許容可能な取得精度を確保するために最適化されています。 To add data for an internal vector database:
-
Prepare the data by:
- Compressing the files that will make up your knowledge source into a single
.zip
file. ファイルを選択して、すべてのファイルを保持するフォルダーをzipまたは圧縮できます。 - Preparing a CSV with mandatory
document
anddocument_file_path
columns as well as up to 50 additional metadata columns. Thedocument_file_path
column lists the individual items from the decompressed.zip
file; thedocument
column lists the content of each file. For purposes of metadata filtering,document_file_path
is displayed assource
. - Using a previously exported vector database.
- Compressing the files that will make up your knowledge source into a single
-
Upload the file. アップロードは、次のいずれかの方法で行うことができます。
-
ローカルファイルまたはデータ接続からの ワークベンチユースケース。
-
ローカルファイル、HDFS、URL、JDBCデータソースからの AIカタログ。 DataRobot converts a
.zip
file to.csv
format. 登録したら、プロフィールタブを使用してデータを確認できます。
-
DataRobotでデータが利用可能になったら、それをプレイグラウンドで使用する ベクターデータベースとして追加できます。
Export a vector database¶
ベクターデータベース、または特定のバージョンのデータベースをデータレジストリにエクスポートし、別のユースケースで再利用できるようになりました。 To export, open the Vector database tab of your Use Case. Click the Actions menu and select Export latest vector database version to Data Registry.
When you export, you are notified that the job is submitted. If you open the Data tab, you can see the dataset registering for use via the Data Registry. It is also saved to the AI Catalog.
Once registered, you can create a new vector databases from this dataset. To do so, from the Add vector database dropdown, select Data > Add data. The Data Registry opens. Click on the newly created dataset.
Notice that each chunk from the vector database is now a dataset row.
You can download the dataset from the AI Catalog, modify it on a chunk level, and then re-upload it, creating a new version or a new vector database.
External vector databases¶
外部"bring-your-own"(BYO)ベクターデータベースは、独自のモデルとデータソースを使用して、カスタムモデルデプロイをLLMブループリントのベクターデータベースとして活用する機能があります。 外部ベクターデータベースの使用はUI経由で行うことはできません。DataRobotのPythonクライアントを使用して外部ベクターデータベースを作成する手順を説明した ノートブックを確認してください。
Key features of external vector databases:
-
カスタムモデルの統合:独自のカスタムモデルをベクターデータベースとして組み込み、高い柔軟性とカスタマイズを可能にします。
-
入力および出力形式の互換性:外部BYO ベクターデータベースは、LLMブループリントとのシームレスな連携を確保するために、指定された入力および出力形式に準拠する必要があります。
-
検定と登録:カスタムモデルデプロイは、外部ベクターデータベースとして登録する前に、必要な要件を満たすように検定する必要があります。
-
LLMブループリントとのシームレスな統合:登録されると、外部ベクターデータベースをローカルベクターデータベースと同様にLLMブループリントで使用できます。
-
エラー処理と更新:この機能では、エラー処理と更新機能を使用して、LLMブループリントを再検定または 複製を作成して、カスタムモデルデプロイの問題や変更に対処できます。
基本的な外部ワークフロー¶
このノートブックで詳しく説明されている基本的なワークフローは次のとおりです。
- APIを介してベクターデータベースを作成します。
- カスタムモデルデプロイを作成して、ベクターデータベースをDataRobotに取り込みます。
- デプロイが登録されたら、ノートブックでのベクターデータベース作成の一部としてデプロイにリンクします。
You can view all vector databases (and associated versions) for a Use Case from the Vector database tab within the Use Case. For external vector databases, you can see only the source type. Because these vector databases aren't managed by DataRobot, other data is not available for reporting..