Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

Vector database data sources

Generative modeling in DataRobot supports two types of vector databases:

データセットの要件

When uploading datasets for use in creating a vector database, the supported formats are either .zip or .csv. Two columns are mandatory for the files—document and document_file_path. Additional metadata columns, up to 50, can be added for use in filtering during prompt queries. Note that for purposes of metadata filtering, document_file_path is displayed as source.

For .zip files, DataRobot processes the file to create a .csv version that contains text columns (document) with an associated reference ID (document_file_path) column. All content in the text column is treated as strings. リファレンスID列は、.zipがアップロードされると自動的に作成されます。 すべてのファイルは、アーカイブのルート(root)、またはアーカイブ内の単一のフォルダーに配置する必要があります。 フォルダーツリー階層の使用はサポートされていません。

サポートされているファイルコンテンツの詳細については、 注意事項を参照してください。

Internal vector databases

DataRobotの内部ベクターデータベースは、取得速度を維持しながら、許容可能な取得精度を確保するために最適化されています。 To add data for an internal vector database:

  1. Prepare the data by:

    • Compressing the files that will make up your knowledge source into a single .zip file. ファイルを選択して、すべてのファイルを保持するフォルダーをzipまたは圧縮できます。
    • Preparing a CSV with mandatory document and document_file_path columns as well as up to 50 additional metadata columns. The document_file_path column lists the individual items from the decompressed .zip file; the document column lists the content of each file. For purposes of metadata filtering, document_file_path is displayed as source.
    • Using a previously exported vector database.
  2. Upload the file. アップロードは、次のいずれかの方法で行うことができます。

    • ローカルファイルまたはデータ接続からの ワークベンチユースケース

    • ローカルファイル、HDFS、URL、JDBCデータソースからの AIカタログ。 DataRobot converts a .zip file to .csv format. 登録したら、プロフィールタブを使用してデータを確認できます。

DataRobotでデータが利用可能になったら、それをプレイグラウンドで使用する ベクターデータベースとして追加できます。

Export a vector database

ベクターデータベース、または特定のバージョンのデータベースをデータレジストリにエクスポートし、別のユースケースで再利用できるようになりました。 To export, open the Vector database tab of your Use Case. Click the Actions menu and select Export latest vector database version to Data Registry.

When you export, you are notified that the job is submitted. If you open the Data tab, you can see the dataset registering for use via the Data Registry. It is also saved to the AI Catalog.

Once registered, you can create a new vector databases from this dataset. To do so, from the Add vector database dropdown, select Data > Add data. The Data Registry opens. Click on the newly created dataset.

Notice that each chunk from the vector database is now a dataset row.

You can download the dataset from the AI Catalog, modify it on a chunk level, and then re-upload it, creating a new version or a new vector database.

External vector databases

外部"bring-your-own"(BYO)ベクターデータベースは、独自のモデルとデータソースを使用して、カスタムモデルデプロイをLLMブループリントのベクターデータベースとして活用する機能があります。 外部ベクターデータベースの使用はUI経由で行うことはできません。DataRobotのPythonクライアントを使用して外部ベクターデータベースを作成する手順を説明した ノートブックを確認してください。

Key features of external vector databases:

  • カスタムモデルの統合:独自のカスタムモデルをベクターデータベースとして組み込み、高い柔軟性とカスタマイズを可能にします。

  • 入力および出力形式の互換性:外部BYO ベクターデータベースは、LLMブループリントとのシームレスな連携を確保するために、指定された入力および出力形式に準拠する必要があります。

  • 検定と登録:カスタムモデルデプロイは、外部ベクターデータベースとして登録する前に、必要な要件を満たすように検定する必要があります。

  • LLMブループリントとのシームレスな統合:登録されると、外部ベクターデータベースをローカルベクターデータベースと同様にLLMブループリントで使用できます。

  • エラー処理と更新:この機能では、エラー処理と更新機能を使用して、LLMブループリントを再検定または 複製を作成して、カスタムモデルデプロイの問題や変更に対処できます。

基本的な外部ワークフロー

このノートブックで詳しく説明されている基本的なワークフローは次のとおりです。

  1. APIを介してベクターデータベースを作成します。
  2. カスタムモデルデプロイを作成して、ベクターデータベースをDataRobotに取り込みます。
  3. デプロイが登録されたら、ノートブックでのベクターデータベース作成の一部としてデプロイにリンクします。

You can view all vector databases (and associated versions) for a Use Case from the Vector database tab within the Use Case. For external vector databases, you can see only the source type. Because these vector databases aren't managed by DataRobot, other data is not available for reporting..


更新しました 2025年1月3日