GenAI機能に関する注意事項¶
DataRobotで生成AI機能を使用する場合は、以下の点に注意してください。 製品の開発が進むにつれ、いくつかの注意事項が変更されることがあります。
トライアルユーザー: サポートされているLLMベースモデルを含む、 DataRobotの無料トライアルに固有の注意事項を参照してください。
一般的な注意事項¶
-
多言語データセットが多言語モデルに関連付けられた制限を超える場合、DataRobotはデフォルトで
jinaai/jina-embedding-t-en-v1
埋め込みモデルを使用します。 -
余分な列を含むトレーニングデータが添付されたカスタムモデルから作成されたデプロイは、カスタムモデルで列のフィルターが無効になっていない限り使用できません。
-
BYOのLLMまたはプレイグラウンドからデプロイされたLLMを使用する場合、資格情報に関連付けられたエンドポイントを指すランタイムパラメーターが必要です。ベンダーのモデルバージョンおよびエンドオブライフ(EOL)スケジュールに注意してください。 ベストプラクティスとして、本番環境にデプロイするときには一般的に使用できるエンドポイントのみを使用してください。 (これはプレイグラウンドで提供されているモデルによって管理されます。)
-
UIでプレイグラウンドやベクターデータベースにアクセスすると、
[Internal] DR API Access for GenAI Experimentation
という名前のAPIキーが自動的に作成されます。 -
BYO埋め込み機能は、セルフマネージドAIプラットフォームでのみ使用できます。 多くのユーザーがVDB作成ジョブを同時に実行する場合、BYO埋め込みを使用すると、VDB作成ジョブが完了するまでLLMプレイグラウンド機能が低下する可能性があります。
-
一度に実行できる集計指標ジョブは1つだけです。 集計ジョブが現在実行されている場合、 集計の設定ボタンが無効になり、「集計ジョブが進行中です。処理が完了したら、もう一度試してください」というツールチップが表示されます。
-
UIからインサイトを削除することはできません。 設定した後で無効にできますが、削除することはできません。 削除するにはAPIを使用してください。
利用可能なLLM¶
次の表に、利用可能なLLMのタイプを示します。
タイプ | 最大コンテキストウィンドウ | 最大出力トークン数 |
---|---|---|
Amazon Titan* | 8,000 | 8,000 |
Anthropic Claude 2.1 | 200,000 | 4,96 |
Anthropic Claude 3 Haiku | 200,000 | 4,096 |
Anthropic Claude 3 Sonnet | 200,000 | 4,096 |
Anthropic Claude 3 Opus† | 200,000 | 4,096 |
Azure OpenAI GPT-4 | 8,192 | 8,192 |
Azure OpenAI GPT-4 32k | 32,768 | 32,768 |
Azure OpenAI GPT-4 Turbo | 128,000 | 4,096 |
Azure OpenAI GPT-4o | 128,000 | 4,096 |
Azure OpenAI GPT-3.5 Turbo* | 4,096 | 4,096 |
Azure OpenAI GPT-3.5 Turbo 16k | 16,384 | 16,384 |
Google Bison* | 4,096 | 2,048 |
Google Gemini 1.5 Flash | 1,048,576 | 8,192 |
Google Gemini 1.5 Pro | 2,097,152 | 8,192 |
* トライアルユーザーが使用可能。
† Due to EU regulations, Claude 3 Opus model access is disabled for Cloud users on the EU platform.
共有と権限¶
以下の表に、GenAIコンポーネント関連のユーザー権限を示します。 すべてのロール(コンシューマー、エディター、オーナー)は、ユースケースにおけるユーザーのロールを示しています。さまざまな機能へのアクセスは、ユースケースの役割に基づきます。
GenAI機能に対する権限
機能 | ユースケースのコンシューマー | ユースケースのエディター | ユースケースのオーナー |
---|---|---|---|
ベクターデータベース | |||
ベクターデータベースの作成者 | |||
ベクターデータベースを作成 | ✘ | ✔ | ✔ |
ベクターデータベースの情報を編集 | ✘ | ✔ | ✔ |
ベクターデータベースを削除 | ✘ | ✔ | ✔ |
ベクターデータベースの非作成者 | |||
ベクターデータベースの情報を編集 | ✘ | ✘ | ✔ |
ベクターデータベースを削除 | ✘ | ✘ | ✔ |
プレイグラウンド | |||
プレイグラウンドの作成者 | |||
プレイグラウンドの作成 | ✘ | ✔ | ✔ |
プレイグラウンド名の変更 | ✘ | ✔ | ✔ |
プレイグラウンドの説明を編集 | ✘ | ✔ | ✔ |
プレイグラウンドを削除 | ✘ | ✔ | ✔ |
プレイグラウンドの非作成者 | |||
プレイグラウンドの説明を編集 | ✘ | ✘ | ✔ |
プレイグラウンドを削除 | ✘ | ✘ | ✔ |
プレイグラウンド → 評価タブ | |||
評価の設定 | ✘ | ✔ | ✔ |
評価指標を有効/無効にする | ✘ | ✔ | ✔ |
プレイグラウンド → トレースタブ | |||
ログをダウンロード | ✔ | ✔ | ✔ |
AIカタログにアップロード | ✔ | ✔ | ✔ |
他者が作成したLLMブループリント(ユースケースを共有) | |||
設定 | ✘ | ✘ | ✘ |
プロンプトの送信(設定から) | ✘ | ✘ | ✘ |
集計された指標を生成 | ✘ | ✔ | ✔ |
会話の作成(比較から) | ✘ | ✘ | ✘ |
回答に賛成/反対 | ✔ | ✔ | ✔ |
スターを付ける/お気に入り | ✘ | ✘ | ✘ |
新しいLLMブループリントにコピー | ✘ | ✔ | ✔ |
削除 | ✘ | ✘ | ✘ |
登録 | ✘ | ✘ | ✘ |
プレイグラウンドに関する注意事項¶
-
プレイグラウンドは表示用に共有できます。エディターまたは所有者のアクセス権限を持つユーザーは、共有プレイグラウンド内で追加のアクション(ブループリントの作成など)を実行できます。 作成者以外のユーザーはプレイグラウンドでLLMブループリントのプロンプトを実行することはできませんが、コピーを作成して、そのコピーにプロンプトを送信できます。
-
プロンプトを表示できるのは、自分で作成したLLMブループリントのみです(設定ビューと比較ビューの両方)。 共有ユースケースで他のユーザーのLLMブループリントをプロンプトした結果を確認するには、ブループリントをコピーし、同じ設定を適用してチャットします。
-
各ユーザーは、すべてのLLMに1日あたり5,000件のLLMプロンプトを送信できます。ここでは、削除されたプロンプトとレスポンスもカウントされます。 ただし、成功したプロンプトレスポンスペアのみがカウントされ、持ち込み(BYO)LLMコールはカウントの対象外になります。 トライアルユーザーの制限は、 ここに説明されているように異なります。
ベクターデータベースに関する注意事項¶
-
デフォルトでは、DataRobotはFacebook AI Similarity Search (FAISS)ベクターデータベースを使用します。
-
VDBから取得するコンテキストの数を決定する際、DataRobotは余ったトークン予算(LLMのコンテキストサイズ)の3/4を取得ドキュメントに割り当て、残りをチャット履歴(該当する場合)に割り当てます。
-
トークン予算は、システムプロンプト、ユーザープロンプト、および最大完了長で構成されます。 _余った_トークン予算というのは、
コンテキストサイズ - (最大完了長 + システムプロンプト + ユーザープロンプト)
です。 -
チャット履歴がない場合、余った予算はすべてドキュメントの取得に使用されます。 同様に、VDBがない場合、余った予算は履歴に使用されます。
以下のセクションでは、 ベクターデータベースに関連する注意事項について説明します。
サポートされているデータセットタイプ¶
ベクターデータベースを作成するためにデータセットをアップロードする場合、サポートされている形式は.zip
のみです。 DataRobotは.zip
を処理して、リファレンスID(ファイルパス)列が関連付けられたテキスト列を含む.csv
を作成します。 リファレンスID列は、.zip
がアップロードされると自動的に作成されます。 すべてのファイルは、アーカイブのルート(root)、またはアーカイブ内の単一のフォルダーに配置する必要があります。 フォルダーツリー階層の使用はサポートされていません。
ファイルタイプに関して、DataRobotは以下をサポートします。
-
.txt
ドキュメント -
PDFドキュメント
- テキストベースのPDFがサポートされています。
- 画像ベースのPDFは完全にはサポートされていません。 したがって、画像は一般的に無視されますが、エラーは発生しません。
- 画像とテキストコンテンツが混在するドキュメントがサポートされます。テキストのみが解析されます。
- 画像だけで構成される単一のドキュメントは空のドキュメントになり、無視されます。
- 画像のみのドキュメント(テキストなし)で構成されるデータセットは処理できません。
-
.docx
ドキュメントはサポートされていますが、古い.doc
形式はサポートされていません。 -
.md
ドキュメント(および.markdown
形式)はサポートされています。 -
単一のデータセットでサポートされているすべてのドキュメントタイプを組み合わせることができます。
データセット制限¶
グローバル1GBデータセット制限は、テキストがドキュメントから抽出された後、ベクターデータベースの作成時に適用されます。 さらなる動的制限を以下に示します。
jinaai/jina-embedding-t-en-v1
:1 GBまでのグローバル制限でサポートされていますsentence-transformers/all-MiniLM-L6-v2
:650 MBまでの制限でサポートされていますcl-nagoya/sup-simcse-ja-base
:250 MBまでの制限でサポートされていますMultilingual-e5-base
:250 MBまでの制限でサポートされていますE5-base-v2
:250 MBまでの制限でサポートされていますE5-large-v2
:100 MBまでの制限でサポートされています
プレイグラウンドデプロイに関する注意事項¶
プレイグラウンドからLLMを登録およびデプロイする際は、以下の点に注意してください。
-
DataRobot資格情報管理システムを介したAPIキーの設定がサポートされています。 これらの資格情報は、デプロイの環境変数としてアクセスされます。
-
登録とデプロイは、以下に対してサポートされています。
-
プレイグラウンド内のすべてのベースLLM。
-
ベクターデータベースを使用したLLM。
-
-
大規模ベクターデータベース(500 MB以上)に関連付けられたLLMブループリントからカスタムモデルバージョンを作成すると、時間がかかる場合があります。 モデルが作成されている間、モデルワークショップを離れることができます。進捗が失われることはありません。
トライアルユーザーに関する注意事項¶
以下の注意事項は、DataRobotの無料トライアルユーザーにのみ適用されます。
-
複数のユースケースにわたって計算された最大15のベクターデータベースを作成できます。 削除されたベクターデータベースはこの計算に含まれます。
-
1000件のLLM API呼び出しを行うことができます。ここでは、削除されたプロンプトとレスポンスもカウントされます。 ただし、正常に完了したプロンプトレスポンスペアのみがカウントされます。
利用可能なLLMのセクションも参照してください。