Skip to content

複数のLLMブループリントのチャット比較

プレイグラウンドのLLMブループリントタブでは、以下のことができます。

比較を使用するには:

  1. プレイグラウンドに2つ以上のLLMブループリントを作成します。
  2. LLMブループリントタブで、比較するLLMブループリントを最大3つ選択します。
  3. 中央のプロンプティングウィンドウからプロンプトを送信します。 各ブループリントはプロンプトとレスポンスを受信し、レスポンスを比較できます。

備考

比較プロンプトは、作成したワークフローでのみ実行できます。 共有ユースケースで別のユーザーのLLMブループリントまたはエージェントフローのプロンプトの結果を確認するには、LLMブループリントをコピーするか、登録済みのエージェントフローに接続します。 同じ設定を適用してチャットできます。 これは意図的な操作です。プロンプトがチャット履歴に影響し、その結果、生成される回答に影響する可能性があるためです。 ただし、作成者のアセットに対してフィードバックを返すことで、開発を支援できます。

比較の例

次の例では、3つのLLMブループリントを比較します。回答のスタイルに影響を与えるために別の システムプロンプトを使用することを除き、それぞれが同じ設定です。 LLMブループリントを設定する際、まずシステムプロンプトをテストします(Describe the novel Game of Thronesなど)。

  1. システムプロンプトAnswer using emojisを入力します。

  2. システムプロンプトAnswer in the style of a news headlineを入力します。

  3. システムプロンプトAnswer as a haikuを入力します。

システムプロンプトに関するメモも参照してください。

LLMブループリントの比較

複数のLLMブループリントを比較するには:

  1. LLMブループリントタブで、比較する各ブループリントの横にあるボックスを選択します。

  2. プロンプト(Describe DataRobot)を送信します。 各LLMブループリントは、設定されたスタイルで応答します。

  3. さまざまなプロンプト(たとえばDescribe a fish taco)を試して、ビジネスユースケースに最適なLLMを特定します。

結果の解釈

LLMブループリントを比較する明白な方法の1つは、結果を読んで、一方の回答がより多くのポイントを満たしているかどうかを確認することです。 もう1つの役に立つ測定は、返される評価指標を確認することです。 以下の点に注意してください。

  • レイテンシーが最も低いのはどのLLMブループリントか? そのステータスはプロンプト/回答の複数のセットにわたって一貫しているか?
  • 一部のLLMブループリントから除外される指標とその理由。
  • コンテキスト認識を切り替えると、結果はどのように変化するか?
  • LLMブループリントは、回答を効果的に通知するために引用を使用しているか。
  • リクエストされた回答のトーン、形式、簡潔性などでシステムプロンプトが尊重されているか。

選択したLLMブループリントの変更

一度に比較できる最大数は3ですが、ブループリントはいつでも比較のために追加できます。 LLMブループリントを追加するには、その名前の左側にあるチェックボックスを選択します。 すでに3つ選択されている場合は、最初に現在の選択を削除します。

比較パネルでは、比較履歴が取得されます。 新しいLLMブループリントのレスポンスは返されていないため、DataRobotには、そのアクションを開始するボタンがあります。 生成をクリックして、新しい結果を含めます。

システムプロンプトの検討

システムプロンプトの完全な遵守は保証されていないため、その言い回しは非常に重要です。 たとえば、プロンプトAnswer using emojis(EmojiGPT)とAnswer using only emojis(OnlyEmojiGPT)を使用した比較を考えてみます。

チャットタブ

比較チャットは、多くの場合、複数のブループリントにわたって、1つ以上の比較プロンプトをグループ化します。 チャットタブを使用して、プレイグラウンドから行われた以前の 比較 プロンプトにアクセスするか、新しいチャットを開始します。 このようにして、最大3つのLLMブループリントを選択してクエリーを実行し、他のLLMブループリントに切り替え、同じプロンプトを送信して結果を比較できます。

備考

場合によっては、デフォルトチャットという名前のチャットが表示されます。 このエントリーには、2024年4月の新しいプレイグラウンド機能のリリース前にプレイグラウンドで行われたチャットが含まれます。チャットが開始されなかった場合、デフォルトチャットは空です。 その日付以降にプレイグラウンドが作成された場合、デフォルトチャットは存在しませんが、プロンプティング用に新しいチャットを使用できます。

エントリー名からチャットの名前を変更または削除します。