Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

LLMブループリントの比較

The playground's Comparison page allows you to:

比較を使用するには:

  1. プレイグラウンドに2つ以上のLLMブループリントを作成します。
  2. 比較 > LLMブループリントタブを選択し、比較のために最大3つのLLMブループリントを選択します。
  3. Send a prompt from the central prompting window. 各ブループリントはプロンプトとレスポンスを受信し、レスポンスを比較できます。

備考

You can only do comparison prompting with LLM blueprints that you created. To see the results of prompting another user’s LLM blueprint in a shared Use Case, copy the blueprint and then you can chat with the same settings applied. This is intentional behavior because prompting a an LLM blueprint impacts the chat history, which can impact the responses that are generated. However, you can provide response feedback to assist development.

Example comparison

The following example compares three LLM blueprints, each with the same settings except using a different system prompt to influence the style of response. First test the system prompt, when configuring the LLM blueprint, for example: Describe the novel Game of Thrones.

  1. システムプロンプトAnswer using emojisを入力します。

  2. システムプロンプトAnswer in the style of a news headlineを入力します。

  3. システムプロンプトAnswer as a haikuを入力します。

システムプロンプトに関するメモも参照してください。

LLMブループリントの比較

To compare multiple LLM blueprints:

  1. Navigate to the Comparison tab and check the box next to each blueprint you want to compare.

  2. プロンプト(Describe DataRobot)を送信します。 各LLMブループリントは、設定されたスタイルで応答します。

  3. さまざまなプロンプト(たとえばDescribe a fish taco)を試して、ビジネスユースケースに最適なLLMを特定します。

結果の解釈

One obvious way to compare LLM blueprints is to read the results and see if the responses of one seem more on point. Another helpful measure is to review the evaluation metrics that are returned. 以下の点に注意してください。

  • Which LLM blueprint has the lowest latency? Is that status consistent across prompt/response sets?
  • Which metrics are excluded from some LLM blueprints and why?
  • How do results change when you toggle context awareness?
  • Do the LLM blueprints use the citations to inform the response effectively?
  • Do the they respect the system prompt such that the response has the requested tone, format, succinctness, etc.?

Change selected LLM blueprints

一度に比較できる最大数は3ですが、ブループリントはいつでも比較のために追加できます。 LLMブループリントを追加するには、その名前の左側にあるチェックボックスを選択します。 すでに3つ選択されている場合は、最初に現在の選択を削除します。

比較タブは、比較履歴を取得します。 新しいLLMブループリントのレスポンスは返されていないため、DataRobotには、そのアクションを開始するボタンがあります。 生成をクリックして、新しい結果を含めます。

システムプロンプトの検討

システムプロンプトの完全な遵守は保証されていないため、その言い回しは非常に重要です。 たとえば、プロンプトAnswer using emojis(EmojiGPT)とAnswer using only emojis(OnlyEmojiGPT)を使用した比較を考えてみます。

Tabs and controls

The left panel of the Comparison page is like a file cabinet of the playground's assets—a list of configured blueprints and a record of the comparison chat history.

You can also create a new LLM blueprint from this area.

LLMブループリントタブ

The LLM blueprints tab lists all LLM blueprints configured within the playground. It is from this panel that you select LLM blueprints—up to three—for comparison. チェックボックスでLLMブループリントを選択すると、中央の比較パネルで使用できるようになります。 Click the star next to an LLM blueprint name to "favorite" it, which you can later filter on.

You can also take a variety of actions on the configured blueprints.

表示コントロール

Use the controls to modify the LLM blueprint listing :

フィルターオプションは、パネルにリストされるブループリントを、ベースLLMまたはステータスのいずれかで制御します。

フィルターラベルの右側の小さい番号は、フィルターが適用された結果として表示されるブループリントの数または適用されなかった結果を示します。

ソート条件は、ブループリントの順序を制御します。 これは加法的なので、フィルタリングまたはグループ化の上に適用されます。

同じく加法的であるグループ化では、選択した条件で表示を並べ替えます。 ラベルはグループの「名前」と数字を示し、メンバーブループリントの数を示します。

チャットタブ

A comparison chat groups together one or more comparison prompts, often across multiple blueprints. Use the Chats tab to access any previous comparison prompts made from the playground or start a new chat. In this way, you can select up to three LLM blueprints, query them, and then swap out for other LLM blueprints to send the same prompts and compare results.

備考

In some cases, you will see a chat named Default chat. This entry contains any chats made in the playground before the new playground functionality was released in April, 2024. If no chats were initiated, the default chat is empty. If the playground was created after that date, the default chat isn't present but an New chat is available for prompting.

Rename or delete chats from the entry name.


更新しました June 7, 2024