Skip to content

容量の設定

容量タブは、デプロイでの使用状況を管理および制限するためのコントロールを提供します。 複数のコンシューマーが1つのデプロイを共有する場合、デプロイのオーナーは共有デプロイのインフラストラクチャを保護し、重要なエージェントやユーザーに対して最小スループットを保証できます。

デプロイ全体に対して容量使用率のしきい値を設定します。これらはデプロイに対してグローバルです。 クォータ(以下のデフォルトルールおよびオプションのエンティティごとの制限)は、使用率がそのしきい値に達したときに何が起こるかを定義します。

  • デフォルトのスループット設定:デプロイにアクセスできるあらゆるエンティティに適用される、デプロイの容量、使用率のしきい値、およびベースラインの使用ルールを設定します。 独自のオーバーライドを持たないエンティティは、これらのデフォルトを使用します。

  • エンティティのレート制限:レート制限は、特定のデプロイ、ユーザー、またはグループにより高い優先度を付与するオプションの設定です。 予約容量を使用して各エンティティにデプロイ容量の割り当てを保証するか、エンティティごとのレート制限を使用してデプロイの総スループットを制御します。

学習リソース

For decision guidance, load test examples, and sizing recommendations—including when rate limits alone are sufficient—see Rate limiting vs. quota reservations: a practical guide for platform teams on the DataRobot blog.

レート制限の適用

レート制限の変更が適用されるまでに最大5分かかる場合があります。 この遅延は、Gatewayが5分ごとにクォータキャッシュを更新するために発生します。

容量の設定

容量は、デプロイが維持すると予想されるスループットであり、時間ウィンドウあたりの単位数(例:1分あたりのリクエスト数または1分あたりのトークン数)として表されます。 これは、デプロイ全体のクォータ適用および予約のサイズ設定に使用される、ベースラインとなる「パイプサイズ」を定義します。

容量値を選択する場合、一般的な入力には以下が含まれます。

  • ターゲットトラフィック下でデプロイがどのように動作するかを測定する負荷テスト。
  • モデル、ランタイム、またはインフラストラクチャによって課される、モデルまたはホスティングの制限。
  • 予想される同時実行数およびペイロードサイズで満たす必要のあるレイテンシーバジェット。
  • 比較可能なデプロイや過去の使用状況から得た運用経験。

スループットの設定は、デプロイが制限を適用する方法を管理します。

  • リクエストまたはトークンの全体的な上限として容量を設定します。
  • デプロイがデフォルトのクォータ動作を適用する前に、その容量をどの程度まで使用できるかを示すものとして、使用率のしきい値を設定します。
  • しきい値を下回る場合、Gatewayが短いバーストを許可し、トラフィックをより許容的に処理できるように適用を緩和します。
  • しきい値を上回る場合、使用率の上昇に伴ってデプロイのクォータルールを動的に適用します。
  • 予約容量がある場合、コンシューマーがデプロイをめぐって競合する際に、資格のあるエンティティに対して割り当てを保証します。
  • 持続的な過負荷状態では、モデルと共有インフラストラクチャを保護するために超過トラフィックを拒否できます。

容量を設定するには:

  1. デプロイの容量設定を行うには、スループットを設定をクリックします。

  2. 追跡する指標(1分あたりのリクエスト数または1分あたりのトークン数)を選択します。

  3. 値を入力して、1分あたりのリクエストまたはトークンの容量を定義します。 これらの値はDataRobotによって自動的に推論されないため、デプロイの使用状況に応じて計画してください。

  4. 使用率のしきい値を、容量に対する割合として設定します。 DataRobotでは、一般的な開始点としてしきい値を70~80%に設定することを推奨しています。 これにより、制限が厳密に適用される前に、一時的な使用量の急増に対応する余裕が生まれます。

  5. 各容量の設定が完了したら、保存をクリックします。

予約容量

予約容量は、エンティティ(エージェントのデプロイ、ユーザー、またはグループ)ごとに設定されます。 これは、使用率がしきい値を上回り、コンシューマーがデプロイをめぐって競合している場合に、選択したエンティティに対して保証するデプロイ容量を定義します。

  • 上限ではなく下限:予約は最小限の共有を保証します。予備の容量が存在する場合、エンティティは多くの場合、予約された部分を超えて使用できます。
  • 未予約の余力を残す:アドホックトラフィック、新しいコンシューマー、およびオーバーフローに対応する余力を残すために、デプロイ容量の一部(通常は10~20%)を未予約のままにします。

予約容量を設定するには、あらかじめ容量の設定を済ませておく必要があります。

  1. 容量の設定が完了したら、エンティティを追加をクリックします。

  2. デプロイユーザー、またはグループのリストからエンティティを選択します。

  3. 選択したエンティティに対して予約する容量の割合を設定します。

  4. (組織のニーズに応じて)1つ以上のエンティティにこのプロセスを実行し、保存をクリックします。

レート制限の設定

容量ページのレート制限セクションで、エンティティごとの設定を管理します。

  1. デプロイでレート制限の設定を変更するには、ポリシーを追加をクリックします。

  2. 指標を追加をクリックして設定を開始します。

    指標の追加

    指標を追加をクリックするたびに新しいポリシーの行が表示され、使用可能なすべての指標に対して行が作成されるまで続きます。

  3. 新しい行で指標を選択し、制限値を入力して、時間の間隔を選択します。 ここで定義された指標ベースの各ポリシーに、選択した単位が適用されます。 ポリシー設定では、3つの主要な指標に制限値を定義できます。

    指標 説明
    リクエスト 時間単位の設定によって定義される、選択された時間枠内で、デプロイ済みモデルが処理できる予測リクエストの数を制御します。 デフォルトは毎分300リクエストです。
    トークン 時間単位の設定によって定義される、選択された時間枠内で、デプロイ済みモデルが処理できるトークンの数を制御します。 この制限には、すべてのタイプのトークン(入力と出力)が含まれます。
    入力シーケンス長 モデルに送信されるプロンプトまたはクエリーのトークン数を制御します。
    同時リクエスト数 デプロイされたモデルが同時に処理できる予測リクエストの数を制御します。 デフォルトでは、同時に処理できるリクエスト数は50です。
  4. (組織のニーズに応じて)1つ以上の指標にこのプロセスを実行し、保存をクリックします。

エンティティごとの例外

特定のエンティティに対してレート制限の例外を作成できます。

エンティティごとの例外を設定するには:

  1. エンティティを追加をクリックします。

  2. デプロイユーザー、またはグループのリストからエンティティを選択します。

  3. 指標を追加をクリックして設定を開始します。

  4. 新しい行で指標を選択し、制限値を入力して、時間の間隔を選択します。 選択した単位は、ここで定義された指標ベースの各クォータに適用されます。 詳細については、レート制限の設定を参照してください。

  5. (エンティティに必要な設定に応じて)1つ以上の指標にこのプロセスを実行し、保存をクリックします。