GCPでのLlama 2¶
オープンソースの大規模言語モデル(LLM)は多種多様です。 たとえば、 Llama、さらに、Alpaca、Vicuna、Falcon、Mistralなどのバリエーションに多くの関心が寄せられています。 これらのLLMは高価なGPUを必要とするため、ユーザーは、クラウドプロバイダーを比較して最適なホスティングオプションを見つけたいと思うことがよくあります。 このアクセラレーターでは、Google Cloud Platformを使用して、Llama 2をホストします。
また、適切な認証を確保し、VPC内からのみアクセスできるように、仮想プライベートクラウド(VPC)をホストするクラウドプロバイダーと連携することもできます。 このアクセラレーターは、公共のインターネット経由の認証を使用しますが、Googleのクラウドインフラストラクチャを活用して、スケールアウトポリシーのプロビジョニングなど、クラウドアーキテクチャのニーズに合わせて調整できます。
Finally, by leveraging Google Gemini Enterprise Agent Platform (formerly Vertex AI) in a managed format, you can integrate that infrastructure into your existing stack to meet monitoring needs—things like monitoring service health, CPU usage, and low-level alerting to billing, cost attribution, and account management and, using GCP's tools to route information into BigQuery for ad hoc analytics, log exploration, and more.
Llama 2¶
Llama 2の詳細については、以下を参照してください。
- HuggingFaceのモデルカード。
- Arxivで公開された論文。
Llamaは Metaからダウンロード可能です。
Lllama 13B-Instruct¶
Llama-13b-instructモデルは、HuggingFaceから入手可能なデータセットでファインチューニングされ、指示ベースのユースケース用に特別に設計されています。 ユーザーメッセージの前後に[INST]および[/INST]コントロールトークンを使用し、システムID(<s>)で始まるようにトレーニングされました。 例:
<s> [INST] What is your favorite condiment? [/INST]
GCPの概要¶
以下のGCPインスタンスタイプは、Llama-13Bをアクセラレーション付きでホストすることができます。
- g2-standard-8(L4 GPU 1個、vCPU 8個、32GB RAM、月額$623ドル)
- n1-standard-16(V100 GPU 2個、vCPU 16個、60GB RAM、月額$388ドル)
- n1-standard-16(T4 GPU 2個、vCPU 16個、60GB RAM + 32GB + 32GB、月額$388ドル)
- a2-highgpu-1g(A100 GPU 1個、vCPU 12個、85GB RAM、月額$2,682ドル)