開発者向けドキュメント > 開発者向け学習 > AIアクセラレーター > カスタムモデルの開発 > GCPでのLlama 2

GCPでのLlama 2¶

オープンソースの大規模言語モデル（LLM）は多種多様です。たとえば、 Llama、さらに、Alpaca、Vicuna、Falcon、Mistralなどのバリエーションに多くの関心が寄せられています。これらのLLMは高価なGPUを必要とするため、ユーザーは、クラウドプロバイダーを比較して最適なホスティングオプションを見つけたいと思うことがよくあります。このアクセラレーターでは、Google Cloud Platformを使用して、Llama 2をホストします。

また、適切な認証を確保し、VPC内からのみアクセスできるように、仮想プライベートクラウド（VPC）をホストするクラウドプロバイダーと連携することもできます。このアクセラレーターは、公共のインターネット経由の認証を使用しますが、Googleのクラウドインフラストラクチャを活用して、スケールアウトポリシーのプロビジョニングなど、クラウドアーキテクチャのニーズに合わせて調整できます。

最後に、Google Gemini Enterprise Agent Platform（以前のVertex AI）をマネージド形式で活用することで、そのインフラストラクチャを既存のスタックに統合し、監視ニーズに対応することができます。具体的には、サービスの正常性やCPU使用率の監視、低レベルのアラートから課金、コスト帰属、アカウント管理に至るまでをカバーし、さらにGCPのツールを使用して情報をBigQueryに転送することで、アドホックな分析やログの調査などを行うことが可能です。

Llama 2¶

Llama 2の詳細については、以下を参照してください。

HuggingFaceのモデルカード。
Arxivで公開された論文。

Llamaは Metaからダウンロード可能です。

Lllama 13B-Instruct¶

Llama-13b-instructモデルは、HuggingFaceから入手可能なデータセットでファインチューニングされ、指示ベースのユースケース用に特別に設計されています。ユーザーメッセージの前後に[INST]および[/INST]コントロールトークンを使用し、システムID（<s>）で始まるようにトレーニングされました。例：

<s> [INST] What is your favorite condiment? [/INST]

GCPの概要¶

以下のGCPインスタンスタイプは、Llama-13Bをアクセラレーション付きでホストすることができます。

g2-standard-8（L4 GPU 1個、vCPU 8個、32GB RAM、月額$623ドル）
n1-standard-16（V100 GPU 2個、vCPU 16個、60GB RAM、月額$388ドル）
n1-standard-16（T4 GPU 2個、vCPU 16個、60GB RAM + 32GB + 32GB、月額$388ドル）
a2-highgpu-1g（A100 GPU 1個、vCPU 12個、85GB RAM、月額$2,682ドル）