Google GCPとDataRobotでファインチューニングされたLlama 2¶
オープンソースの大規模言語モデル(LLM)は多種多様です。 たとえば、 Llama、さらに、Alpaca、Vicuna、Falcon、Mistralなどのバリエーションに多くの関心が寄せられています。 これらのLLMは高価なGPUを必要とするため、ユーザーは、クラウドプロバイダーを比較して最適なホスティングオプションを見つけたいと思うことがよくあります。 このアクセラレーターでは、Google Cloud Platformを使用して、Llama 2をホストします。
また、適切な認証を確保し、VPC内からのみアクセスできるように、仮想プライベートクラウド(VPC)をホストするクラウドプロバイダーと連携することもできます。 このアクセラレーターは、公共のインターネット経由の認証を使用しますが、Googleのクラウドインフラストラクチャを活用して、スケールアウトポリシーのプロビジョニングなど、クラウドアーキテクチャのニーズに合わせて調整できます。
最後に、マネージド形式でVertex AIを活用することで、そのインフラストラクチャを既存のスタックに連携して、(サービスの正常性、CPU使用率、請求への低レベルのアラート、コスト属性、アカウント管理)の監視、さらに、GCPのツールを使用して情報をBigQueryにルーティングし、アドホック分析、ログ探索などを行うことができます。
Llama 2¶
Llama 2の詳細については、以下を参照してください。
- HuggingFaceのモデルカード。
- Arxivで公開された論文。
Llamaは Metaからダウンロード可能です。
Lllama 13B-Instruct¶
Llama-13b-instructモデルは、HuggingFaceから入手可能なデータセットでファインチューニングされ、指示ベースのユースケース用に特別に設計されています。 ユーザーメッセージの前後に[INST]
および[/INST]
コントロールトークンを使用し、システムID(<s>
)で始まるようにトレーニングされました。 例:
<s> [INST] What is your favorite condiment? [/INST]
GCPの概要¶
以下のGCPインスタンスタイプは、Llama-13Bをアクセラレーション付きでホストすることができます。
- g2-standard-8(L4 GPU 1個、vCPU 8個、32GB RAM、月額$623ドル)
- n1-standard-16(V100 GPU 2個、vCPU 16個、60GB RAM、月額$388ドル)
- n1-standard-16(T4 GPU 2個、vCPU 16個、60GB RAM + 32GB + 32GB、月額$388ドル)
- a2-highgpu-1g(A100 GPU 1個、vCPU 12個、85GB RAM、月額$2,682ドル)