Meta Llama API 提供 Llama 4 系列原生多模态开源模型的官方托管推理服务,目前面向美国开发者免费预览。Llama 4 系列采用早期融合(Early Fusion)多模态架构和稀疏 MoE 设计,在性能与成本之间取得突破性平衡。开源权重可在 Hugging Face 下载自行部署,也可通过 Together AI、Groq、Fireworks、Vertex AI 等第三方平台调用。
Llama 4 系列(最新)
-
Llama 4 Scout(高效多模态):
- 17B 激活参数(16 个专家),原生多模态,支持文本和图像输入。
- 10M tokens 超长上下文,可处理整个代码库、多文档语料库或长期用户活动日志。
- 单张 H100 GPU 即可运行,部署成本极低。
- 第三方托管定价(参考):Together AI 约 $0.18 / 1M 输入 tokens,Deepinfra 约 $0.08 / 1M tokens(最低价)。
-
Llama 4 Maverick(旗舰多模态):
- 17B 激活参数(128 个专家),400B 总参数,MoE 架构,支持编码、推理和图像理解。
- 在多项基准上超越 GPT-4o,成本约为其九分之一。
- 128k 上下文,适合需要前沿推理能力但对成本敏感的场景。
- 可通过 Google Vertex AI、Together AI、Fireworks 等平台调用。
-
Llama 4 Behemoth(超大规模,研究预览):
- 超大规模模型,目前处于研究预览阶段,面向需要最强推理能力的场景。
Llama 3.3 系列(稳定)
- Llama 3.3 70B:成熟稳定的上一代旗舰,纯文本模型,在多项基准上表现优异。
- 第三方托管定价:Deepinfra 约 $0.23 / $0.40 per 1M tokens(最低价),Groq 约 $0.59 / $0.79(最快,250+ tokens/s)。
开源与部署灵活性
- 开源权重:Llama 4 系列权重在 Hugging Face 公开发布,可自行下载部署,大规模使用(100M+ tokens/月)可节省 60-80% 成本。
- 多平台支持:官方 API(美国预览)、Together AI、Groq、Fireworks、Deepinfra、Google Vertex AI、AWS Bedrock 均可调用。
- Llama Stack:Meta 提供 Llama Stack 开源框架,简化模型部署、微调和智能体构建。
适用场景
- 超长上下文处理:Llama 4 Scout 的 10M 上下文支持整个代码库或大型文档集合的一次性分析,是目前上下文窗口最长的可用模型之一。
- 多模态理解:原生早期融合架构,文本与图像在同一模型中处理,适合图文混合输入的应用。
- 低成本生产替换:Maverick 在前沿推理能力上接近 GPT-4o,成本仅为其约 1/9,适合对成本敏感的生产场景。
- 自托管与私有部署:开源权重允许完全私有化部署,适合对数据隐私有严格要求的企业。
- 学术研究与模型微调:开源许可支持研究和微调,Llama Stack 框架简化了实验流程。
- 高速推理场景:通过 Groq 平台调用可获得 250+ tokens/s 的极速推理,适合对延迟敏感的实时应用。