Meta Llama API 提供 Llama 4 系列原生多模态开源模型的官方托管推理服务，目前面向美国开发者免费预览。Llama 4 系列采用早期融合（Early Fusion）多模态架构和稀疏 MoE 设计，在性能与成本之间取得突破性平衡。开源权重可在 Hugging Face 下载自行部署，也可通过 Together AI、Groq、Fireworks、Vertex AI 等第三方平台调用。

Llama 4 系列（最新）

Llama 4 Scout（高效多模态）：
- 17B 激活参数（16 个专家），原生多模态，支持文本和图像输入。
- 10M tokens 超长上下文，可处理整个代码库、多文档语料库或长期用户活动日志。
- 单张 H100 GPU 即可运行，部署成本极低。
- 第三方托管定价（参考）：Together AI 约 $0.18 / 1M 输入 tokens，Deepinfra 约 $0.08 / 1M tokens（最低价）。
Llama 4 Maverick（旗舰多模态）：
- 17B 激活参数（128 个专家），400B 总参数，MoE 架构，支持编码、推理和图像理解。
- 在多项基准上超越 GPT-4o，成本约为其九分之一。
- 128k 上下文，适合需要前沿推理能力但对成本敏感的场景。
- 可通过 Google Vertex AI、Together AI、Fireworks 等平台调用。
Llama 4 Behemoth（超大规模，研究预览）：
- 超大规模模型，目前处于研究预览阶段，面向需要最强推理能力的场景。

Llama 3.3 系列（稳定）

Llama 3.3 70B：成熟稳定的上一代旗舰，纯文本模型，在多项基准上表现优异。
- 第三方托管定价：Deepinfra 约 $0.23 / $0.40 per 1M tokens（最低价），Groq 约 $0.59 / $0.79（最快，250+ tokens/s）。

开源与部署灵活性

开源权重：Llama 4 系列权重在 Hugging Face 公开发布，可自行下载部署，大规模使用（100M+ tokens/月）可节省 60-80% 成本。
多平台支持：官方 API（美国预览）、Together AI、Groq、Fireworks、Deepinfra、Google Vertex AI、AWS Bedrock 均可调用。
Llama Stack：Meta 提供 Llama Stack 开源框架，简化模型部署、微调和智能体构建。

适用场景

超长上下文处理：Llama 4 Scout 的 10M 上下文支持整个代码库或大型文档集合的一次性分析，是目前上下文窗口最长的可用模型之一。
多模态理解：原生早期融合架构，文本与图像在同一模型中处理，适合图文混合输入的应用。
低成本生产替换：Maverick 在前沿推理能力上接近 GPT-4o，成本仅为其约 1/9，适合对成本敏感的生产场景。
自托管与私有部署：开源权重允许完全私有化部署，适合对数据隐私有严格要求的企业。
学术研究与模型微调：开源许可支持研究和微调，Llama Stack 框架简化了实验流程。
高速推理场景：通过 Groq 平台调用可获得 250+ tokens/s 的极速推理，适合对延迟敏感的实时应用。