官方 API

ElevenLabs

ElevenLabs 官方 AI 语音基础设施平台，提供 Eleven v3 旗舰语音合成、Scribe v2 语音识别、Eleven Music 音乐生成、声音克隆、音效生成、配音、语音智能体等全系列能力，支持 70+ 语言，是业界领先的 AI 语音 API 平台。

试用全球 ⭐ 4.7 更新 2026/05/12

语音合成 TTS 语音识别声音克隆音乐生成音效生成配音语音智能体多语言

ElevenLabs 提供完整的 AI 语音基础设施，覆盖文字转语音、语音转文字、音乐生成、声音克隆、音效生成、配音和语音智能体七大能力，通过 REST API 和官方 Python / TypeScript SDK 访问，拥有 10,000+ 声音库。

语音合成（Text to Speech）

Eleven v3（旗舰，最新）：
- 最具情感表现力的语音合成模型，支持戏剧性表演和多角色自然对话（Text to Dialogue API）。
- 支持 70+ 语言，单次请求最多 5,000 字符（约 5 分钟音频）。
- 适合有声书制作、角色配音、情感对话等高质量场景。
- API 定价：$0.10 / 1K 字符。
Eleven Multilingual v2：
- 高质量多语言语音合成，支持 29 种语言，10,000 字符限制，长篇内容最稳定。
- API 定价：$0.10 / 1K 字符。
Eleven Flash v2.5（低延迟）：
- 超低延迟（约 75ms），支持 32 种语言，40,000 字符限制，价格比 v2 低 50%。
- 适合实时语音智能体、游戏交互、大规模批量处理。
- API 定价：$0.05 / 1K 字符。

语音识别（Speech to Text）

Scribe v2：最先进的语音识别模型，支持 90+ 语言，98%+ 转录准确率。
- 支持关键词提示（最多 1000 个词）、实体检测（最多 56 类）、精确词级时间戳、说话人分离（最多 32 人）、动态音频标注。
- API 定价：$0.22 / 小时。
Scribe v2 Realtime：实时流式语音识别，约 150ms 延迟，支持 90+ 语言，适合直播字幕和实时会议记录。
- API 定价：$0.39 / 小时。

音乐生成

Eleven Music：工作室级音乐生成，从自然语言提示生成任意风格的音乐，支持人声或纯器乐，可编辑各段落的音效和歌词。
- 支持英语、西班牙语、德语、日语等多语言，44.1kHz / 128-192kbps 输出。
- API 定价：$0.30 / 分钟（最长 5 分钟）。

其他能力

声音克隆：从音频录音克隆声音，或从文字描述生成全新声音，10,000+ 声音库可直接使用。
音效生成：从文字描述生成自定义音效，免版税，$0.12 / 次，支持 MP3（44.1kHz）或 WAV（48kHz）输出。
语音变换（Voice Changer）：实时变声，$0.12 / 分钟，支持 70+ 语言。
人声分离（Voice Isolator）：去除背景噪音、混响和干扰，$0.12 / 分钟，支持最大 500MB / 1 小时文件。
配音（Dubbing）：自动检测说话人并配音，支持 29 种语言，$0.33 / 分钟（含水印）。
ElevenAgents（语音智能体）：构建、部署和扩展实时对话语音智能体，支持电话、网页等多渠道接入。

适用场景

有声书与播客制作：Eleven v3 的情感表现力和多角色对话能力，适合长篇叙事内容。
实时语音智能体：Flash v2.5 的 75ms 超低延迟 + ElevenAgents，适合客服机器人、语音助手、电话智能体。
视频多语言本地化：Dubbing API 自动配音，支持 29 种语言，适合内容平台全球化。
游戏与互动媒体：声音克隆 + 音效生成，为游戏角色定制专属声音和场景音效。
会议记录与字幕：Scribe v2 Realtime 实时转录，Scribe v2 批量处理，支持说话人分离。
音乐创作辅助：Eleven Music 快速生成背景音乐、广告配乐、播客片头曲。