ElevenLabs 提供完整的 AI 语音基础设施,覆盖文字转语音、语音转文字、音乐生成、声音克隆、音效生成、配音和语音智能体七大能力,通过 REST API 和官方 Python / TypeScript SDK 访问,拥有 10,000+ 声音库。
语音合成(Text to Speech)
-
Eleven v3(旗舰,最新):
- 最具情感表现力的语音合成模型,支持戏剧性表演和多角色自然对话(Text to Dialogue API)。
- 支持 70+ 语言,单次请求最多 5,000 字符(约 5 分钟音频)。
- 适合有声书制作、角色配音、情感对话等高质量场景。
- API 定价:$0.10 / 1K 字符。
-
Eleven Multilingual v2:
- 高质量多语言语音合成,支持 29 种语言,10,000 字符限制,长篇内容最稳定。
- API 定价:$0.10 / 1K 字符。
-
Eleven Flash v2.5(低延迟):
- 超低延迟(约 75ms),支持 32 种语言,40,000 字符限制,价格比 v2 低 50%。
- 适合实时语音智能体、游戏交互、大规模批量处理。
- API 定价:$0.05 / 1K 字符。
语音识别(Speech to Text)
-
Scribe v2:最先进的语音识别模型,支持 90+ 语言,98%+ 转录准确率。
- 支持关键词提示(最多 1000 个词)、实体检测(最多 56 类)、精确词级时间戳、说话人分离(最多 32 人)、动态音频标注。
- API 定价:$0.22 / 小时。
-
Scribe v2 Realtime:实时流式语音识别,约 150ms 延迟,支持 90+ 语言,适合直播字幕和实时会议记录。
- API 定价:$0.39 / 小时。
音乐生成
- Eleven Music:工作室级音乐生成,从自然语言提示生成任意风格的音乐,支持人声或纯器乐,可编辑各段落的音效和歌词。
- 支持英语、西班牙语、德语、日语等多语言,44.1kHz / 128-192kbps 输出。
- API 定价:$0.30 / 分钟(最长 5 分钟)。
其他能力
- 声音克隆:从音频录音克隆声音,或从文字描述生成全新声音,10,000+ 声音库可直接使用。
- 音效生成:从文字描述生成自定义音效,免版税,$0.12 / 次,支持 MP3(44.1kHz)或 WAV(48kHz)输出。
- 语音变换(Voice Changer):实时变声,$0.12 / 分钟,支持 70+ 语言。
- 人声分离(Voice Isolator):去除背景噪音、混响和干扰,$0.12 / 分钟,支持最大 500MB / 1 小时文件。
- 配音(Dubbing):自动检测说话人并配音,支持 29 种语言,$0.33 / 分钟(含水印)。
- ElevenAgents(语音智能体):构建、部署和扩展实时对话语音智能体,支持电话、网页等多渠道接入。
适用场景
- 有声书与播客制作:Eleven v3 的情感表现力和多角色对话能力,适合长篇叙事内容。
- 实时语音智能体:Flash v2.5 的 75ms 超低延迟 + ElevenAgents,适合客服机器人、语音助手、电话智能体。
- 视频多语言本地化:Dubbing API 自动配音,支持 29 种语言,适合内容平台全球化。
- 游戏与互动媒体:声音克隆 + 音效生成,为游戏角色定制专属声音和场景音效。
- 会议记录与字幕:Scribe v2 Realtime 实时转录,Scribe v2 批量处理,支持说话人分离。
- 音乐创作辅助:Eleven Music 快速生成背景音乐、广告配乐、播客片头曲。