智站集市 logo 智站集市

官方 API

ElevenLabs

ElevenLabs 官方 AI 语音基础设施平台,提供 Eleven v3 旗舰语音合成、Scribe v2 语音识别、Eleven Music 音乐生成、声音克隆、音效生成、配音、语音智能体等全系列能力,支持 70+ 语言,是业界领先的 AI 语音 API 平台。

试用 全球 ⭐ 4.7 更新 2026/05/12
语音合成 TTS 语音识别 声音克隆 音乐生成 音效生成 配音 语音智能体 多语言

ElevenLabs 提供完整的 AI 语音基础设施,覆盖文字转语音、语音转文字、音乐生成、声音克隆、音效生成、配音和语音智能体七大能力,通过 REST API 和官方 Python / TypeScript SDK 访问,拥有 10,000+ 声音库。

语音合成(Text to Speech)

  • Eleven v3(旗舰,最新):

    • 最具情感表现力的语音合成模型,支持戏剧性表演和多角色自然对话(Text to Dialogue API)。
    • 支持 70+ 语言,单次请求最多 5,000 字符(约 5 分钟音频)。
    • 适合有声书制作、角色配音、情感对话等高质量场景。
    • API 定价:$0.10 / 1K 字符。
  • Eleven Multilingual v2

    • 高质量多语言语音合成,支持 29 种语言,10,000 字符限制,长篇内容最稳定。
    • API 定价:$0.10 / 1K 字符。
  • Eleven Flash v2.5(低延迟):

    • 超低延迟(约 75ms),支持 32 种语言,40,000 字符限制,价格比 v2 低 50%。
    • 适合实时语音智能体、游戏交互、大规模批量处理。
    • API 定价:$0.05 / 1K 字符。

语音识别(Speech to Text)

  • Scribe v2:最先进的语音识别模型,支持 90+ 语言,98%+ 转录准确率。

    • 支持关键词提示(最多 1000 个词)、实体检测(最多 56 类)、精确词级时间戳、说话人分离(最多 32 人)、动态音频标注。
    • API 定价:$0.22 / 小时。
  • Scribe v2 Realtime:实时流式语音识别,约 150ms 延迟,支持 90+ 语言,适合直播字幕和实时会议记录。

    • API 定价:$0.39 / 小时。

音乐生成

  • Eleven Music:工作室级音乐生成,从自然语言提示生成任意风格的音乐,支持人声或纯器乐,可编辑各段落的音效和歌词。
    • 支持英语、西班牙语、德语、日语等多语言,44.1kHz / 128-192kbps 输出。
    • API 定价:$0.30 / 分钟(最长 5 分钟)。

其他能力

  • 声音克隆:从音频录音克隆声音,或从文字描述生成全新声音,10,000+ 声音库可直接使用。
  • 音效生成:从文字描述生成自定义音效,免版税,$0.12 / 次,支持 MP3(44.1kHz)或 WAV(48kHz)输出。
  • 语音变换(Voice Changer):实时变声,$0.12 / 分钟,支持 70+ 语言。
  • 人声分离(Voice Isolator):去除背景噪音、混响和干扰,$0.12 / 分钟,支持最大 500MB / 1 小时文件。
  • 配音(Dubbing):自动检测说话人并配音,支持 29 种语言,$0.33 / 分钟(含水印)。
  • ElevenAgents(语音智能体):构建、部署和扩展实时对话语音智能体,支持电话、网页等多渠道接入。

适用场景

  • 有声书与播客制作:Eleven v3 的情感表现力和多角色对话能力,适合长篇叙事内容。
  • 实时语音智能体:Flash v2.5 的 75ms 超低延迟 + ElevenAgents,适合客服机器人、语音助手、电话智能体。
  • 视频多语言本地化:Dubbing API 自动配音,支持 29 种语言,适合内容平台全球化。
  • 游戏与互动媒体:声音克隆 + 音效生成,为游戏角色定制专属声音和场景音效。
  • 会议记录与字幕:Scribe v2 Realtime 实时转录,Scribe v2 批量处理,支持说话人分离。
  • 音乐创作辅助:Eleven Music 快速生成背景音乐、广告配乐、播客片头曲。