请先登录后使用该工具
该工具可能会消耗积分,请先登录后继续使用。

AI 文字转语音

概述
Generated by AI

AI 文字转语音将文本转换为富有表现力的语音输出,覆盖 11 个生产级模型——xAI、ElevenLabs、MiniMax、Inworld、阿里 Qwen3(支持声音克隆)以及 Nari Labs 的 Dia。模型选择决定一切:每个模型有自己的音色库、语言覆盖、字符上限以及按千字符计价的费率,最先听出差别的通常是语调而非口音。

选哪个模型

通用语音模型

  • xAI TTS — 6 种音色,20+ 语言,支持 <pause> / <emphasis> 内联标签
  • ElevenLabs v3 — 录音棚级韵律,文本内嵌音频标签,70+ 语言,单次 3,000 字符
  • ElevenLabs Multilingual v2 — 29 语言主力款,单次最多 10,000 字符
  • ElevenLabs Flash / Turbo v2.5 — 亚秒级延迟,适合聊天机器人,32 语言,单次最多 40,000 字符
  • Inworld Max / Mini — 75 个具名音色,叙事感强;Mini 更便宜更快

特化模型

  • MiniMax Speech 2.8 — 300+ 音色,靠语言增强参数稳定指定输出语种
  • Qwen3 CustomVoice — 9 个阿里预设音色,可调风格
  • Qwen3 Base — 凭 3 秒样本克隆任意人声
  • Dia 1.6B — 英文多人对白,支持 [laugh][sigh] 等说话人标签

用 Qwen3 Base 做声音克隆

Qwen3 Base 需要 3–30 秒的参考音频。两种工作模式:

ICL 模式(带文稿)

同时提供音频片段与片段中所说的逐字文稿。还原度更高、韵律更自然。适合源音频干净且手头有脚本的正式生产场景。

x-vector 模式(仅音频)

把文稿字段留空。模型只用说话人嵌入向量,配置更快但克隆相似度较低,长输出容易漂移。适合快速验证。

ElevenLabs 为什么没有音色选择

本目录中的 ElevenLabs 模型使用平台为该模型预设的默认音色,不开放音色 ID 入参。但仍可用"高级"面板里的四个滑块调节:

  • 稳定性(Stability) — 越低情绪起伏越大,每次生成差异越明显;越高越接近平铺直叙
  • 相似度(Similarity) — 输出向底层音色靠拢的程度;Multilingual v2 长段落跑偏时调高
  • 风格(Style) — 放大原音色的固有风格,数值过高会增加延迟
  • 说话人增强(Speaker boost) — 略微提升清晰度,代价是少量延迟(Flash/Turbo 不支持)

值得记住的内联标签

xAI TTS 与 Dia 都识别文本内的内联标签。ElevenLabs v3 支持更丰富的音频标签集合。两类常见示例:

[Captain] (laughs) Tell me that was the last drone.
[Navigator] Last drone? No. Last polite warning? Absolutely.
Welcome to the observatory. <pause time="600ms"/> The comet streaks across the sky like a silver flame, <emphasis level="strong">brilliant</emphasis> and brief.

费用是怎么算的

本目录所有 TTS 模型按输入字符数(每千字符)计费。模型选择器上的价签即每千字符费率,总费用与 text.length 成线性关系。几条实用结论:

  • 把 20,000 字符的整章丢进 ElevenLabs Flash,费用约是一句字幕的 20 倍
  • 积分预冻结根据提交的字符数估算——短文本预冻结少,长文本预冻结多,最终结算按服务商实际账单结清
  • Dia 列出的价格为生产报价,本目录中按 Qwen3 同档计价

输出格式与下载

每条结果右侧的下载按钮会按所选格式(MP3 / WAV / FLAC / OGG)输出,并在文件名中带上对应扩展名。历史记录也会记下生成时所用的格式,重新下载老结果不会因当前选项变了就改后缀。