AI 文字转语音将文本转换为富有表现力的语音输出,覆盖 11 个生产级模型——xAI、ElevenLabs、MiniMax、Inworld、阿里 Qwen3(支持声音克隆)以及 Nari Labs 的 Dia。模型选择决定一切:每个模型有自己的音色库、语言覆盖、字符上限以及按千字符计价的费率,最先听出差别的通常是语调而非口音。
选哪个模型
通用语音模型
- xAI TTS — 6 种音色,20+ 语言,支持
<pause>/<emphasis>内联标签 - ElevenLabs v3 — 录音棚级韵律,文本内嵌音频标签,70+ 语言,单次 3,000 字符
- ElevenLabs Multilingual v2 — 29 语言主力款,单次最多 10,000 字符
- ElevenLabs Flash / Turbo v2.5 — 亚秒级延迟,适合聊天机器人,32 语言,单次最多 40,000 字符
- Inworld Max / Mini — 75 个具名音色,叙事感强;Mini 更便宜更快
特化模型
- MiniMax Speech 2.8 — 300+ 音色,靠语言增强参数稳定指定输出语种
- Qwen3 CustomVoice — 9 个阿里预设音色,可调风格
- Qwen3 Base — 凭 3 秒样本克隆任意人声
- Dia 1.6B — 英文多人对白,支持
[laugh]、[sigh]等说话人标签
用 Qwen3 Base 做声音克隆
Qwen3 Base 需要 3–30 秒的参考音频。两种工作模式:
ICL 模式(带文稿)
同时提供音频片段与片段中所说的逐字文稿。还原度更高、韵律更自然。适合源音频干净且手头有脚本的正式生产场景。
x-vector 模式(仅音频)
把文稿字段留空。模型只用说话人嵌入向量,配置更快但克隆相似度较低,长输出容易漂移。适合快速验证。
ElevenLabs 为什么没有音色选择
本目录中的 ElevenLabs 模型使用平台为该模型预设的默认音色,不开放音色 ID 入参。但仍可用"高级"面板里的四个滑块调节:
- 稳定性(Stability) — 越低情绪起伏越大,每次生成差异越明显;越高越接近平铺直叙
- 相似度(Similarity) — 输出向底层音色靠拢的程度;Multilingual v2 长段落跑偏时调高
- 风格(Style) — 放大原音色的固有风格,数值过高会增加延迟
- 说话人增强(Speaker boost) — 略微提升清晰度,代价是少量延迟(Flash/Turbo 不支持)
值得记住的内联标签
xAI TTS 与 Dia 都识别文本内的内联标签。ElevenLabs v3 支持更丰富的音频标签集合。两类常见示例:
[Captain] (laughs) Tell me that was the last drone.
[Navigator] Last drone? No. Last polite warning? Absolutely.
Welcome to the observatory. <pause time="600ms"/> The comet streaks across the sky like a silver flame, <emphasis level="strong">brilliant</emphasis> and brief.
费用是怎么算的
本目录所有 TTS 模型按输入字符数(每千字符)计费。模型选择器上的价签即每千字符费率,总费用与 text.length 成线性关系。几条实用结论:
- 把 20,000 字符的整章丢进 ElevenLabs Flash,费用约是一句字幕的 20 倍
- 积分预冻结根据提交的字符数估算——短文本预冻结少,长文本预冻结多,最终结算按服务商实际账单结清
- Dia 列出的价格为生产报价,本目录中按 Qwen3 同档计价
输出格式与下载
每条结果右侧的下载按钮会按所选格式(MP3 / WAV / FLAC / OGG)输出,并在文件名中带上对应扩展名。历史记录也会记下生成时所用的格式,重新下载老结果不会因当前选项变了就改后缀。