AI 文字转语音将文本转换为富有表现力的语音输出，覆盖 11 个生产级模型——xAI、ElevenLabs、MiniMax、Inworld、阿里 Qwen3（支持声音克隆）以及 Nari Labs 的 Dia。模型选择决定一切：每个模型有自己的音色库、语言覆盖、字符上限以及按千字符计价的费率，最先听出差别的通常是语调而非口音。

选哪个模型

xAI TTS — 6 种音色，20+ 语言，支持 <pause> / <emphasis> 内联标签
ElevenLabs v3 — 录音棚级韵律，文本内嵌音频标签，70+ 语言，单次 3,000 字符
ElevenLabs Multilingual v2 — 29 语言主力款，单次最多 10,000 字符
ElevenLabs Flash / Turbo v2.5 — 亚秒级延迟，适合聊天机器人，32 语言，单次最多 40,000 字符
Inworld Max / Mini — 75 个具名音色，叙事感强；Mini 更便宜更快

MiniMax Speech 2.8 — 300+ 音色，靠语言增强参数稳定指定输出语种
Qwen3 CustomVoice — 9 个阿里预设音色，可调风格
Qwen3 Base — 凭 3 秒样本克隆任意人声
Dia 1.6B — 英文多人对白，支持 [laugh]、[sigh] 等说话人标签

用 Qwen3 Base 做声音克隆

Qwen3 Base 需要 3–30 秒的参考音频。两种工作模式：

同时提供音频片段与片段中所说的逐字文稿。还原度更高、韵律更自然。适合源音频干净且手头有脚本的正式生产场景。

把文稿字段留空。模型只用说话人嵌入向量，配置更快但克隆相似度较低，长输出容易漂移。适合快速验证。

ElevenLabs 为什么没有音色选择

本目录中的 ElevenLabs 模型使用平台为该模型预设的默认音色，不开放音色 ID 入参。但仍可用"高级"面板里的四个滑块调节：

稳定性（Stability） — 越低情绪起伏越大，每次生成差异越明显；越高越接近平铺直叙
相似度（Similarity） — 输出向底层音色靠拢的程度；Multilingual v2 长段落跑偏时调高
风格（Style） — 放大原音色的固有风格，数值过高会增加延迟
说话人增强（Speaker boost） — 略微提升清晰度，代价是少量延迟（Flash/Turbo 不支持）

值得记住的内联标签

xAI TTS 与 Dia 都识别文本内的内联标签。ElevenLabs v3 支持更丰富的音频标签集合。两类常见示例：

[Captain] (laughs) Tell me that was the last drone.
[Navigator] Last drone? No. Last polite warning? Absolutely.

Welcome to the observatory. <pause time="600ms"/> The comet streaks across the sky like a silver flame, <emphasis level="strong">brilliant</emphasis> and brief.

费用是怎么算的

本目录所有 TTS 模型按输入字符数（每千字符）计费。模型选择器上的价签即每千字符费率，总费用与 text.length 成线性关系。几条实用结论：

把 20,000 字符的整章丢进 ElevenLabs Flash，费用约是一句字幕的 20 倍
积分预冻结根据提交的字符数估算——短文本预冻结少，长文本预冻结多，最终结算按服务商实际账单结清
Dia 列出的价格为生产报价，本目录中按 Qwen3 同档计价

输出格式与下载

每条结果右侧的下载按钮会按所选格式（MP3 / WAV / FLAC / OGG）输出，并在文件名中带上对应扩展名。历史记录也会记下生成时所用的格式，重新下载老结果不会因当前选项变了就改后缀。

AI 文字转语音

选哪个模型

通用语音模型

特化模型

用 Qwen3 Base 做声音克隆

ICL 模式（带文稿）

x-vector 模式（仅音频）

ElevenLabs 为什么没有音色选择

值得记住的内联标签

费用是怎么算的

输出格式与下载