AI 声音克隆工具可以将参考音频的音色迁移到新文本上，生成保留说话人特征的合成语音。上传一段参考录音，输入需要朗读的文字，即可下载带有该音色的音频文件。

参考音频对效果的影响

参考音频是克隆效果的核心变量，直接决定输出音色的相似度：

文本长度与分段建议

文本最长 2000 个字符。超过这个长度时需要手动分段提交。

段落之间的语气连贯性取决于参考音频，同一段音频分多次生成后，各段之间的停顿和语调可能略有差异。若需要制作长音频，建议每段控制在 500 字以内，生成后在音频编辑器中手动拼接。

"参考文本"字段是对上传音频内容的文字转录，非必填。填写后可帮助模型更准确地理解参考音频的发音模式，在音频含非母语口音或较多停顿时提升音色一致性。如果参考音频语言和输出文本语言不同，这个字段尤其有用。

风格指令是一句话描述输出的语气和情感，如"平静、专业，适合旁白"或"兴奋、活泼，适合广告"。

工具支持 10 种语言，可在语言选择器中查看完整列表。选择与输出文本匹配的语言，能帮助模型正确处理发音和重音规则。参考音频语言不必与输出文本语言相同，工具支持跨语言音色迁移，但跨语言时口音特征会有所变化。