请先登录后使用该工具
该工具可能会消耗积分,请先登录后继续使用。

AI 声音克隆

概述

AI 声音克隆工具可以将参考音频的音色迁移到新文本上,生成保留说话人特征的合成语音。上传一段参考录音,输入需要朗读的文字,即可下载带有该音色的音频文件。

参考音频对效果的影响

参考音频是克隆效果的核心变量,直接决定输出音色的相似度:

  • 录音时长建议 5–30 秒,过短(< 3 秒)会导致音色特征不稳定
  • 单人、安静环境、无回声的录音效果最好;背景噪声或混响明显时,输出音色会带入底噪
  • 语速和音量尽量均匀,避免极端高/低音段——模型倾向于学习整段音频的平均特征
  • 支持 MP3、WAV、M4A、OGG 格式

文本长度与分段建议

文本最长 2000 个字符。超过这个长度时需要手动分段提交。

段落之间的语气连贯性取决于参考音频,同一段音频分多次生成后,各段之间的停顿和语调可能略有差异。若需要制作长音频,建议每段控制在 500 字以内,生成后在音频编辑器中手动拼接。

参考文本的作用

"参考文本"字段是对上传音频内容的文字转录,非必填。填写后可帮助模型更准确地理解参考音频的发音模式,在音频含非母语口音或较多停顿时提升音色一致性。如果参考音频语言和输出文本语言不同,这个字段尤其有用。

风格指令的写法

风格指令是一句话描述输出的语气和情感,如"平静、专业,适合旁白"或"兴奋、活泼,适合广告"。

  • 指令应简短具体,一句话即可
  • 相互矛盾的描述(如"轻松活泼又严肃正式")会让输出效果混乱
  • 风格指令影响语调和节奏,不改变音色本身——音色始终由参考音频决定

语言支持范围

工具支持 10 种语言,可在语言选择器中查看完整列表。选择与输出文本匹配的语言,能帮助模型正确处理发音和重音规则。参考音频语言不必与输出文本语言相同,工具支持跨语言音色迁移,但跨语言时口音特征会有所变化。