AI 声音克隆

上传声音样本(MP3、WAV、M4A、OGG)
高级选项
概述
Generated by AI

使用 AI 技术克隆您的声音并生成自然语音的在线工具。上传一段音频样本,输入想要朗读的文本,即可生成与原声音高度相似的语音。支持多种语言和丰富的参数调节,适用于配音、有声读物、语音助手等场景。

功能特点

声音克隆

上传包含您声音的音频文件,工具会分析音色、语调、语速等特征,建立声音模型。然后可以用这个模型朗读任意文本,生成的语音会保持原声音的特点。

支持的音频格式:

  • MP3:常见压缩音频格式
  • WAV: 无损音频格式,推荐使用
  • M4A: Apple 设备常用格式
  • OGG: 开源音频格式

自动转录

如果不确定音频文件的内容,可以留空文本框。工具会自动识别音频中的语音内容并转录为文字,然后使用克隆的声音重新生成。这个功能适合想要提升音频质量或修改说话风格的场景。

多语言支持

克隆的声音可以朗读不同语言的文本,不局限于原音频的语言。例如使用中文声音样本,也可以生成英文、日文等语言的语音。

参数调节

提供 11 个高级参数,可以精细控制生成效果:

创意与多样性

  • 温度 (0-2):控制生成的随机性,默认 0.8。数值越高,声音变化越丰富,但可能偏离原声;数值越低,声音越稳定一致
  • 核采样概率 (0-1):控制词语选择的集中度,默认 0.8。越低越保守,越高越多样
  • 采样范围 (1-200):每次选词时考虑的候选数量,默认 30

情感表现

  • 情感强度 (0-1):控制语音的情感表现力,默认 1。越高语音越生动富有感情,越低越平淡
  • 随机化情感:为语音添加自然的情感起伏变化,让声音更接近真人

质量控制

  • 束搜索宽度 (1-8):影响生成质量,默认 3。越高质量越好但速度越慢
  • 重复惩罚 (1-30):防止词语或音节重复,默认 10。越高越能避免重复
  • 长度惩罚 (0-5):影响生成音频的长度,默认 0

分段设置

  • 最大音频标记 (256-4096):限制单次生成的音频长度,默认 1500
  • 间隔静音 (0-2000 毫秒):片段之间的停顿时间,默认 200 毫秒
  • 每段最大文本标记 (32-300):每个片段包含的文字数量,默认 120

在线播放和下载

生成的音频可以在页面上直接播放预听,也可以下载保存为 MP3 文件,文件名会保留原音频文件名并添加"voice-cloning"前缀。

使用方法

基础使用

  1. 上传音频样本
    • 点击上传区域选择音频文件
    • 支持 MP3、WAV、M4A、OGG 格式
    • 推荐使用清晰、无背景噪音的录音
    • 建议时长 5-30 秒
  2. 输入文本
    • 在文本框中输入想要朗读的内容
    • 支持中文、英文及其他语言
    • 可输入多行文本或段落
    • 留空则自动转录音频内容
  3. 生成语音
    • 点击"克隆声音"按钮
    • 等待处理完成
    • 如果启用了自动转录,会显示"转录并克隆中..."
  4. 播放和下载
    • 生成完成后会显示音频播放器
    • 点击播放按钮试听效果
    • 点击下载按钮保存音频文件

使用高级参数

  1. 点击"高级选项"面板展开参数设置
  2. 根据需求调整各项参数:
    • 想要声音更稳定,降低温度和核采样概率
    • 想要声音更生动,提高情感强度并启用随机化情感
    • 想要更高质量,增加束搜索宽度
    • 避免重复问题,提高重复惩罚
  3. 调整完成后点击"克隆声音"重新生成

自动转录模式

  1. 上传音频文件后,不输入任何文本
  2. 直接点击"克隆声音"
  3. 工具会自动识别音频中的语音,转录为文字,使用克隆声音重新生成
  4. 适合想要保留内容但改善音质的场景

应用场景

内容配音

为视频、演示文稿或教学内容配音。使用克隆的声音可以保持音色一致,即使在不同时间录制也能保证统一的听感。

有声读物制作

将文章、小说转换为有声版本。使用自己的声音克隆可以创建个性化的有声书,或为他人定制专属的朗读版本。

多语言内容

使用母语声音样本,生成其他语言的语音内容。适合需要多语言版本但希望保持声音一致性的场景。

语音修复

改善现有录音的质量或修正发音错误。通过转录和重新生成,可以消除背景噪音、口误等问题。

虚拟角色配音

为游戏、动画或虚拟助手创建独特的声音。克隆特定声音后可以生成大量台词,无需反复录音。

使用技巧

获得最佳效果

选择优质音频样本

  • 使用清晰的录音,避免背景噪音和回声
  • 说话音量稳定,不要忽大忽小
  • 语速适中,不要过快或过慢
  • 发音清晰标准,避免含糊不清
  • 建议时长 10-20 秒,包含完整句子

优化文本输入

  • 使用正确的标点符号,帮助生成自然的停顿
  • 较长文本建议分段处理,每次生成 1-2 段
  • 数字建议用文字形式(如"十"而非"10")
  • 特殊词汇标注拼音或音译

参数调节建议

追求稳定质量

  • 温度:0.6-0.8
  • 核采样概率:0.7-0.8
  • 束搜索宽度:4-6
  • 重复惩罚:10-15

追求生动表现

  • 温度:0.9-1.2
  • 情感强度:0.8-1.0
  • 启用随机化情感
  • 核采样概率:0.8-0.9

处理长文本

  • 增加每段最大文本标记到 200-250
  • 调整间隔静音到 300-500 毫秒
  • 分段处理,每次不超过 500 字

避免重复问题

  • 提高重复惩罚到 15-20
  • 降低温度到 0.7 以下
  • 调整采样范围到 20-40

注意事项

  • 音频样本质量直接影响克隆效果,建议使用高质量录音
  • 自动转录需要额外时间,长音频可能需要等待较久
  • 克隆声音仅供个人使用,请勿用于冒充他人或非法用途
  • 生成的语音质量受多种因素影响,无法保证完全一致
  • 某些特殊音色或方言可能克隆效果较差
  • 长文本建议分段生成,避免一次性生成过长音频
  • 参数调节需要多次尝试才能找到最佳组合
  • 温度过高可能导致声音失真或不稳定
  • 束搜索宽度过大会显著增加处理时间
  • 不同语言的克隆效果可能有差异
  • 生成的音频文件会在页面刷新后失效,请及时下载
  • 请尊重他人的声音版权,不要克隆他人声音用于商业用途
  • 网络不稳定可能导致上传或生成失败
展开更多