请先登录后使用该工具
该工具可能会消耗积分,请先登录后继续使用。

AI 音频转换

概述
Generated by AI

AI 音频转换将一段已有音频以新的风格重新演绎——保留旋律,把它变成另一种曲风、另一种音色或另一种编曲。同一界面下提供两类模型:MiniMax Music Cover 负责整曲翻唱与风格迁移,ACE-Step v1.5(Base / Turbo)则是音乐生成模型,可选择性接收一段参考音频作为翻唱或混音的种子。

源音频规则

MiniMax Music Cover 要求源音频时长在 6 秒到 6 分钟之间。ACE-Step 的源音频可选——一旦提供,模型会把它当作混音种子,输出长度跟随源片段而不是时长滑块。上传前会读取文件元数据获取时长,无法解码的文件会被拒绝。

歌词、Verse 段落标签与纯伴奏输出

MiniMax 与 ACE-Step 都接受带段落标签的结构化歌词字段。模型不会从普通段落里推断曲式结构,方括号必须显式给出。

[Intro]
[Verse]
Wheels in circles on a painted line
Neon streaks and a borrowed shine
[Chorus]
Glide with me through the afterglow
Where the silver speakers throb real low
[Bridge]
[Outro]

要让 MiniMax 翻唱时保留原始唱词,常用做法是写好骨架结构再加一段简短指引,要求模型沿用源人声:

[Intro]
[Verse]
Keep the original lyrics and phrasing from the source vocal.
[Chorus]
Keep the original lyrics and phrasing from the source vocal.

ACE-Step 在歌词字段为空(或仅包含段落标签)时生成纯伴奏。需要更干净的器乐输出时,把"高级"里的人声语言改为"Instrumental / Auto"。

ACE-Step 高级参数

带源音频时

  • 强度(Strength) — 跟随源音频的去噪步数比例。0 完全忽略源,1 紧贴源。0.5 起步即可获得明显但仍有创意空间的改写
  • Cover conditioning — 保留源歌曲结构的比重。值越高越能听出原曲
  • 时长滑块被隐藏——输出长度由源音频决定

无源音频时

  • 时长 决定输出长度(6–300 秒,默认 60)
  • 强度与 Cover conditioning 不生效,UI 自动禁用
  • Steps 控制细节精细度:Base 最高 300(默认 100),Turbo 最高 20(默认 10)
  • CFG Scale 决定提示词的贴合度。当填了反向提示词时必须大于 1——服务端会自动调到 1.5

写好风格提示词

音乐生成的提示词更像音乐总监的指令而非诗化描述,把希望出现的元素列清楚:

Late-70s funk-pop cover with a bright female lead, tight disco drums, elastic bassline, crisp rhythm guitar, brass stabs, sparkling synth accents, dramatic breakdown, triumphant final chorus.
Lo-fi hip-hop, jazzy electric piano chords, mellow boom-bap drums at 88 BPM, vinyl crackle, late-night focus mood, no vocals.

BPM 同时写进提示词与 BPM 滑块更稳。生成带歌词作品时显式写明人声语言,否则 ACE-Step 默认按英文处理。

费用与积分预冻结

MiniMax Music Cover 按"每次生成"统一计费,与输入长度无关。ACE-Step 按生成时长计费:

  • 无源音频时,预冻结按时长滑块估算
  • 有源音频时,预冻结按测量到的源音频长度估算——4 分钟的源即便时长字段被隐藏也会预留足够积分
  • 最终结算依据每次任务返回的实际费用与服务商账单一致

试听与下载

每条生成结果可直接试听。下载按钮按所选格式(MP3 / WAV / FLAC / OGG)输出,历史面板会记下生成时使用的格式,从历史里重新下载不会因当前选项变了就改后缀。结果旁边显示的种子值(seed)方便你只调整一个参数复现或微调某次生成。