AI 音频转换将一段已有音频以新的风格重新演绎——保留旋律，把它变成另一种曲风、另一种音色或另一种编曲。同一界面下提供两类模型：MiniMax Music Cover 负责整曲翻唱与风格迁移，ACE-Step v1.5（Base / Turbo）则是音乐生成模型，可选择性接收一段参考音频作为翻唱或混音的种子。

源音频规则

MiniMax Music Cover 要求源音频时长在 6 秒到 6 分钟之间。ACE-Step 的源音频可选——一旦提供，模型会把它当作混音种子，输出长度跟随源片段而不是时长滑块。上传前会读取文件元数据获取时长，无法解码的文件会被拒绝。

歌词、Verse 段落标签与纯伴奏输出

MiniMax 与 ACE-Step 都接受带段落标签的结构化歌词字段。模型不会从普通段落里推断曲式结构，方括号必须显式给出。

[Intro]
[Verse]
Wheels in circles on a painted line
Neon streaks and a borrowed shine
[Chorus]
Glide with me through the afterglow
Where the silver speakers throb real low
[Bridge]
[Outro]

要让 MiniMax 翻唱时保留原始唱词，常用做法是写好骨架结构再加一段简短指引，要求模型沿用源人声：

[Intro]
[Verse]
Keep the original lyrics and phrasing from the source vocal.
[Chorus]
Keep the original lyrics and phrasing from the source vocal.

ACE-Step 在歌词字段为空（或仅包含段落标签）时生成纯伴奏。需要更干净的器乐输出时，把"高级"里的人声语言改为"Instrumental / Auto"。

ACE-Step 高级参数

强度（Strength） — 跟随源音频的去噪步数比例。0 完全忽略源，1 紧贴源。0.5 起步即可获得明显但仍有创意空间的改写
Cover conditioning — 保留源歌曲结构的比重。值越高越能听出原曲
时长滑块被隐藏——输出长度由源音频决定

时长决定输出长度（6–300 秒，默认 60）
强度与 Cover conditioning 不生效，UI 自动禁用
Steps 控制细节精细度：Base 最高 300（默认 100），Turbo 最高 20（默认 10）
CFG Scale 决定提示词的贴合度。当填了反向提示词时必须大于 1——服务端会自动调到 1.5

写好风格提示词

音乐生成的提示词更像音乐总监的指令而非诗化描述，把希望出现的元素列清楚：

Late-70s funk-pop cover with a bright female lead, tight disco drums, elastic bassline, crisp rhythm guitar, brass stabs, sparkling synth accents, dramatic breakdown, triumphant final chorus.

Lo-fi hip-hop, jazzy electric piano chords, mellow boom-bap drums at 88 BPM, vinyl crackle, late-night focus mood, no vocals.

BPM 同时写进提示词与 BPM 滑块更稳。生成带歌词作品时显式写明人声语言，否则 ACE-Step 默认按英文处理。

费用与积分预冻结

MiniMax Music Cover 按"每次生成"统一计费，与输入长度无关。ACE-Step 按生成时长计费：

无源音频时，预冻结按时长滑块估算
有源音频时，预冻结按测量到的源音频长度估算——4 分钟的源即便时长字段被隐藏也会预留足够积分
最终结算依据每次任务返回的实际费用与服务商账单一致

试听与下载

每条生成结果可直接试听。下载按钮按所选格式（MP3 / WAV / FLAC / OGG）输出，历史面板会记下生成时使用的格式，从历史里重新下载不会因当前选项变了就改后缀。结果旁边显示的种子值（seed）方便你只调整一个参数复现或微调某次生成。