AI 视频转换

按模型、分辨率与时长计费，每次任务的实际消耗有所不同

概述

Generated by AI

AI 视频转换在已有视频上做提示词驱动的 AI 改造 —— 风格迁移、主体替换、画面物体增删、改光改天气，同时保留原片的动作节奏与镜头运动。上传源视频，写一段描述要做什么改动的提示词，所选模型会输出一段沿用原片节奏的新视频。输出尺寸通常继承自输入视频，所以裁剪与画幅取舍要在上传前完成。

工具内有两种模式共用同一界面：

怎么选模型

不同模型擅长的改造类型完全不同，挑错模型出来的效果差距很大：

界面顶部的模型选择器只列出当前模式支持的模型，切换模式会重新过滤候选列表。

V2V 单价大致是同分辨率 T2V 的两倍，因为模型既要处理输入帧又要生成新帧。具体每秒费率以模型卡上的当前价格预览为准。生成前的预扣按"输入时长与请求输出时长的较大值"计算 —— 上传 15 秒源视频会先预扣 15 秒的额度，即使提示词要求更短的输出。

模型同时接受参考图与输入视频时，参考图是用来界定具体的编辑目标的，不是简单"叠风格"。做物体替换工作流时，上传的应是替换后目标外观的图片（"新衬衫"参考图 → AI 把原片中的衬衫换成它）。做多镜头连贯生成时，参考图用来在不同切换间锚定主体。

按重要性顺序上传 —— 第一张参考图通常用来锚定主体。多数模型把参考图数量限制在 3–10 张之间，因模型而异。

多数 V2V 模型会丢弃原音频，是否生成新音频靠右侧设置区中的 audio 选项控制。部分模型固定附带原生音频，部分模型固定丢弃。对口型工作流已迁移至独立的 AI 对口型工具，不在此处。

如果必须保留原始音轨完整一致，下载后用 ffmpeg 把原音频合回去。

V2V 任务异步执行，2–8 分钟是常见区间，具体取决于模型、分辨率与时长。结果到达后会出现在历史面板 —— 中途离开页面没问题，回到工具时 WebSocket 会重连补上结果。生成的视频是临时的，记得及时下载。