AI 视频转换在已有视频上做提示词驱动的 AI 改造 —— 风格迁移、主体替换、画面物体增删、改光改天气,同时保留原片的动作节奏与镜头运动。上传源视频,写一段描述要做什么改动的提示词,所选模型会输出一段沿用原片节奏的新视频。输出尺寸通常继承自输入视频,所以裁剪与画幅取舍要在上传前完成。
工具内有两种模式共用同一界面:
视频到视频(Video to Video)
- 整体改风格、改色调、做风格迁移
- 动作与构图沿用源视频
- 适合"按原片节奏出新视频"的场景
视频编辑(Video Edit)
- 在原画面上做定向修改
- 主体替换、物体增删、场景改造(光照、天气)、画面文字替换
- 未指定的区域保持不变
怎么选模型
不同模型擅长的改造类型完全不同,挑错模型出来的效果差距很大:
- 整体风格改造、动作迁移 —— 选标记为通用 video-to-video 的模型,源视频 + 提示词,重做画面但保留动作
- 画面内的定向编辑 —— 看模型卡上是否标注了"物体替换 / 移除 / 场景改造"等能力,这类模型通常支持短指令搭配参考图来定义编辑目标
- 多模态编辑(带音频参考) —— 部分模型一次请求可同时接受参考图、参考视频与参考音频,适合多镜头连贯生成或音画对齐
界面顶部的模型选择器只列出当前模式支持的模型,切换模式会重新过滤候选列表。
同分辨率下 V2V 为什么比 T2V 贵
V2V 单价大致是同分辨率 T2V 的两倍,因为模型既要处理输入帧又要生成新帧。具体每秒费率以模型卡上的当前价格预览为准。生成前的预扣按"输入时长与请求输出时长的较大值"计算 —— 上传 15 秒源视频会先预扣 15 秒的额度,即使提示词要求更短的输出。
输入视频的准备建议
- 时长 —— 多数厂商把源视频限制在 30 秒以内,具体上限以所选模型的卡片说明为准
- 文件大小 —— 控制在 60 MB 以内,更大的文件在到达模型前就会上传超时
- 分辨率 —— 匹配模型支持的预设档位。不一致的画幅会被自动裁剪或加黑边
- 帧率 —— 24 或 30 fps 最稳。极高帧率源会被重采样到模型原生帧率
- 编码 —— H.264 MP4 兼容性最好。WEBM 与 MOV 也能用,但偶尔会在上传校验环节失败
参考图改的是结果,不只是风格
模型同时接受参考图与输入视频时,参考图是用来界定具体的编辑目标的,不是简单"叠风格"。做物体替换工作流时,上传的应是替换后目标外观的图片("新衬衫"参考图 → AI 把原片中的衬衫换成它)。做多镜头连贯生成时,参考图用来在不同切换间锚定主体。
按重要性顺序上传 —— 第一张参考图通常用来锚定主体。多数模型把参考图数量限制在 3–10 张之间,因模型而异。
原视频的音频会怎样
多数 V2V 模型会丢弃原音频,是否生成新音频靠右侧设置区中的 audio 选项控制。部分模型固定附带原生音频,部分模型固定丢弃。对口型工作流已迁移至独立的 AI 对口型 工具,不在此处。
如果必须保留原始音轨完整一致,下载后用 ffmpeg 把原音频合回去。
等待时长与结果获取
V2V 任务异步执行,2–8 分钟是常见区间,具体取决于模型、分辨率与时长。结果到达后会出现在历史面板 —— 中途离开页面没问题,回到工具时 WebSocket 会重连补上结果。生成的视频是临时的,记得及时下载。