AI 口型同步

按输入音频时长计费，不同模型每秒消耗的积分不同。

概述

AI 口型同步工具将视频中人物的嘴唇动作替换为与新音频内容一致的口型，常用于视频配音、多语言本地化和短视频创作。上传包含人脸的视频和目标语音音频，AI 逐帧分析音频音素并映射到对应口型，生成结果视频，保留原视频的面部表情、头部动作和背景场景。

输入

源视频

目标音频

输出

结果视频

视频和音频时长不一致时怎么处理

源视频时长与目标音频时长不一致时，需要通过"同步策略"指定处理方式：

时长差距超过 2 倍时，循环类策略的结果会有明显重复感，建议优先裁剪素材到接近的时长后再处理。

人脸在画面中占比越大、越正面、越清晰，口型映射越自然。以下情况效果会明显下降：

单人、正面、光线充足的视频通常最稳定，多人对话场景建议先裁剪出目标人物的单人片段再处理。

口型是按音频的音素序列驱动的，背景音乐和环境噪声会干扰音素识别，导致口型与语音内容不匹配。纯人声、较少混响、单人讲话的音频效果最稳定；混有背景音乐的音频建议先做人声分离处理再上传。