音频转文字工具将音频和视频文件转录为文本,支持 MP3、WAV、FLAC、AAC、OPUS、OGG、M4A 等音频格式以及 MP4、MPEG、MOV、WebM 视频格式,单文件最大 100 MB,可输出纯文本、JSON、SRT 字幕、VTT 字幕或详细 JSON 五种格式,支持自动语言检测或手动指定语言,以及说话人识别、词级时间戳和翻译为英文等附加功能。
输出格式的选择依据
五种输出格式适合不同的后续用途:
字幕制作场景
- SRT:最通用的字幕格式,兼容 Premiere、Final Cut、剪映和大多数播放器(VLC、PotPlayer)
- VTT:网页视频首选,适用于 HTML5
<video>标签
文本处理场景
- Text:纯文本,直接阅读或粘贴编辑
- JSON:结构化输出,包含分段信息,适合程序处理
- 详细 JSON:含时间戳和说话人信息,数据最完整
词级时间戳(每个词的开始和结束时间)仅在选择"详细 JSON"格式时可以启用。说话人标签功能需要"详细 JSON"格式才能完整记录各说话人的标注信息。
说话人识别的使用方法
启用说话人标签后,工具会尝试区分不同说话人并在结果中进行标注。可以设置最少和最多说话人数来辅助识别:两人对话建议设置最小 2、最大 2;多人会议设置最小 3、最大适当放宽(如 8–10)。说话人声音特征越明显、说话不频繁交叉打断,识别准确率越高;声音相似或频繁互相打断的场景识别效果有限。
提示词的实际用法
提示词字段不是搜索关键词,而是用于告知模型音频中可能出现的特定词汇,帮助正确识别:
- 专业术语和缩写:
NFT, DeFi, DAO, WASM - 人名和品牌名:
张伟, OpenAI, Anthropic - 特定背景说明:
这是一场关于前端开发的技术分享
提示词对专有名词识别帮助显著,但不影响整体识别逻辑,也不会改变输出语言。
影响识别准确率的音频因素
以下条件通常带来更高准确率:
- 人声清晰,背景噪声低(会议室优于咖啡馆)
- 说话语速适中,发音清晰
- 主要讲述一种语言,不混杂多语言切换
以下情况会降低准确率:强烈口音、快速语速、背景音乐覆盖人声、多人同时说话、音频压缩失真严重。
翻译为英文的限制说明
勾选"翻译为英文"后,工具在转录的同时将内容翻译为英语输出,适合快速了解外语音频内容。需要注意,这是单向翻译(非英语转英语),不支持将英语转为其他语言;翻译结果可能与直接人工翻译有差异,发布前需人工核校。