请先登录后使用该工具
该工具可能会消耗积分,请先登录后继续使用。

音频转文字

概述

音频转文字工具将音频和视频文件转录为文本,支持 MP3、WAV、FLAC、AAC、OPUS、OGG、M4A 等音频格式以及 MP4、MPEG、MOV、WebM 视频格式,单文件最大 100 MB,可输出纯文本、JSON、SRT 字幕、VTT 字幕或详细 JSON 五种格式,支持自动语言检测或手动指定语言,以及说话人识别、词级时间戳和翻译为英文等附加功能。

输出格式的选择依据

五种输出格式适合不同的后续用途:

字幕制作场景

  • SRT:最通用的字幕格式,兼容 Premiere、Final Cut、剪映和大多数播放器(VLC、PotPlayer)
  • VTT:网页视频首选,适用于 HTML5 <video> 标签

文本处理场景

  • Text:纯文本,直接阅读或粘贴编辑
  • JSON:结构化输出,包含分段信息,适合程序处理
  • 详细 JSON:含时间戳和说话人信息,数据最完整

词级时间戳(每个词的开始和结束时间)仅在选择"详细 JSON"格式时可以启用。说话人标签功能需要"详细 JSON"格式才能完整记录各说话人的标注信息。

说话人识别的使用方法

启用说话人标签后,工具会尝试区分不同说话人并在结果中进行标注。可以设置最少和最多说话人数来辅助识别:两人对话建议设置最小 2、最大 2;多人会议设置最小 3、最大适当放宽(如 8–10)。说话人声音特征越明显、说话不频繁交叉打断,识别准确率越高;声音相似或频繁互相打断的场景识别效果有限。

提示词的实际用法

提示词字段不是搜索关键词,而是用于告知模型音频中可能出现的特定词汇,帮助正确识别:

  • 专业术语和缩写:NFT, DeFi, DAO, WASM
  • 人名和品牌名:张伟, OpenAI, Anthropic
  • 特定背景说明:这是一场关于前端开发的技术分享

提示词对专有名词识别帮助显著,但不影响整体识别逻辑,也不会改变输出语言。

影响识别准确率的音频因素

以下条件通常带来更高准确率:

  • 人声清晰,背景噪声低(会议室优于咖啡馆)
  • 说话语速适中,发音清晰
  • 主要讲述一种语言,不混杂多语言切换

以下情况会降低准确率:强烈口音、快速语速、背景音乐覆盖人声、多人同时说话、音频压缩失真严重。

翻译为英文的限制说明

勾选"翻译为英文"后,工具在转录的同时将内容翻译为英语输出,适合快速了解外语音频内容。需要注意,这是单向翻译(非英语转英语),不支持将英语转为其他语言;翻译结果可能与直接人工翻译有差异,发布前需人工核校。