输出格式的选择依据

五种输出格式适合不同的后续用途：

词级时间戳（每个词的开始和结束时间）仅在选择"详细 JSON"格式时可以启用。说话人标签功能需要"详细 JSON"格式才能完整记录各说话人的标注信息。

说话人识别的使用方法

启用说话人标签后，工具会尝试区分不同说话人并在结果中进行标注。可以设置最少和最多说话人数来辅助识别：两人对话建议设置最小 2、最大 2；多人会议设置最小 3、最大适当放宽（如 8–10）。说话人声音特征越明显、说话不频繁交叉打断，识别准确率越高；声音相似或频繁互相打断的场景识别效果有限。

提示词的实际用法

提示词字段不是搜索关键词，而是用于告知模型音频中可能出现的特定词汇，帮助正确识别：

专业术语和缩写：NFT, DeFi, DAO, WASM

人名和品牌名：张伟, OpenAI, Anthropic

特定背景说明：这是一场关于前端开发的技术分享

提示词对专有名词识别帮助显著，但不影响整体识别逻辑，也不会改变输出语言。

影响识别准确率的音频因素

以下条件通常带来更高准确率：

人声清晰，背景噪声低（会议室优于咖啡馆）

说话语速适中，发音清晰

主要讲述一种语言，不混杂多语言切换

以下情况会降低准确率：强烈口音、快速语速、背景音乐覆盖人声、多人同时说话、音频压缩失真严重。

翻译为英文的限制说明

勾选"翻译为英文"后，工具在转录的同时将内容翻译为英语输出，适合快速了解外语音频内容。需要注意，这是单向翻译（非英语转英语），不支持将英语转为其他语言；翻译结果可能与直接人工翻译有差异，发布前需人工核校。

音频转文字

输出格式的选择依据