如何改善录音质量以获得更好的转录效果
通过改善音频录制来获得更好的转录结果。关于麦克风、房间布置、录制设置和文件格式的实用建议。
影响转录准确率的最大因素不是转录引擎本身,而是你输入的录音质量。即使是最先进的 AI 转录模型,面对模糊的声音、充满回声的房间和削波的音频也会束手无策。另一方面,一段清晰的录音——语音清楚、背景噪音最少——可以将现代语音转文字系统推向接近完美的准确率。
本指南涵盖了你在录制前、录制中和录制后可以做的一切,以获得最佳的转录结果。无论你是录制会议、访谈、讲座还是播客,这些实用的调整都能让你免于之后数小时的手动修正。
为什么音频质量对转录很重要
AI 转录模型使用词错误率(WER)来衡量性能,即系统出错的单词百分比。在清晰的录音棚级音频上,现代模型通常实现低于 5% 的 WER,被视为专业级水平。但同一模型处理带有严重背景噪音、混响或重叠说话的录音时,WER 可能攀升到 20-30% 以上。
这种关系不是线性的。音频质量的适度改善——比如从嘈杂咖啡馆中的笔记本电脑麦克风升级到安静房间中的不错 USB 麦克风——可以将错误率减半。这就是一份可以立即使用的转录和一份需要大量编辑的转录之间的差别。
差的音频还会降低下游功能的质量。说话人分离依赖于区分不同的声音,当音频模糊或有混响时就变得不可靠。标点和格式化模型依赖清晰的语音模式来确定句子的开始和结束位置。当源音频干净时,下游的一切都会受益。
选择合适的麦克风
你的麦克风是音频链中的第一环,它设定了后期处理无论如何都无法超越的质量上限。好消息是你不需要昂贵的设备来获得转录级音频。
电容麦克风 vs 动圈麦克风
电容麦克风更灵敏,捕获更宽的频率范围,使其非常适合受控环境如家庭办公室和录音棚。它们拾取的细微人声细节帮助转录模型区分相似发音的单词。缺点是它们也会拾取更多环境噪音。
动圈麦克风灵敏度较低,设计上能更好地抑制背景噪音。它们更适合未经声学处理的房间或无法完全控制噪音水平的环境。许多广播专业人士正是因为动圈麦克风更能容错而偏好使用它们。
就转录而言,两种类型都效果很好。环境比麦克风类型更重要。
USB vs XLR
USB 麦克风直接连接到电脑并内置音频接口。它们是最简单的选项,适合任何想要在不复杂设置的情况下获得好音频的人。像 Rode NT-USB Mini 或 Audio-Technica AT2020USB+ 这样的 USB 电容麦克风以合理的价格提供了出色的转录清晰度。
XLR 麦克风需要单独的音频接口或调音台,增加了成本和复杂性。好处是对增益控制更精确、更低的噪音底噪以及使用更高端麦克风头的能力。如果你已经有音频接口,XLR 给你更多灵活性。如果你从零开始,USB 是务实的选择。
领夹麦克风用于访谈和会议
录制访谈、小组讨论或说话者走动的任何场景时,领夹(夹式)麦克风通常是最佳选择。夹在说话者下巴下方约 15 厘米的衣服上,领夹麦克风无论头部如何移动都保持与嘴巴的一致距离。
对于多人录制,给每位说话者一个单独的领夹麦克风并录制到独立通道,会使转录变得戏剧性地更容易。支持说话人分离的工具在每个声音通过独立、干净的通道到达时表现好得多。
Rode Wireless Go II 是一款流行的无线领夹系统,可同时录制两个通道,非常适合两人访谈。
按用途推荐
- 独自录制(旁白、听写):桌上支架或悬臂上的 USB 电容麦克风。Blue Yeti、Rode NT-USB Mini 或 Elgato Wave 3 都是不错的选择。
- 访谈:每位参与者一个无线领夹麦克风,或一个定位在说话者之间的枪式麦克风。
- 会议:专用会议麦克风如 Jabra Speak 750 或 Anker PowerConf,设计为从各方向拾取声音。
- 讲座:演讲者佩戴领夹麦克风,或放置在讲台上的界面麦克风。
房间和环境布置
在声学处理好的房间里,$50 的麦克风会比在混响空间里 $500 的麦克风表现更好。房间声学就是这么重要。
减少回声和混响
硬而平的表面反射声波,产生模糊语音并混淆转录模型的混响。柔软的材料吸收声音。实用的步骤包括:
- 关闭门窗以阻隔外部噪音
- 选择小房间而非大房间,因为更少的空气体积意味着更少的混响
- 在有地毯、窗帘、书架或软垫家具的房间里录制
- 如果你的房间听起来有回声,在麦克风后方和两侧的墙上挂上搬家毯或厚窗帘
你不需要专业的吸音板。一个有满衣柜、铺有地毯的地板和窗帘的卧室就是一个出人意料有效的录音环境。
尽量减少背景噪音
转录模型在处理嘈杂音频方面已经变得更好,但预防总是好于纠正。录制前:
- 如果可能,关掉风扇、空调和暖气
- 关闭面向繁忙街道的窗户
- 静音手机并禁用电脑上的通知声音
- 如果你在办公室,选择远离走廊、厨房和开放式办公区域的房间
- 避免有嗡嗡作响的电器如冰箱或服务器机架的房间
人脑非常擅长过滤持续的背景噪音,所以你可能注意不到暖通空调系统的嗡嗡声。但你的麦克风会捕获一切。戴上耳机,在实际录制前听一下测试录音。
麦克风放置
与麦克风的距离比大多数人意识到的更重要。反平方定律意味着,将嘴巴和麦克风之间的距离加倍会使信号电平降低约 6 dB,而背景噪音保持不变。这会显著恶化信噪比。
对于桌面麦克风,将其放置在距嘴巴 15-30 厘米处,稍微偏轴以减少爆破音("p"和"b"的刺耳爆破声)。防喷罩或风罩可以进一步帮助。对于领夹麦克风,夹在下巴下方 15-20 厘米的胸前。
重要的录制设置
正确的技术设置确保你的录音捕获完整的声音细节而不引入数字伪影。
采样率
16 kHz 是语音转录的最低采样率,因为大多数 ASR 模型以此速率处理音频。然而,以 44.1 kHz 或 48 kHz 录制为你的后期处理留出余地,并确保与任何工具或平台的兼容性。
以高于 48 kHz 录制对转录没有好处。更高的采样率捕获与语音无关的超声波频率,只会增加文件大小。
位深度
以 16 位或 24 位深度录制。差异主要体现在安静录音上:24 位给你更宽的动态范围,意味着安静的语音以更少的量化噪音被捕获。如果你的录音软件支持,24 位是安全的默认选择。
单声道 vs 立体声
对于单说话者录音,单声道就够了,文件更小。对于多说话者录音,立体声或多通道录制(每个说话者有自己的通道)很有价值,因为它帮助分离算法区分不同的声音。
如果你用单个麦克风录制多个说话者,单声道是你唯一的选择,这完全可以接受。分离的好处只有在你有多个麦克风输入到独立通道时才适用。
文件格式
无损格式为转录保留了最多的细节:
- WAV 和 FLAC 是无损的,适合存档和转录
- MP3 在 128 kbps 及以上可以用于转录,但会引入压缩伪影
- AAC/M4A(大多数手机使用)在同等比特率下比 MP3 稍好
- OGG/Opus 在更低比特率下提供出色的质量
如果你有存储空间,以 WAV 或 FLAC 录制,需要更小文件时再转换。如果存储是顾虑,192 kbps 或更高的 MP3 为准确转录保留了足够的细节。
大多数转录工具,包括 Vocova,接受所有常见的音频和视频格式,因此格式兼容性很少成为问题。问题在于你在录音本身中保留了多少细节。
不同录制场景的建议
会议
- 使用放在桌子中央的专用会议麦克风,而非依赖笔记本电脑麦克风
- 如果远程参会,请参与者使用耳机或入耳式耳机而非笔记本电脑扬声器,因为后者产生的回声会降低每个人的转录质量
- 不发言时静音,以减少串音和来自个别参与者的背景噪音
- 直接录制会议软件的音频输出,而不是用房间麦克风对着扬声器录,因为这样能捕获最干净的信号
访谈
- 尽可能为采访者和被采访者使用独立的麦克风
- 向被采访者简要说明麦克风技巧:保持一致的距离、避免敲击桌面、以自然的语速说话
- 面对面访谈受益于安静的铺有地毯的房间,关上门
- 对于电话或视频通话访谈,通过软件直接录制通话而非在免提电话旁放一个麦克风
讲座和演讲
- 在演讲者身上佩戴领夹麦克风是最可靠的设置
- 如果使用讲台麦克风,确保演讲者保持在范围内且不频繁转头
- 观众提问出了名地难以捕获。考虑使用传递给提问者的手持麦克风,或让演讲者在回答前复述每个问题
- 如果场地有调音台或混音器,从那里录制而非在观众席放麦克风
播客
- 为每位主持人和嘉宾投资独立的麦克风
- 将每个声音录制到独立轨道(多轨录制),以便独立调整音量
- 每个麦克风使用防喷罩
- 如果远程录制,让每位参与者在本地录制自己的音频,然后在后期制作中合并轨道。这避免了视频通话编解码器的压缩伪影
- Riverside.fm 或 Zencastr 等工具可自动为远程参与者处理本地录制
应避免的常见录制错误
即使是经验丰富的内容创作者也会犯这些错误。每一个都直接影响转录质量。
手机放在口袋或包里。 这是随意录制场景中最常见的错误。织物会闷住对区分辅音至关重要的高频,每次移动都会产生摩擦噪音。如果必须用手机录制,将其放在稳固的表面上,麦克风朝向说话者。
离麦克风太远。 如前所述,距离是清晰音频的大敌。如果你能听到录音中的房间回声或环境噪音与声音竞争,你离得太远了。缩小距离。
增益设置过高。 当输入增益过高时,大声的时刻会导致削波——一种破坏波形的刺耳数字失真。削波的音频无法修复。设置增益使正常说话音量在电平表上达到约 -12 dB 到 -6 dB,为更大声的时刻留出余量。
增益设置过低。 相反,录制音量太小意味着你之后需要放大信号,这同时也放大了噪音底噪。瞄准 -12 dB 到 -6 dB 的最佳位置。
通过蓝牙录制。 蓝牙音频编解码器会大幅压缩音频,特别是通话中使用的免提配置(Hands-Free Profile)。如果你用蓝牙耳机参加会议,发送到录制的音频质量可能低于你听到的。有线连接对录制来说总是更可靠。
多个说话者同时说话。 重叠的语音是任何转录系统面临的最难挑战之一。在会议和访谈中,建立轮流发言的规范——即使是非正式的——也能显著提高转录准确率。
不做测试录音。 在实际录制前花 30 秒录制并回放。听听房间回声、背景嗡嗡声、麦克风操作噪音和整体清晰度。在开始前修复问题比在两小时录制后发现问题要容易得多。
录制后:何时以及如何增强音频
有时你会收到无法控制的录音,或者一次录制没有按计划进行。后期处理可以帮助,但它有局限性。
后期处理能修复什么
- 稳定的背景噪音(嗡嗡声、嘶嘶声、风扇噪音)可以通过降噪工具有效减少。Audacity 的 Noise Reduction 效果对此效果很好,Adobe Podcast 的 Enhance Speech 功能也可以。
- 音量过低可以通过归一化或压缩来纠正,将安静的语音提升到一致的水平。
- 轻微混响可以通过去混响插件部分减少,但效果不一。
后期处理不能修复什么
- 削波的音频是永久失真的,无法恢复
- 严重重叠的语音事后无法干净地分离
- 极低信噪比的录音——噪音比语音更大——通常无法挽救
- 严重的回声来自免提电话或大房间,很难干净地移除
推荐的工作流程
如果你有一个不太理想的录音,在转录前尝试以下步骤:
- 应用降噪以移除稳定的背景噪音
- 归一化音频,将整体水平提升到 -3 dB 峰值
- 如果说话者或段落之间音量差异很大,应用轻度压缩
- 以 WAV 或 FLAC 导出并上传到你的转录工具
像 Vocova 这样的工具可以处理各种音频质量水平,并包含噪声鲁棒的转录模型,但从尽可能干净的音频开始总是能产出最好的结果。
常见问题
转录的最佳音频格式是什么?
WAV 和 FLAC 是最佳格式,因为它们是无损的且保留完整的音频细节。然而,192 kbps 或更高的 MP3 在实际转录中效果很好。大多数 AI 转录工具接受所有常见格式,因此优先级是以高比特率录制,而非担心特定的容器格式。
立体声录制能改善转录准确率吗?
对于单说话者录音,立体声比单声道没有优势。对于多说话者录音,为每个说话者使用独立通道可以显著提高说话人分离准确率。如果你用单个麦克风录制多人,单声道和立体声的区别并不重要。
AI 转录能处理嘈杂的录音吗?
现代 AI 模型比早期系统对噪音更加鲁棒,但噪音仍然会增加词错误率。轻微的背景噪音(安静的办公室、远处的交通声)通常能很好地处理。严重的噪音(大声的音乐、施工、拥挤的房间)会导致明显的准确率下降。请参见我们关于转录嘈杂音频的指南了解具体策略。
麦克风离说话者多近合适?
对于桌面麦克风,15-30 厘米是理想距离。对于领夹麦克风,夹在下巴下方 15-20 厘米处。麦克风离说话者越近,信噪比越好。超过约 45 厘米,房间声学开始主导录音,转录准确率下降。
为了转录值得买昂贵的麦克风吗?
不一定。一个 $50-100 的 USB 麦克风放在安静的房间里并正确放置就能产出转录级音频。昂贵的麦克风在声音丰富度和细节方面有微妙的改善,但这些差异对音乐制作和广播比对语音转文字准确率更重要。在升级麦克风之前,先投资于房间处理和正确的技巧。
录制时应该使用噪音消除吗?
软件噪音消除(如 Krisp 或 NVIDIA Broadcast)在嘈杂环境中可以有所帮助,但要谨慎使用。激进的噪音消除可能引入伪影、使声音听起来像机器人或截断辅音。如果可能,从源头减少噪音。如果必须使用噪音消除,在录制前测试并选择适中的设置。