什么是自动语音识别（ASR）？完整指南

自动语音识别（ASR）是一种通过计算方法将口语转换为书面文字的技术。也被称为语音转文字（STT）或简称语音识别，ASR 是转录服务、语音助手、听写软件以及任何需要理解人类语音的系统背后的基础技术。

ASR 已从 1950 年代只能识别少量数字的研究新事物，发展为能以接近人类的准确度处理数百种语言的成熟技术。本指南介绍 ASR 的工作原理、如何衡量其准确性以及该技术当前的发展状况。

什么是自动语音识别？

自动语音识别是将声学语音信号转换为词语序列的计算过程。给定一段音频录音或实时音频流，ASR 系统会生成所说内容的文字转录。

"自动"一词将其与人工执行的手动转录区分开来。虽然人工转录员长期以来一直是准确性的黄金标准，但现代 ASR 系统已大幅缩小了这一差距，在某些条件下甚至达到或超过了人类的表现。

ASR 与几种相邻技术密切相关但有所不同：

自然语言理解（NLU）： 解读已识别文本的含义。ASR 产出词语；NLU 提取意图。
说话人分离： 识别谁在什么时候说话。分离和 ASR 经常一起使用但解决的是不同问题。
语音活动检测（VAD）： 判断音频中是否包含语音。VAD 通常是 ASR 流水线中的预处理步骤。

ASR 简史

ASR 的历史跨越七十年，经历了数次范式转变。

1950-1960 年代：最早期的系统。 贝尔实验室在 1952 年制造了"Audrey"，一个能以约 90% 的准确率识别单个说话人所说数字的系统。1962 年，IBM 展示了"Shoebox"，能识别 16 个英文单词。这些系统都是手工设计的，极其有限。

1970-1980 年代：统计方法。 1970 年代引入的隐马尔可夫模型（HMM）标志着一个转折点。HMM 不再使用手工规则，而是将语音建模为状态的概率序列。DARPA 资助的项目如卡内基梅隆大学的 SPHINX 系统首次展示了连续语音识别。到 1980 年代末，基于 HMM 结合高斯混合模型（GMM）的系统成为主导范式。

1990-2000 年代：大词汇量识别。 系统扩展到数万个单词的词汇量。Dragon Dictate（1990）是首批商业听写产品之一。统计语言模型，特别是 n-gram 模型，通过引入上下文词语概率提高了准确性。到 2000 年代，呼叫中心自动化和语音搜索推动了大量商业投资。

2010 年代：深度学习革命。 2012 年，微软、谷歌和多伦多大学的研究人员证明，深度神经网络（DNN）可以替代 GMM 作为声学模型，相对于此前最好的系统将错误率降低了 20-30%。这引发了快速进步：循环神经网络（RNN）、长短期记忆网络（LSTM）和基于注意力机制的模型各自带来了进一步改进。谷歌在 2012 年将基于神经网络的 ASR 部署到 Android 语音搜索中，标志着大规模商业应用的开始。

2020 年代：基础模型。 OpenAI 的 Whisper（2022）在 68 万小时的多语言音频数据上训练，展示了单一模型可以处理 99 种语言的转录、翻译和语言识别。Meta 的 wav2vec 2.0 和后续模型表明，对未标注音频的自监督预训练可以大幅减少所需的标注数据量。这些基础模型代表了当前的技术水平。

ASR 的工作原理

现代 ASR 系统在架构上各不相同，但核心任务保持不变：将音频信号映射为词语序列。以下是关键组件的简要概述。

音频预处理

原始音频首先被转换为适合建模的数值表示。标准方法计算梅尔频率倒谱系数（MFCC）或梅尔频谱图——近似人耳感知声音方式的表示。音频被分成短的重叠帧（通常是 25ms 窗口和 10ms 移位），并从每帧中提取频率特征。

声学模型

声学模型将音频特征映射到语言单元。在传统系统中，这些单元是音素（语言中最小的语音单位）或子音素状态。声学模型估计给定音频帧对应每个可能语言单元的概率。

在现代端到端系统中，声学模型是深度神经网络——通常是 Conformer（结合卷积和 Transformer 层）或 Transformer 编码器——直接将音频特征映射到字符或词片，而不需要显式的音素阶段。

语言模型

语言模型提供关于哪些词语序列在目标语言中可能出现的上下文知识。它帮助系统在声学上相似的替代方案之间做出选择。例如，"recognize speech"和"wreck a nice beach"听起来几乎相同，但语言模型在大多数上下文中强烈倾向前者。

传统系统使用在大型文本语料库上训练的 n-gram 语言模型。现代端到端系统通常通过在大型配对音频文本数据集上训练来隐式地融入语言建模，或在解码过程中通过与外部语言模型的浅层融合来显式地进行。

解码器

解码器结合声学模型分数和语言模型概率来找到给定音频输入最可能的词语序列。在传统系统中，这通常是通过加权有限状态转换器（WFST）的束搜索。在端到端系统中，常见的是使用连接时序分类（CTC）或基于注意力机制的解码进行束搜索。

端到端架构

现代 ASR 的趋势是朝向将声学建模、语言建模和解码合并为单一神经网络的端到端模型。主要架构包括：

CTC（连接时序分类）： 在不需要显式对齐标签的情况下将可变长度音频对齐到可变长度文本。简单快速，但在建模输出依赖性方面有限。
基于注意力的编码器-解码器： 使用注意力机制学习音频帧和输出标记之间的软对齐。更强大但速度较慢，有时鲁棒性较差。
RNN-Transducer（RNN-T）： 结合类 CTC 编码器和自回归解码器，在保持流式能力的同时实现高准确性。在 Google 等公司的生产系统中广泛使用。
Whisper 风格的编码器-解码器 Transformer： 在大规模多语言数据集上训练的大型 Transformer 模型。在不同语言和领域中具有出色的准确性和泛化能力。

ASR 关键指标

词错误率（WER）

词错误率是评估 ASR 准确性的主要指标。计算公式为：

WER =（替换 + 插入 + 删除）/ 参考总词数

其中替换是用错误的词替换正确的词，插入是添加多余的词，删除是完全遗漏的词。WER 越低越好；0% 表示完美转录。

基准 WER 值提供了"好"的含义的背景：

专业人工转录员： 会话语音上 4-5% WER（这是经常引用的来自 2017 年微软在 Switchboard 语料库上的研究的人类基准）。
最先进的 ASR 在清晰朗读语音上（LibriSpeech test-clean）： 低于 2% WER。
电话会话语音（Switchboard）： 领先系统 5-6% WER。
嘈杂的真实世界音频： 根据条件 10-30% WER。

如需更深入了解 WER 及其局限性，请参阅我们的词错误率详解指南。

实时系数（RTF）

实时系数衡量处理速度：处理时间与音频时长的比率。RTF 为 0.5 意味着系统以两倍实时的速度处理音频。低于 1.0 的 RTF 是实时应用（如实时字幕）所必需的。现代 GPU 加速系统在离线处理中通常实现 0.02 到 0.1 的 RTF。

字符错误率（CER）

字符错误率在字符级别应用与 WER 相同的公式。CER 更适合没有明确词语边界的语言，如中文、日语和泰语，因为在这些语言中词语分割本身就引入了变异性。

现代 ASR：深度学习革命

三项发展定义了 ASR 的当前时代。

自监督预训练

wav2vec 2.0（Meta，2020）和 HuBERT（Meta，2021）等模型从大量未标注的音频中学习语音表示。模型首先被训练来预测音频信号中被掩码的部分，类似于 BERT 从被掩码的文本中学习。然后在相对少量的标注数据上微调这些预训练表示。这种方法对低资源语言来说是变革性的，因为这些语言的标注训练数据很少。

大规模多语言模型

OpenAI 的 Whisper 于 2022 年发布，证明了在 68 万小时弱监督多语言数据上训练单一编码器-解码器 Transformer 可以产生一个在不同语言、口音和录音条件下泛化的模型，无需领域特定的微调。Whisper 的 large-v3 模型支持 99 种语言，在许多基准测试中取得有竞争力的准确性，而在训练过程中从未见过基准数据。

这种多语言能力使高质量 ASR 对数十种此前缺乏专用语音识别系统的语言变得可及。像 Vocova 这样的工具利用这些进展提供 100 多种语言的转录和自动语言检测，使全球用户无论说什么语言都能获得准确的语音转文字。

Conformer 架构

Conformer（Gulati 等，2020）结合了捕获局部声学模式的卷积层和建模长程依赖关系的 Transformer 自注意力层。这种混合架构已成为许多生产 ASR 系统的骨干，在多个基准测试中取得最先进的结果，同时保持计算效率。

谷歌的通用语音模型（USM）在 300 多种语言的 1200 万小时音频上训练，基于 Conformer 架构，代表了迄今为止最大的 ASR 训练工作之一。

ASR 面临的挑战

尽管取得了巨大进步，仍有几个挑战持续存在。

口音和方言

主要在一种语言的标准变体上训练的 ASR 系统通常在地方口音和方言上表现不佳。在美式英语上训练的系统可能在苏格兰英语、印度英语或非裔美国人白话英语上表现困难。这不仅是技术限制——当 ASR 准确性在不同人口群体间存在差异时，还引发了公平性问题。

背景噪音和声学条件

噪音仍然是一个根本挑战。竞争说话人、背景音乐、机器、风和房间混响都会降低识别准确性。虽然现代模型比前代产品更具鲁棒性，但在不利声学条件下性能仍然显著下降。"干净录音棚音频"和"真实世界录音"的 WER 差距可达 10 个百分点以上。

领域专用术语

通用 ASR 模型在广泛数据集上训练，可能无法准确识别专业词汇：医学术语、法律行话、科学名称或行业特定术语。通过微调或自定义语言模型进行领域适配有所帮助，但构建领域特定的 ASR 仍然需要努力和专业知识。

语码转换

许多说话人会在一次对话甚至一个句子中自然地在语言之间切换。处理语码转换需要模型同时识别多种语言并即时切换解码策略。这仍然是一个活跃的研究领域，尽管 Whisper 等多语言模型在某些语码转换场景中比单语言系统表现更好。

不流利和自发语音

朗读语音相对容易转录。自发语音，带有虚假开头、填充词（"嗯"、"呃"）、重复和不完整句子，要困难得多。决定是否在转录文本中包含或移除不流利本身就是一个影响下游可用性的设计决策。

长音频

处理长录音（数小时的音频）引入了超出短语句识别的挑战：在长时间跨度内保持上下文、处理主题转变以及管理计算资源。分块策略和滑动窗口方法有所帮助，但在分块边界处的伪影可能引入错误。

ASR 的应用

ASR 技术在各行各业驱动着广泛的应用。

转录服务。 将录制的音频转换为文字文档是 ASR 最直接的应用。会议转录、采访转录、讲座录制和播客转录都依赖准确的语音转文字转换。像 Vocova 这样的现代服务将 ASR 与说话人分离和翻译相结合，从原始音频产出丰富的结构化转录文本。

语音助手。 Siri、Alexa、Google Assistant 和类似产品使用 ASR 作为其输入层，将口头命令转换为文本，然后由自然语言理解系统处理。

无障碍。 为聋人和听力困难者提供的实时字幕、音频描述以及为运动障碍用户提供的语音转文字界面都依赖 ASR。网页内容无障碍指南（WCAG）建议为所有音频内容提供字幕。

呼叫中心分析。 ASR 支持大规模自动转录和分析客户服务电话。联络中心使用语音分析来监控坐席绩效、识别客户痛点并确保合规。

媒体和内容。 视频平台的自动字幕、可搜索的音频档案和内容索引都使用 ASR。例如，YouTube 的自动字幕使用 ASR 处理数十亿小时的视频。

医疗文档。 通过环境录音——录制医患对话并生成结构化医疗记录——进行的临床文档是一个快速增长的应用。ASR 结合医学 NLU 可以减轻医疗提供者的文档负担。

法律和执法。 法庭报告、证据转录和监控音频处理都使用 ASR，但这些应用通常需要人工审核，因为错误的代价很高。

ASR 的未来

几个趋势正在塑造下一代语音识别技术。

多模态模型。 结合音频、视觉（唇读）和文本信息的系统可以实现比仅音频模型更高的准确性，特别是在嘈杂环境中。音视频 ASR 正从研究走向实际应用。

个性化。 在无需显式注册或重新训练的情况下使 ASR 模型适应个体说话人——他们的口音、词汇和说话风格——是一个活跃的研究领域。少样本适配技术允许模型在听到仅几分钟的特定说话人语音后就能改进。

更小更快的模型。 蒸馏和量化技术正在产生可以在边缘设备——手机、耳机和嵌入式系统——上高效运行的模型，无需将音频发送到云端。设备端 ASR 改善了隐私、降低了延迟并支持离线操作。

更丰富的输出。 未来的 ASR 系统将超越扁平文本，在单次处理中产出包含标点、大写、段落分隔、说话人标签、情感和意图注释的结构化输出。ASR 和自然语言理解之间的界限正在模糊。

通用语音模型。 处理所有语言、所有领域和所有任务（转录、翻译、说话人分离、口语理解）的单一模型趋势正在加速。这些通用模型有望让每种语言和每个用例都能平等地获得语音技术。

常见问题

ASR 和语音转文字有什么区别？

它们指的是同一种技术。自动语音识别（ASR）是将口语转换为书面文字的学术和技术术语。语音转文字（STT）是产品描述和日常语言中更常用的术语。语音识别有时在口语中用来表示同样的意思，但它也可以指说话人识别（识别谁在说话而不是说了什么）。

现代 ASR 有多准确？

准确性在很大程度上取决于音频质量、语言、口音和领域。在清晰的朗读英语语音上，最先进的系统达到低于 2% 的词错误率。在音频质量良好的会话语音上，WER 通常为 5-8%。在嘈杂的真实世界音频上，WER 可能从 10% 到 30% 或更高。作为参考，专业人工转录员在会话语音上达到约 4-5% 的 WER，这意味着最好的 ASR 系统现在在有利条件下接近或达到了人类水平的准确性。

ASR 对所有语言都有效吗？

随着多语言模型的出现，覆盖范围已经大幅扩展。Whisper 支持 99 种语言，谷歌的 USM 覆盖 300 多种。但准确性在不同语言间差异很大。英语、西班牙语、普通话和法语等高资源语言由于有丰富的训练数据而表现最好。低资源语言的错误率可能显著更高。随着自监督和多语言预训练技术减少了对标注数据的依赖，这一差距正在缩小。

ASR 能处理同一录音中的多种语言吗？

处理语码转换（在对话中切换语言）对大多数 ASR 系统来说仍然具有挑战性。多语言模型通常可以检测主要语言，并可能处理一定程度的语码转换，但准确性通常在语言边界处下降。如果录音包含不同语言的明确片段，用特定语言设置处理每个片段通常比依赖自动处理产生更好的结果。

获得良好 ASR 结果需要什么音频质量？

为获得最佳结果，使用 16 kHz 或更高的采样率（如今大多数录音超过此标准），尽量减少背景噪音，将麦克风放置在靠近说话人的位置。不需要专业麦克风——现代智能手机和笔记本电脑的麦克风在合理安静的环境中可以产生足够的质量。影响最大的因素是信噪比和混响。在嘈杂办公室中使用近讲话耳机比在安静会议室中使用房间麦克风产生更好的 ASR 结果。

ASR 和 AI 转录有什么区别？

ASR 是底层技术；AI 转录是使用 ASR 加上额外处理（如标点恢复、说话人分离、格式化和后编辑）的产品。当人们比较 AI 转录与人工转录时，他们比较的是完整的产品流水线（ASR + 后处理）与手动人工劳动。纯 ASR 输出是原始文本，通常需要额外处理才能成为成品转录文本。现代转录工具自动应用这些后处理步骤来产出可发布的结果。

什么是自动语音识别（ASR）？完整指南