什么是说话人分离？AI 如何识别音频中的说话人

说话人分离是自动识别和分割音频录音中不同说话人的过程，回答"谁在什么时候说话"的问题。它是现代自动语音识别流水线的核心组件，使转录文本能够将每段语音归属到正确的个人，而无需任何关于说话人身份的先验知识。

无论你是在回顾会议录音、转录播客节目还是分析法律证词，说话人分离都能将一整面的文字墙变为结构化、可读的文档，其中每句话都与说出它的人关联。

什么是说话人分离？

说话人分离，有时拼写为"diarisation"，根据说话人身份将音频流划分为同质片段。该术语源自"diary"（日记）一词——就像日记记录谁做了什么、什么时候做的一样，分离技术记录谁在对话中说了什么、什么时候说的。

在技术上，分离系统以原始音频为输入，输出一组带有时间戳的标签，如"说话人 A：0.0s -- 4.2s"、"说话人 B：4.3s -- 7.8s"等。系统不需要知道说话人的姓名或之前听过他们的声音。它只是将属于同一个声音的片段归类在一个一致的标签下。

说话人分离不同于说话人识别（将声音匹配到已知身份）和说话人验证（确认声音是否属于某个声称的身份）。分离以无监督方式运作：它发现有多少说话人在场并相应地对其语音进行聚类。

说话人分离的工作原理

现代分离系统遵循多阶段流水线。虽然实现方式不同，但大多数共享以下核心步骤。

语音活动检测

第一步是确定音频的哪些部分包含人类语音，哪些是静音、音乐或环境噪音。语音活动检测（VAD）过滤掉非语音区域，使下游组件仅处理相关音频。高质量 VAD 至关重要——漏掉的语音片段永远无法恢复，误检则会向流水线引入噪音。

语音分割

识别出语音区域后，音频被分成短的均匀片段，通常在 0.5 到 2 秒之间。这些片段构成系统将分析并分配给说话人的基本单元。

说话人嵌入提取

每个片段通过一个神经网络处理，产生一个固定维度的向量，称为说话人嵌入，捕获说话人独特的声学特征。这些嵌入将音高、音色、语速和声道形状等属性编码为紧凑的数值表示。

早期系统使用 i-vectors。现代系统依赖深度神经网络嵌入，特别是 d-vectors 和 x-vectors。约翰斯·霍普金斯大学的研究人员提出的 x-vectors 使用时延神经网络架构，已成为该领域的标准。更新的方法使用 ECAPA-TDNN（强调通道注意力、传播和聚合的时延神经网络），通过多尺度特征聚合和通道注意力机制实现了更优的性能。

聚类

为每个片段提取嵌入后，系统将来自同一说话人的片段分组在一起。这从根本上来说是一个聚类问题。常见方法包括：

凝聚层次聚类（AHC）： 从每个片段作为自己的聚类开始，迭代合并两个最相似的聚类，直到满足停止条件。这是最广泛使用的方法。
谱聚类： 从嵌入构建相似性图，使用特征值分解寻找自然分组。
k-means 聚类： 将嵌入划分为固定数量的聚类，但这需要预先知道说话人数量。

聚类算法的选择显著影响准确性和系统自动估计说话人数量的能力。

重分割

初始聚类后，细化步骤会重新检查说话人边界以纠正错误。在说话人转换附近的片段在初始聚类中经常被误分配。重分割使用维特比解码或类似的序列模型来平滑边界并确保时序一致性。

说话人分离为什么重要

说话人分离不仅仅是技术上的便利。它对于使音频内容作为文字真正可用来说至关重要。

会议和协作。 在多参与者的会议中，没有说话人标签的转录文本很难跟踪。分离让团队能快速看到谁提出了哪些观点、谁同意了哪些行动项、谁提出了哪些问题。这对远程和混合办公团队回顾会议录音特别有价值。

采访和新闻。 记者、研究人员和招聘经理需要区分采访者和被采访者。分离自动化了此前手动注释转录文本的繁琐过程。

播客和媒体。 带有说话人标签的播客转录文本更具无障碍性、更可搜索，对节目笔记和内容再利用更有用。它们还通过使内容按说话人可索引来改善 SEO。

法律和合规。 法庭证词、监管听证会和合规录音都需要准确地将发言归属到特定个人。归属错误可能会产生严重后果。

医疗。 医生和患者之间的临床对话必须被准确记录。分离帮助自动化的医疗记录员将症状、诊断和医嘱归属到正确的一方。

无障碍。 对于聋人和听力困难的用户来说，带有说话人识别的字幕内容比无差别的文字有用得多。

分离方法类型

离线 vs 在线分离

离线分离在录音完成后处理完整的音频文件。它可以分析整个对话来做出全局最优的说话人分配决策。这种方法通常产生更高的准确性，因为系统可以访问所有可用信息。

在线（实时）分离在音频到达时进行处理，以最小延迟分配说话人标签。这对实时字幕、实时会议助手和语音控制系统来说是必需的。代价是准确性降低，因为系统无法向前看来解决模糊片段。

端到端神经分离

传统分离流水线将多个独立模块串联在一起。由日立和 NTT 的研究人员开创的端到端神经分离（EEND）用单一神经网络替代了这个流水线，直接为每个时间帧输出说话人标签。

EEND 模型在多说话人混合音频上训练，学习联合处理语音活动检测、重叠检测和说话人分配。EEND-EDA（编码器-解码器吸引子）变体可以处理灵活数量的说话人，不受固定上限的限制，解决了早期 EEND 方法的一个关键限制。

混合方法

许多最先进的系统结合了神经和基于聚类的方法。例如，系统可能使用神经网络进行嵌入提取和重叠检测，然后应用聚类进行说话人分配，最后用神经重分割模型细化结果。

说话人分离面临的挑战

尽管取得了显著进步，几个问题仍然困难。

重叠语音

当两个或更多说话人同时说话时，传统分离系统会遇到困难，因为每个时间帧通常只被分配给一个说话人。EEND 等重叠感知模型处理得更好，但重叠语音仍然是最大的错误来源之一。在自然对话中，重叠可能占说话时间的 10-20%。

相似声音

同一性别、年龄组和方言的说话人可能产生非常相似的嵌入，导致聚类算法将他们合并为一个说话人。这在声学特征相似的同质群体（如一组具有类似声学特征的小组发言人）中尤其具有挑战性。

短话语

非常简短的轮次——快速的"是"、"对"或"嗯嗯"——为嵌入提取提供的声学信息很少。这些短片段经常被误分配。

可变的录音条件

分离准确性随背景噪音、混响、低质量麦克风和不同录音距离而下降。靠近麦克风的说话人和房间另一端的说话人产生非常不同的音频特征，即使系统必须始终如一地识别他们。

未知的说话人数量

在大多数真实场景中，说话人数量事先未知。系统必须同时估计说话人数量和分配标签。高估会将一个说话人拆分为两个；低估会将两个说话人合并为一个。

说话人分离的准确性如何？

分离准确性使用**分离错误率（DER）**来衡量，它结合了三种错误类型：漏检语音（未被检测到的语音）、误检（非语音被标记为语音）和说话人混淆（语音被归属到错误的说话人）。DER 越低越好。

在充分研究的基准上，当前最先进水平达到：

CALLHOME（电话对话）： DER 在 5-10% 范围内，取决于系统和评估条件。
AMI 会议语料库： 远场录音的 DER 在 10-20% 之间，近讲话麦克风更低。
DIHARD 挑战（多样化、困难音频）： DER 在 15-25% 范围内，反映了包括儿童语音、网络视频和临床访谈在内的真实世界条件的难度。

对于使用不错音频质量录制的典型两人对话，现代系统通常实现低于 5% 的 DER。随着说话人数量增加、音频质量下降或重叠变得更频繁，性能会下降。

值得注意的是，DER 的测量结果因评估协议而有显著差异。容忍窗口（在说话人转换周围不计分的小时间缓冲）以及是否对重叠区域评分都会实质性地影响报告的数字。比较系统时，请确保评估条件一致。

说话人分离的实践应用

在像 Vocova 这样的转录工具中，说话人分离与自动语音识别协同工作，直接从上传的音频产生带标签的转录文本。你上传一段录音——会议、采访、播客或任何多说话人音频——系统返回一份转录文本，其中每个片段都标记了说话人标签和时间戳。

Vocova 处理 100 多种语言的音频并具备自动语言检测功能，应用分离来识别整个录音中的各个说话人。结果是一份结构化的转录文本，你可以导出为 PDF、SRT、VTT、DOCX 或其他格式，保留说话人标签。这消除了回听和手动注释谁说了什么的手动工作。

对于经常处理多说话人录音的团队和个人来说，自动化的分离可以将录音后的处理时间从数小时减少到几分钟。

常见问题

说话人分离和说话人识别有什么区别？

说话人分离在不知道说话人是谁的情况下按说话人分割音频。它通过将来自同一声音的语音归类在一致的标签（如"说话人 1"或"说话人 2"）下来回答"谁在什么时候说话"。说话人识别则通过将声音与存储的声纹进行匹配来识别特定的已知个人。分离是无监督的；识别需要预先注册已知说话人。

分离能处理多少说话人？

没有严格的技术上限，但准确性随说话人数量增加而降低。大多数系统在 2-6 个说话人时表现良好。超过 8-10 个说话人，由于区分多个声音的困难以及短轮次和重叠语音的可能性增加，错误率会显著上升。对于大型群组录音，将分离与额外元数据（如麦克风分配）相结合可以改善结果。

说话人分离能实时工作吗？

可以，在线分离系统可以以低延迟（通常在几秒内）分配说话人标签。实时分离用于实时字幕、会议助手和语音分析平台。但实时系统的错误率通常高于处理完整录音的离线系统，因为它们无法使用未来的上下文来解决模糊片段。

分离能告诉我说话人的姓名吗？

不能自行做到。分离分配匿名标签（说话人 1、说话人 2 等），因为它不知道说话人是谁。要将标签映射到姓名，你需要说话人识别（与已知声纹匹配）或事后的手动注释。一些转录工具允许你在分离完成后重命名说话人标签。

音频质量如何影响分离准确性？

音频质量有很大影响。安静环境中近讲话麦克风的高质量录音产生最好的结果。背景噪音、混响、低比特率压缩和远场录音（说话人远离麦克风）都会降低准确性。电话通话和使用单个共享麦克风的会议室录音比个人耳机录音更具挑战性。

什么是分离错误率（DER）？

分离错误率是评估分离系统的标准指标。计算方式为错误总时长（漏检语音 + 误检语音 + 说话人混淆）除以参考语音的总时长。DER 为 0% 表示完美分离。最先进的系统根据音频难度实现 5-15% 的 DER。该指标由 NIST 定义，在学术基准和行业评估中使用。如需了解更多转录准确性指标，请参阅我们的词错误率指南。

什么是说话人分离？AI 如何识别音频中的说话人