什麼是說話者辨識？AI 如何在音訊中識別說話者

說話者辨識（Speaker Diarization）是在音訊錄音中自動識別和分割不同說話者的過程，回答「誰在什麼時候說話」的問題。它是現代自動語音辨識流程的核心組成部分，使逐字稿能將每個語音片段歸屬到正確的個人，而不需要任何關於說話者身份的先驗知識。

無論你是在審閱會議錄音、轉錄 Podcast 節目還是分析法律證詞，說話者辨識都能將一大片文字轉化為結構化、可讀的文件，其中每個句子都與說它的人關聯。

什麼是說話者辨識？

說話者辨識，有時拼作「diarisation」，根據說話者的身份將音訊串流分割成同質片段。這個術語源自「diary」（日記）一詞——正如日記記錄誰做了什麼和何時做的，辨識記錄了對話中誰說了什麼和何時說的。

在技術上，辨識系統接收原始音訊作為輸入，產生一組帶有時間戳的標籤，例如「說話者 A：0.0 秒至 4.2 秒」、「說話者 B：4.3 秒至 7.8 秒」等。系統不需要知道說話者的姓名或之前聽過他們的聲音。它只是將屬於同一聲音的片段歸類在一個一致的標籤下。

說話者辨識與說話者識別（將聲音匹配到已知身份）和說話者驗證（確認聲音是否屬於所聲稱的身份）不同。辨識以無監督方式運作：它發現有多少說話者存在，並相應地將他們的語音分群。

說話者辨識的運作原理

現代辨識系統遵循多階段流程。雖然實作方式不同，但大多數共享這些核心步驟。

語音活動偵測

第一步是確定音訊的哪些部分包含人類語音，而不是靜默、音樂或環境噪音。語音活動偵測（VAD）過濾掉非語音區域，使下游組件只處理相關音訊。高品質的 VAD 至關重要——遺漏的語音片段永遠無法恢復，而誤報會在流程中引入噪音。

語音分割

一旦識別出語音區域，音訊就被分割成短的、均勻的片段，通常長度在 0.5 到 2 秒之間。這些片段形成系統將分析和分配給說話者的基本單位。

說話者嵌入擷取

每個片段通過一個神經網路，產生一個固定維度的向量，稱為說話者嵌入，擷取說話者獨特的聲音特徵。這些嵌入將音高、音色、說話速度和聲道形狀等屬性編碼為緊湊的數值表示。

早期系統使用 i-vector 來完成此目的。現代系統依賴深度神經網路嵌入，特別是 d-vector 和 x-vector。X-vector 由約翰霍普金斯大學的研究人員引入，使用時間延遲神經網路架構，已成為該領域的標準。更新的方法使用 ECAPA-TDNN（強調通道注意力、傳播和聚合的時間延遲神經網路），透過多尺度特徵聚合和通道注意力機制達到更優越的表現。

分群

擷取所有片段的嵌入後，系統將來自同一說話者的片段歸為一組。這從根本上是一個分群問題。常見的方法包括：

層級凝聚分群（AHC）： 從每個片段作為自己的群開始，反覆合併最相似的兩個群，直到滿足停止條件。這是最廣泛使用的方法。
譜分群： 從嵌入構建相似度圖，使用特徵值分解找到自然分組。
k-means 分群： 將嵌入分割成固定數量的群，但這需要事先知道說話者數量。

分群演算法的選擇顯著影響準確度和系統自動估計說話者數量的能力。

重新分割

初始分群後，精煉步驟重新檢查說話者邊界以修正錯誤。說話者轉換附近的片段在初始分群期間常被錯誤分配。重新分割使用 Viterbi 解碼或類似的序列模型來平滑邊界並強制時間一致性。

為什麼說話者辨識重要

說話者辨識不僅僅是技術上的便利。它對於使音訊內容真正可用為文字至關重要。

會議和協作。 在多參與者的會議中，沒有說話者標籤的逐字稿很難閱讀。辨識讓團隊快速看到誰提出了哪些觀點、誰同意了行動項目、誰問了哪些問題。這對審閱錄製會議的遠端和混合團隊特別有價值。

訪談和新聞。 記者、研究人員和招聘經理需要區分訪談者和受訪者。辨識自動化了以前需要手動標註逐字稿的繁瑣過程。

Podcast 和媒體。 帶有說話者標籤的 Podcast 逐字稿更具無障礙性、更易搜尋，對節目筆記和內容再利用更有用。它們還透過使內容按說話者可索引來改善 SEO。

法律和合規。 法庭證詞、監管聽證會和合規錄音都需要將陳述準確歸屬到特定個人。歸屬錯誤可能產生嚴重後果。

醫療。 醫生和患者之間的臨床對話必須被準確記錄。辨識幫助自動化醫療抄寫員將症狀、診斷和指示歸屬到正確的一方。

無障礙。 對於聽障使用者來說，帶有說話者辨識的字幕內容比無差別的文字有用得多。

辨識方法的類型

離線 vs 線上辨識

離線辨識在錄音完成後處理完整的音訊檔案。它可以分析整段對話以做出全域最佳的說話者分配決策。這種方法通常產生更高的準確度，因為系統可以存取所有可用的資訊。

線上（即時）辨識在音訊到達時進行處理，以最小延遲分配說話者標籤。這對即時字幕、即時會議助手和語音控制系統是必要的。代價是準確度降低，因為系統無法向前看以解決模糊的片段。

端到端神經辨識

傳統辨識流程將多個獨立模組串聯在一起。端到端神經辨識（EEND），由日立和 NTT 的研究人員開創，用單一神經網路取代這個流程，直接為每個時間幀輸出說話者標籤。

EEND 模型在多說話者音訊混合上訓練，學習聯合處理語音活動偵測、重疊偵測和說話者分配。EEND-EDA（編碼器-解碼器吸引子）變體可以處理靈活數量的說話者，不受固定上限的限制，解決了早期 EEND 方法的一個關鍵限制。

混合方法

許多最先進的系統結合了神經和基於分群的方法。例如，一個系統可能使用神經網路進行嵌入擷取和重疊偵測，然後應用分群進行說話者分配，最後用神經重新分割模型精煉結果。

說話者辨識的挑戰

儘管有顯著進展，幾個問題仍然困難。

重疊語音

當兩個或更多說話者同時說話時，傳統辨識系統會遇到困難，因為每個時間幀通常只分配給單一說話者。重疊感知模型如 EEND 處理得更好，但重疊語音仍然是最大的錯誤來源之一。在自然對話中，重疊可能佔說話時間的 10-20%。

相似的聲音

相同性別、年齡組和方言的說話者可能產生非常相似的嵌入，導致分群演算法將他們合併為單一說話者。這在聲音特徵相似的同質群組（如具有相似聲音特徵的講者小組）中特別具挑戰性。

短句子

非常簡短的發言——快速的「是」、「對」或「嗯」——提供的聲學資訊很少，不足以進行嵌入擷取。這些短片段經常被錯誤分配。

多變的錄音條件

辨識準確度在背景噪音、混響、低品質麥克風和不同錄音距離下會降低。靠近麥克風的說話者和房間對面的說話者產生非常不同的音訊特徵，即使系統必須一致地辨識它們。

未知的說話者數量

在大多數真實世界場景中，說話者數量事先未知。系統必須同時估計說話者數量並分配標籤。高估會將一個說話者分裂成兩個；低估會將兩個說話者合併為一個。

說話者辨識有多準確？

辨識準確度使用**辨識錯誤率（DER）**衡量，它結合了三種類型的錯誤：遺漏語音（未被偵測到的語音）、誤報（非語音被標記為語音）和說話者混淆（語音被歸屬到錯誤的說話者）。DER 越低越好。

在充分研究的基準上，目前最先進的技術達到：

CALLHOME（電話對話）： DER 在 5-10% 範圍內，取決於系統和評估條件。
AMI 會議語料庫： 遠場錄音 DER 在 10-20% 之間，近距離麥克風則更低。
DIHARD 挑戰賽（多元、困難音訊）： DER 約為 24--35% 或更高，視 track 而定；DIHARD III 報告指出，在參考語音活動偵測下約 23.7%，從零開始則約 35.5%，反映兒童語音、網路影片與臨床訪談等真實情境的難度。

對於以良好音訊品質錄製的典型雙人對話，現代系統通常達到 5% 以下的 DER。隨著說話者數量增加、音訊品質降低或重疊變得更頻繁，表現會下降。

值得注意的是，DER 的測量結果因評估協定而異很大。寬容區間（在說話者轉換周圍排除在評分之外的小時間緩衝）和是否對重疊區域評分都會實質影響報告的數字。比較系統時，確保評估條件一致。

說話者辨識的實際應用

在像 Vocova 這樣的轉錄工具中，說話者辨識與自動語音辨識並行工作，直接從上傳的音訊產生帶標籤的逐字稿。你上傳一段錄音——會議、訪談、Podcast 或任何多說話者音訊——系統回傳一份逐字稿，其中每個片段都標記了說話者標籤和時間戳記。

Vocova 以 100 多種語言處理音訊並具備自動語言偵測，應用辨識功能在整段錄音中識別個別說話者。結果是一份結構化的逐字稿，你可以匯出為 PDF、SRT、VTT、DOCX 或其他格式，說話者標籤都被保留。這省去了回聽和標註誰說了什麼的手動工作。

對於經常處理多說話者錄音的團隊和個人來說，自動化辨識可以將錄音後的處理時間從數小時減少到數分鐘。

常見問題

說話者辨識和說話者辨認有什麼區別？

說話者辨識在不知道說話者是誰的情況下按說話者分割音訊。它透過將來自同一聲音的語音歸類在「說話者 1」或「說話者 2」等一致的標籤下，回答「誰在什麼時候說話」。相比之下，說話者辨認透過將聲音與儲存的聲紋匹配來識別特定的已知個人。辨識是無監督的；辨認需要事先登記已知說話者。

辨識能處理多少說話者？

沒有硬性的技術上限，但準確度隨說話者數量增加而降低。大多數系統在 2-6 位說話者時表現良好。超過 8-10 位說話者時，由於區分多個聲音的困難以及短發言和重疊語音增加的可能性，錯誤率顯著上升。對於大型群體錄音，將辨識與額外的元資料（如麥克風分配）結合可以改善結果。

說話者辨識能即時工作嗎？

可以，線上辨識系統可以以低延遲分配說話者標籤，通常在幾秒鐘內。即時辨識用於即時字幕、會議助手和語音分析平台。然而，即時系統通常比處理完整錄音的離線系統有更高的錯誤率，因為它們無法使用未來的上下文來解決模糊的片段。

辨識能告訴我說話者的姓名嗎？

它本身不能。辨識分配匿名標籤（說話者 1、說話者 2 等），因為它不知道說話者是誰。要將標籤映射到姓名，你需要說話者識別（與已知聲紋匹配）或事後手動標註。一些轉錄工具允許你在辨識完成後重新命名說話者標籤。

音訊品質如何影響辨識準確度？

音訊品質有實質影響。來自安靜環境中近距離麥克風的高品質錄音產生最佳結果。背景噪音、混響、低位元率壓縮和遠場錄音（說話者遠離麥克風）都會降低準確度。電話通話和使用單一共用麥克風的會議室錄音比個別耳機錄音更具挑戰性。

什麼是辨識錯誤率（DER）？

辨識錯誤率是評估辨識系統的標準指標。它計算為錯誤總時長（遺漏語音 + 誤報語音 + 說話者混淆）除以參考語音的總時長。DER 為 0% 表示完美辨識。最先進的系統在簡單的雙人語音上可達到 5% 以下的 DER,但在真實情境中會高出許多;困難的 DIHARD III 基準約為 24--35% 或更高。該指標由 NIST 定義，用於學術基準和行業評估。關於轉錄準確度指標的更多資訊，請參閱我們的詞錯誤率指南。

來源與延伸閱讀

NIST Rich Transcription Evaluation — the diarization evaluation framework and DER
Snyder et al., "X-Vectors: Robust DNN Embeddings for Speaker Recognition" (ICASSP 2018)
Desplanques et al., "ECAPA-TDNN" (Interspeech 2020)
Fujita et al., "End-to-End Neural Speaker Diarization with Permutation-Free Objectives" (2019)
Horiguchi et al., "End-to-End Speaker Diarization for an Unknown Number of Speakers (EEND-EDA)" (2020)
Ryant et al., "The Third DIHARD Diarization Challenge" (2020)

什麼是說話者辨識？AI 如何在音訊中識別說話者