什麼是自動語音辨識（ASR）？完整指南

自動語音辨識（ASR）是使用計算方法將口語轉換為書面文字的技術。也被稱為語音轉文字（STT）或簡稱語音辨識，ASR 是轉錄服務、語音助手、口述軟體和任何需要理解人類語音的系統背後的基礎技術。

ASR 已從 1950 年代只能辨識少數數字的研究產物，演進為能以接近人類的準確度處理數百種語言的成熟技術。本指南說明 ASR 的運作原理、如何衡量其準確度，以及該技術目前所處的位置。

什麼是自動語音辨識？

自動語音辨識是將聲學語音訊號轉換為詞彙序列的計算過程。給定一段音訊錄音或即時音訊串流，ASR 系統會產生所說內容的文字逐字稿。

「自動」一詞將其與人工轉錄區分開來。雖然人類轉錄員長期以來一直是準確度的黃金標準，但現代 ASR 系統已大幅縮小差距，在某些條件下甚至達到或超過人類表現。

ASR 與幾個相關但不同的技術密切相關：

自然語言理解（NLU）： 詮釋被辨識文字的含義。ASR 產生詞彙；NLU 擷取意圖。
說話者辨識： 辨識誰在何時說話。辨識和 ASR 常一起使用但解決不同的問題。
語音活動偵測（VAD）： 判斷音訊是否包含語音。VAD 通常是 ASR 流程中的前處理步驟。

ASR 簡史

ASR 的歷史跨越七十年和數次典範轉移。

1950 年代至 1960 年代：最早的系統。 貝爾實驗室在 1952 年建造了「Audrey」，一個能以約 90% 準確度辨識單一說話者所說數字的系統。1962 年，IBM 展示了「Shoebox」，能辨識 16 個英語單詞。這些系統是手工設計的且極為有限。

1970 年代至 1980 年代：統計方法。 1970 年代隱藏式馬可夫模型（HMM）的引入標誌著轉折點。HMM 不使用手工規則，而是將語音建模為狀態的機率序列。DARPA 資助的專案如卡內基美隆大學的 SPHINX 系統首次展示了連續語音辨識。到 1980 年代末，HMM 結合高斯混合模型（GMM）成為主導範式。

1990 年代至 2000 年代：大詞彙量辨識。 系統擴展到數萬個單詞的詞彙量。Dragon Dictate（1990 年）是最早的商業口述產品之一。統計語言模型，特別是 n-gram 模型，透過整合上下文詞彙機率提高了準確度。到 2000 年代，客服中心自動化和語音搜尋推動了大量商業投資。

2010 年代：深度學習革命。 2012 年，微軟、Google 和多倫多大學的研究人員證明深度神經網路（DNN）可以取代 GMM 作為聲學模型，相對於最佳先前系統降低了 20-30% 的錯誤率。這引發了快速進展：循環神經網路（RNN）、長短期記憶網路（LSTM）和基於注意力的模型各自帶來了進一步的改進。Google 在 2012 年將基於神經網路的 ASR 部署到 Android 語音搜尋，標誌著廣泛商業採用的開始。

2020 年代：基礎模型。 OpenAI 的 Whisper（2022 年），在 680,000 小時的多語言音訊資料上訓練，證明了單一模型可以處理 99 種語言的轉錄、翻譯和語言辨識。Meta 的 wav2vec 2.0 及後續模型顯示，在未標記音訊上的自監督預訓練可以大幅減少所需的標記資料量。這些基礎模型代表了目前的技術水準。

ASR 的運作原理

現代 ASR 系統的架構各不相同，但核心任務不變：將音訊訊號映射到詞彙序列。以下是關鍵元件的簡化概覽。

音訊前處理

原始音訊首先被轉換為適合建模的數值表示。標準方法計算梅爾頻率倒譜係數（MFCC）或梅爾頻譜圖——近似人耳感知聲音方式的表示。音訊被分割成短的重疊框架（通常是 25 毫秒的視窗，10 毫秒的位移），從每個框架中擷取頻率特徵。

聲學模型

聲學模型將音訊特徵映射到語言單位。在傳統系統中，這些單位是音素（語言中最小的聲音單位）或亞音素狀態。聲學模型估計給定音訊框架對應於每個可能語言單位的機率。

在現代端到端系統中，聲學模型是深度神經網路——通常是 Conformer（結合卷積層和 Transformer 層）或 Transformer 編碼器——直接將音訊特徵映射到字元或詞片段，不需要顯式的音素階段。

語言模型

語言模型提供關於哪些詞彙序列在目標語言中是可能的上下文知識。它幫助系統在聲學上相似的替代方案之間做出選擇。例如，「recognize speech」和「wreck a nice beach」聽起來幾乎一樣，但語言模型在大多數上下文中強烈偏好前者。

傳統系統使用在大量文字語料庫上訓練的 n-gram 語言模型。現代端到端系統通常透過在大量配對音訊-文字資料集上訓練來隱含地整合語言建模，或在解碼期間透過淺層融合顯式地使用外部語言模型。

解碼器

解碼器結合聲學模型分數和語言模型機率，為給定的音訊輸入找到最可能的詞彙序列。在傳統系統中，這通常是透過加權有限狀態轉換器（WFST）的束搜尋。在端到端系統中，使用連結時序分類（CTC）或基於注意力解碼的束搜尋是常見的。

端到端架構

現代 ASR 的趨勢是將聲學建模、語言建模和解碼結合到單一神經網路的端到端模型。主要架構包括：

CTC（連結時序分類）： 在不需要顯式對齊標籤的情況下，對齊可變長度的音訊和可變長度的文字。簡單快速，但在建模輸出依賴性方面有限。
基於注意力的編碼器-解碼器： 使用注意力機制學習音訊框架和輸出標記之間的軟對齊。更強大但更慢，有時不太穩健。
RNN-Transducer（RNN-T）： 結合類似 CTC 的編碼器和自回歸解碼器，在具備串流能力的同時達到高準確度。廣泛用於 Google 和其他公司的生產系統。
Whisper 風格的編碼器-解碼器 Transformer： 在大規模多語言資料集上訓練的大型 Transformer 模型。跨語言和領域具有優秀的準確度和泛化能力。

關鍵 ASR 指標

詞錯誤率（WER）

詞錯誤率是評估 ASR 準確度的主要指標。計算方式為：

WER =（替換 + 插入 + 刪除）/ 參考詞總數

其中替換是被錯誤詞彙取代的詞，插入是多出的詞，刪除是完全遺漏的詞。WER 越低越好；0% 代表完美的逐字稿。

基準 WER 值提供了「好」的含義的上下文：

專業人類轉錄員： 對話語音 4-5% WER（這是 2017 年微軟在 Switchboard 語料庫上的研究中常被引用的人類基準）。
最先進 ASR 在乾淨朗讀語音（LibriSpeech test-clean）上： 低於 2% WER。
對話電話語音（Switchboard）： 領先系統 5-6% WER。
嘈雜、真實世界音訊： 依條件不同 10-30% WER。

關於 WER 及其限制的更深入分析，請參閱我們的詞錯誤率解析指南。

即時因子（RTF）

即時因子衡量處理速度：處理時間與音訊持續時間的比率。RTF 為 0.5 表示系統以兩倍即時速度處理音訊。RTF 低於 1.0 是即時應用（如即時字幕）的要求。現代 GPU 加速系統在離線處理中通常達到 0.02 到 0.1 的 RTF。

字元錯誤率（CER）

字元錯誤率將與 WER 相同的公式應用在字元層級而非詞彙層級。CER 對於沒有明確詞彙邊界的語言（如中文、日文和泰文）更為適當，因為在這些語言中詞彙切分本身就引入了變異性。

現代 ASR：深度學習革命

三個發展定義了 ASR 的當前時代。

自監督預訓練

wav2vec 2.0（Meta，2020 年）和 HuBERT（Meta，2021 年）等模型從大量未標記音訊中學習語音表示。模型首先被訓練來預測音訊訊號的遮蔽部分，類似於 BERT 從遮蔽文字中學習的方式。這些預訓練的表示隨後在相對少量的標記資料上進行微調。這個方法對低資源語言具有變革性意義，因為這些語言的標記訓練資料稀缺。

大規模多語言模型

OpenAI 的 Whisper 於 2022 年發佈，證明了在 680,000 小時弱監督多語言資料上訓練單一編碼器-解碼器 Transformer，可以產生一個跨語言、口音和錄音條件都能泛化的模型，且不需要領域特定的微調。Whisper 的 large-v3 模型支援 99 種語言，在許多基準上達到具競爭力的準確度，且在訓練期間從未看過基準資料。

這種多語言能力使得數十種以前缺乏專用語音辨識系統的語言也能獲得高品質 ASR。像 Vocova 這樣的工具利用這些進展，提供 100 多種語言的轉錄並具備自動語言偵測，使全世界的使用者無論說什麼語言都能獲得準確的語音轉文字。

Conformer 架構

Conformer（Gulati 等人，2020 年）結合了擷取局部聲學模式的卷積層和建模長距離依賴關係的 Transformer 自注意力層。這種混合架構已成為許多生產 ASR 系統的骨幹，在多個基準上達到最先進的結果，同時保持計算效率。

Google 的 Universal Speech Model（USM），在 300 多種語言的 1,200 萬小時音訊上訓練，建立在 Conformer 架構之上，代表了迄今最大規模的 ASR 訓練成果之一。

ASR 的挑戰

儘管有顯著改進，幾個挑戰仍然存在。

口音和方言

主要在語言的標準變體上訓練的 ASR 系統，往往在地區口音和方言上表現不佳。在美式英語上訓練的系統可能在蘇格蘭英語、印度英語或非裔美國人白話英語上遇到困難。這不僅是技術限制——當 ASR 準確度在不同人口群體之間有所差異時，也引發了公平性的擔憂。

背景噪音和聲學條件

噪音仍然是一個根本挑戰。競爭的說話者、背景音樂、機械設備、風和房間迴響都會降低辨識準確度。雖然現代模型比前代更加穩健，在不利的聲學條件下表現仍然顯著下降。「乾淨錄音室音訊」和「真實世界錄音」WER 之間的差距可能達到 10 個百分點以上。

領域特定術語

通用 ASR 模型在廣泛的資料集上訓練，可能無法準確辨識專業詞彙：醫學術語、法律用語、科學命名或行業特定術語。透過微調或自訂語言模型進行領域適應有所幫助，但建構領域特定 ASR 仍然需要努力和專業知識。

語碼轉換

許多說話者在單一對話甚至單一句子中自然地在語言之間切換。處理語碼轉換要求模型同時辨識多種語言並即時切換解碼策略。這仍然是一個活躍的研究領域，雖然像 Whisper 這樣的多語言模型在某些語碼轉換場景下比單語言系統處理得更好。

口語不流暢和自發性語音

朗讀語音相對容易轉錄。自發性語音，帶有其重新開始、填充詞（「嗯」、「呃」）、重複和未完成的句子，則難得多。決定是否在逐字稿中包含或移除不流暢的表達本身就是一個影響下游可用性的設計決策。

長段音訊

處理長錄音（數小時的音訊）引入了超出短語句辨識的挑戰：在長時間跨度上維持上下文、處理主題轉換和管理計算資源。分塊策略和滑動視窗方法有所幫助，但區塊邊緣的邊界偽影可能引入錯誤。

ASR 的應用

ASR 技術驅動了跨行業的廣泛應用。

轉錄服務。 將錄製的音訊轉換為文字文件是 ASR 最直接的應用。會議轉錄、訪談轉錄、課堂錄音和 Podcast 轉錄都依賴準確的語音轉文字。像 Vocova 這樣的現代服務將 ASR 與說話者辨識和翻譯相結合，從原始音訊產生豐富、結構化的逐字稿。

語音助手。 Siri、Alexa、Google 助手和類似產品使用 ASR 作為其輸入層，將口語指令轉換為文字，然後由自然語言理解系統處理。

無障礙。 為聽障人士提供的即時字幕、音訊描述和為運動障礙使用者提供的語音轉文字介面都依賴 ASR。網頁內容無障礙指南（WCAG）建議為所有音訊內容提供字幕。

客服中心分析。 ASR 可以大規模自動轉錄和分析客戶服務通話。聯絡中心使用語音分析來監控客服人員表現、識別客戶痛點並確保合規。

媒體和內容。 影片平台的自動字幕、可搜尋的音訊檔案和內容索引都使用 ASR。例如，YouTube 的自動字幕使用 ASR 處理數十億小時的影片。

醫療文件。 透過環境監聽進行的臨床文件記錄——錄製醫病對話並產生結構化的醫療筆記——是一個快速增長的應用。ASR 結合醫療 NLU 可以減輕醫療提供者的文件負擔。

法律和執法。 法庭記錄、證據轉錄和監控音訊處理都使用 ASR，儘管這些應用由於錯誤的高風險性通常需要人工審查。

ASR 的未來

幾個趨勢正在塑造下一代語音辨識技術。

多模態模型。 結合音訊、視覺（唇讀）和文字資訊的系統可以達到比純音訊模型更高的準確度，尤其在嘈雜環境中。音視覺 ASR 正在從研究走向實際應用。

個人化。 在不需要顯式註冊或重新訓練的情況下，將 ASR 模型適應個別說話者的口音、詞彙和說話風格，是一個活躍的研究領域。少樣本適應技術允許模型在聽到幾分鐘的說話者語音後就能改進。

更小、更快的模型。 蒸餾和量化技術正在產生能在邊緣裝置（手機、耳機和嵌入式系統）上高效運行的模型，無需將音訊傳送到雲端。裝置端 ASR 改善了隱私、降低了延遲，並實現了離線操作。

更豐富的輸出。 未來的 ASR 系統將超越扁平文字，在單次處理中產生包含標點符號、大小寫、段落分隔、說話者標籤、情感和意圖標註的結構化輸出。ASR 與自然語言理解之間的界限正在模糊。

通用語音模型。 朝著能處理所有語言、所有領域和所有任務（轉錄、翻譯、辨識、口語理解）的單一模型的趨勢正在加速。這些通用模型有望為每種語言和使用情境普及化語音技術的存取。

常見問題

ASR 和語音轉文字有什麼區別？

它們指的是同一種技術。自動語音辨識（ASR）是將口語轉換為書面文字的學術和技術術語。語音轉文字（STT）是產品描述和日常語言中更常用的術語。語音辨識有時被通俗地用來表示同樣的事情，雖然它也可以指說話者辨識（識別誰在說話而非他們說了什麼）。

現代 ASR 有多準確？

準確度很大程度取決於音訊品質、語言、口音和領域。在乾淨的英語朗讀語音上，最先進的系統達到低於 2% 的詞錯誤率。在良好音訊品質的對話語音上，WER 通常為 5-8%。在嘈雜的真實世界音訊上，WER 可以從 10% 到 30% 或更高。作為參考，專業人類轉錄員在對話語音上達到約 4-5% WER，這意味著最佳 ASR 系統現在在有利條件下接近或匹配人類準確度水準。

ASR 適用於所有語言嗎？

多語言模型已大幅擴展了涵蓋範圍。Whisper 支援 99 種語言，Google 的 USM 涵蓋 300 多種。然而，準確度因語言而異差異很大。英語、西班牙語、中文和法語等高資源語言由於訓練資料充足而具有最佳表現。低資源語言可能有顯著更高的錯誤率。隨著自監督和多語言預訓練技術減少對標記資料的依賴，差距正在縮小。

ASR 能處理同一錄音中的多種語言嗎？

處理語碼轉換（在對話中切換語言）對大多數 ASR 系統仍然是一個挑戰。多語言模型通常可以偵測主要語言並可能處理某種程度的語碼轉換，但準確度通常在語言邊界處下降。如果錄音包含不同語言的獨立片段，使用語言特定設定處理每個片段通常比依賴自動處理產生更好的結果。

好的 ASR 結果需要什麼音訊品質？

為了達到最佳結果，使用 16 kHz 或更高的取樣率（今天的大多數錄音都超過此值），盡量減少背景噪音，並將麥克風靠近說話者。不需要專業麥克風——現代智慧手機和筆記型電腦的麥克風在相當安靜的環境中產生足夠的品質。最具影響力的因素是訊噪比和混響。嘈雜辦公室中的近距離耳機麥克風會比安靜會議室中的房間麥克風產生更好的 ASR 結果。

ASR 與 AI 轉錄有什麼不同？

ASR 是底層技術；AI 轉錄是使用 ASR 加上額外處理（如標點恢復、說話者辨識、格式化和後編輯）的產品。當人們比較 AI 轉錄 vs 人工轉錄時，他們是在比較完整的產品流程（ASR + 後處理）與人工作業。純 ASR 輸出是原始文字，通常需要額外處理才能成為精美的逐字稿。現代轉錄工具自動應用這些後處理步驟以產生可發佈的結果。

什麼是自動語音辨識（ASR）？完整指南