各語言的轉錄準確度:50+ 種語言的 WER 基準(2026)
AI 轉錄在你的語言中有多準確?比較 2026 年 Whisper、NVIDIA Canary 及其他主流 ASR 模型在 50+ 種語言上的詞錯誤率(WER)基準。
轉錄準確度因語言而異甚鉅。2026 年,在乾淨的音訊條件下,最頂尖的自動語音辨識(ASR)系統在英語、西班牙語和華語上的詞錯誤率低於 5%,在波蘭語、韓語和越南語等中等資源語言上介於 7-12%,而在阿姆哈拉語、約魯巴語或僧伽羅語等低資源語言中則達 20-40% 甚至更高。造成此準確度差距的原因,歸結於訓練資料量、語音複雜度,以及每個模型所接觸的方言多樣性。
本指南彙整 Whisper、NVIDIA Canary、Google USM 及 Hugging Face Open ASR Leaderboard 公開發表的 WER 基準,並依語言層級分類。若你正在為特定語言評估轉錄工具,或是想理解為何德語音訊轉錄完美無瑕,但泰語音訊卻不盡人意,下列資料能解釋這個差距。
TL;DR:準確度層級一覽
| 層級 | WER 範圍 | 代表語言 | 預期表現 |
|---|---|---|---|
| Tier 1 | 2-6% WER | 英語、華語、西班牙語、法語、德語、日語、義大利語、葡萄牙語 | 乾淨音訊上接近人類水準 |
| Tier 2 | 6-12% WER | 韓語、荷蘭語、俄語、阿拉伯語、土耳其語、波蘭語、加泰隆尼亞語、瑞典語 | 可用於正式產出,僅需少量修正 |
| Tier 3 | 12-20% WER | 越南語、印地語、泰語、希臘語、羅馬尼亞語、烏克蘭語、希伯來語、印尼語 | 可用,但需明顯的人工清理 |
| Tier 4 | 20-40% WER | 坦米爾語、孟加拉語、斯瓦希里語、菲律賓語、馬來語、烏爾都語、尼泊爾語 | 草稿等級,須人工審校 |
| Tier 5 | >40% WER | 阿姆哈拉語、約魯巴語、僧伽羅語、高棉語、寮語、緬甸語、馬爾他語 | 實驗性,大量後編輯後才可能可用 |
資料來源:OpenAI Whisper 論文(2022)、FLEURS 基準(Google Research, 2022)、Hugging Face Open ASR Leaderboard、NVIDIA Canary-1B-v2(2025)。
WER 基準如何測量
本文中的每個數字皆來自三個公開基準套件之一。了解每個基準測試的內容,可以避免「將實驗室分數與真實世界表現混為一談」這個常見錯誤。
LibriSpeech(僅限英語)採用乾淨的有聲書錄音。這是大多數模型測試的最容易基準,因此其數字代表模型在理想條件下的下限表現。目前英語在 LibriSpeech test-clean 上的最先進 WER 約為 1.4-2.7%。
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)涵蓋 102 種語言,每種語言約 12 小時語音。它在不同語言間使用相同的句子(來自維基百科內容的翻譯),因此跨語言比較具有意義。FLEURS 是最廣被引用的多語基準。
Common Voice(Mozilla)包含超過 100 種語言的群眾外包錄音。由於說話者為非專業人士且錄音環境各異,它比 FLEURS 更嘈雜,因此同一語言在 Common Voice 上的 WER 通常比 FLEURS 高 2-5 個百分點。
真實世界的音訊 — 帶有口音、重疊說話、背景噪音及不完美的錄音設備 — 會在基準數字之上再加 5-15 個 WER 百分點。一個在 FLEURS 上報告 5% WER 的模型,在典型的 Zoom 錄音上可能會得到 10-15%。
Tier 1:極高準確度(2-6% WER)
這些語言擁有最大的訓練語料(數萬小時的標註音訊),也是模型開發者最關注的對象。在乾淨音訊上可望得到生產就緒的逐字稿,只需極少編輯。
| 語言 | Whisper large-v3 FLEURS WER | NVIDIA Canary WER(如有) | 備註 |
|---|---|---|---|
| 英語 | 4.2% | 6.5%(Canary-1B Common Voice) | 參考語言,大多數基準聚焦於此 |
| 西班牙語 | 3.0% | 4.6% | 在拉丁美洲變體上表現特別優異 |
| 華語 | 5.7%(CER) | -- | 以字元錯誤率衡量,而非 WER |
| 法語 | 4.7% | 6.0% | 歐洲法語在訓練資料中占主導 |
| 德語 | 4.5% | 4.8% | 標準德語表現優異;瑞士/奧地利方言會降低準確度 |
| 義大利語 | 4.0% | 4.2% | 為覆蓋最完整的歐洲語言之一 |
| 葡萄牙語 | 3.9% | 3.6% | 巴西葡萄牙語為訓練資料多數 |
| 日語 | 4.9%(CER) | -- | 以字元層級衡量;句子品質極佳 |
Tier 1 語言受惠於商業應用的推力:配音、隱藏式字幕和搜尋幾十年來持續推動資料集的建立。如果你是在這些語言中進行轉錄,模型選擇的重要性不如你所輸入的音訊品質。
Tier 2:高準確度(6-12% WER)
這些語言擁有可觀的訓練資料,但不是資料量略遜於 Tier 1,就是語音更為複雜。多數生產用途運作良好,但須預期偶爾需修正誤聽的專有名詞和專業術語。
| 語言 | Whisper large-v3 FLEURS WER | 備註 |
|---|---|---|
| 韓語 | 7.0%(CER) | 字元層級;句子準確度通常很高 |
| 荷蘭語 | 6.1% | 受惠於與德語及英語訓練資料的相近性 |
| 俄語 | 8.8% | 標準俄語表現良好;區域口音會降低準確度 |
| 阿拉伯語 | 9.5%(現代標準) | 方言阿拉伯語(埃及、黎凡特、波斯灣)難度高許多 |
| 土耳其語 | 9.6% | 黏著語形態增加複雜度 |
| 波蘭語 | 8.6% | 覆蓋良好的斯拉夫語系語言 |
| 加泰隆尼亞語 | 5.1% | 得益於專門資料集,表現超越其使用人口預期 |
| 瑞典語 | 7.0% | 作為較小語言表現強勁;北歐語料經過良好整理 |
| 挪威語 | 9.0% | 兩種書寫標準(Bokmål/Nynorsk)使評估更複雜 |
| 烏克蘭語 | 10.2% | 2022 年後因資料集成長而顯著改善 |
| 丹麥語 | 9.6% | 語音困難,但資料充足 |
對 Tier 2 語言而言,模型選擇開始產生差異。Whisper large-v3、NVIDIA Canary-1B-v2 和 Google USM 會因具體語言而輪替領先,因此在將管線標準化前,值得檢視針對特定基準的比較。
Tier 3:中等準確度(12-20% WER)
這些語言是 AI 轉錄開始顯得明顯不完美的區間。逐字稿仍可作為初稿使用,但須預期每分鐘音訊需要修正數處錯誤,特別是專有名詞、數字和語氣詞。
| 語言 | Whisper large-v3 FLEURS WER | 備註 |
|---|---|---|
| 越南語 | 13.6% | 有聲調;聲調錯誤頻繁 |
| 印地語 | 13.8% | 口音差異大且與英語混碼使用 |
| 泰語 | 13.3%(CER) | 單詞間無空格,使分詞更複雜 |
| 希臘語 | 13.5% | 訓練語料比其他歐洲語言更小 |
| 羅馬尼亞語 | 14.9% | 隨資料集成長而快速改善 |
| 希伯來語 | 15.9% | 由右至左書寫,形態豐富 |
| 印尼語 | 13.4% | 相對於其資源等級表現強勁 |
| 克羅埃西亞語 | 17.7% | 與其他南斯拉夫語共享的特徵有所助益 |
| 塞爾維亞語 | 15.7% | 支援西里爾與拉丁兩種字母 |
| 捷克語 | 13.5% | 儘管形態複雜仍表現穩健 |
| 保加利亞語 | 15.6% | 中等資源等級的斯拉夫語系語言 |
混碼 — 也就是說話者在單一發言中切換兩種語言 — 對 Tier 3 語言的衝擊通常比對 Tier 1 更大,因為訓練資料較不可能涵蓋特定的語言組合。
Tier 4:較低準確度(20-40% WER)
此層級的語言往往擁有數億名使用者,但標註訓練資料有限。轉錄所產生的草稿比從零開始編輯更快,但仍需大量人工審校。
| 語言 | Whisper large-v3 FLEURS WER | 備註 |
|---|---|---|
| 坦米爾語 | 29.4% | 達羅毗荼語系語言,形態複雜 |
| 孟加拉語 | 28.8% | 使用人口龐大但在訓練資料中比例不足 |
| 泰盧固語 | 32.8% | 挑戰與坦米爾語相似 |
| 斯瓦希里語 | 34.2% | 東非通用語,資料集規模持續擴大 |
| 菲律賓語(他加祿語) | 22.4% | 自然口語中大量與英語混碼 |
| 馬來語 | 21.3% | 與印尼語共享的特徵有所助益 |
| 烏爾都語 | 26.3% | 與印地語相關但以波斯阿拉伯字母書寫 |
| 尼泊爾語 | 30.0% | 訓練語料較小 |
| 旁遮普語 | 29.1% | 旁遮普-英語混碼相當常見 |
| 坎那達語 | 33.5% | 達羅毗荼語族 |
| 馬拉提語 | 30.7% | 資源中等的印歐語系語言 |
對 Tier 4 語言而言,混合工作流程 — 由 AI 產出初稿,再由母語編輯清理 — 通常是產能最高的選項。在許多情況下,純人工轉錄仍比修正嚴重失真的 AI 輸出來得更快。
Tier 5:低資源與實驗性(>40% WER)
這些語言的標註資料非常有限、與模型訓練過的任何語言語音距離顯著,或兩者皆有。在這些語言中,轉錄仍可用於內容索引與搜尋,但不適合用於可發表的文字。
範例包括阿姆哈拉語(衣索比亞,約 42% WER)、約魯巴語(奈及利亞,約 43% WER)、僧伽羅語(斯里蘭卡,約 48% WER)、高棉語(柬埔寨,約 50% WER)、寮語(寮國,約 52% WER)、緬甸語(約 55% WER)與馬爾他語(約 45% WER)。數字在不同模型與基準間差異甚大。隨著社群資料集成長,差距正在縮小,但針對這些語言的生產用途,投入特定語言資料的專業供應商通常比通用模型高出 5-15 個 WER 百分點。
準確度差距的成因
三個因素解釋了跨語言 WER 大部分的變異。
訓練資料量是最強的單一預測因子。Whisper 在 680,000 小時音訊上訓練,但其中 65% 為英語。高資源語言擁有數萬小時;最低資源語言僅有數百小時。訓練資料每倍增,剩餘 WER 大致會減半,直到遞減報酬開始出現。
語音與形態複雜度即使資料充足,仍會造成天花板效應。聲調語言(華語、越南語、泰語、約魯巴語)強迫模型以音調輪廓辨別語音相似的詞彙。黏著語(土耳其語、芬蘭語、斯瓦希里語)由多個詞素組成長詞,而這會與分詞機制交互作用。由右至左書寫系統(阿拉伯語、希伯來語)與表意文字系統(漢字、日文)將衡量指標從 WER 轉為字元錯誤率,並改變何者算作替換錯誤。
音訊領域匹配度與語言本身一樣重要。主要以朗讀有聲書資料訓練的模型,在同一語言的自然對話中會表現不佳。對於商業轉錄用途(會議、訪談、Podcast),模型選擇應考量供應商是否在對話或廣播音訊上進行微調,而不僅是乾淨的獨白。
如何改善低層級語言的準確度
有幾項務實做法能顯著降低任何語言的 WER,但在基準越高時效果越大。
在轉錄前先改善音訊。 降噪、說話者隔離和穩定的錄音電平可在真實世界音訊上降低 2-5 個 WER 百分點。這份音訊品質指南涵蓋最快速的改善方式。
提供領域脈絡。 許多轉錄 API 接受技術術語、專有名詞或可能出現詞彙的清單。這些偏置詞彙在正確配置後,可讓產業術語與命名實體的替換錯誤減少 10-30%。
為每種語言選擇合適的模型。 Whisper 在某些語言領先,NVIDIA Canary 在其他語言,而在部分語言(特別是日語、韓語和阿拉伯語)由語言專門供應商領先。若某語言對你的工作流程至關重要,在具代表性的樣本上測試 2-3 家供應商值得花費一小時。
最後一哩使用人工編輯。 對 Tier 3 以下語言,母語編輯審校 AI 逐字稿大約比從零轉錄快 5-8 倍,最終準確度可達 98% 以上。
Vocova 這類平台支援 100+ 種語言並具自動語言偵測,免除了為每種語言選擇合適模型的摩擦。語言偵測在轉錄開始之前完成,因此你不需要事先為音訊檔案標記語言。
常見問題
哪種語言的轉錄最準確?
2026 年,英語擁有最準確的 AI 轉錄,最先進的模型在乾淨的 LibriSpeech 音訊上達到 1.4-2.7% WER,在真實世界的自然口語上約達 4% WER。西班牙語、華語、法語、德語、義大利語和葡萄牙語緊隨其後,落在 3-6% WER 區間。
Whisper 在不同語言上的準確度如何?
Whisper large-v3 在 FLEURS 基準的約 30 種語言上達到 10% 以下 WER,涵蓋本指南中所有 Tier 1 和多數 Tier 2 語言。在此層級以下,其準確度急劇下滑,部分低資源語言的 WER 甚至超過 50%。
多少 WER 算「好」?
對於多數商業應用,低於 10% 的 WER 所產出的逐字稿比閱讀和編輯原始音訊更快。低於 5% 通常被視為接近人類水準。超過 20% 則需大量人工修正才可作為發表文字使用。
為什麼我的德語轉錄比泰語轉錄更準確?
德語是 Tier 1 語言,擁有數萬小時的訓練資料、與英語(資料集最大的語言)共享的語音特徵,且在商業轉錄領域被廣泛採用。泰語則是聲調、無空格語言,標註訓練資料少得多。即使是最佳模型,兩者之間的 WER 差距仍達 7-10 個百分點。
我可以改善特定語言的轉錄準確度嗎?
可以。音訊品質改善、自訂詞彙和針對說話者的訓練資料,在多數語言中都能將 WER 降低 5-15%。對 Tier 3 以下語言,採用 AI + 人工編輯的混合工作流程,可在遠低於純人工轉錄成本的情況下,達到 98% 以上的最終準確度。
FLEURS 和 Common Voice 的基準可直接對照真實世界音訊嗎?
無法直接對照。基準音訊通常較乾淨、為朗讀而非自然口語、並以專業設備錄製。真實世界音訊(會議、電話、街頭訪談)在同一語言與模型上,通常比基準音訊高出 5-15 個 WER 百分點。
總結
2026 年的 AI 轉錄準確度取決於語言層級、音訊品質以及模型與任務的契合度。Tier 1 語言在乾淨音訊上提供接近人類水準的準確度;Tier 3 需要編輯;Tier 5 仍屬實驗性質。由於頂尖模型進步速度快於中階模型,最佳與平均表現在真實世界音訊上的差距持續擴大,使得工具選擇比三年前更為關鍵。
若你正在建立或挑選轉錄管線,最實用的做法是在承諾特定供應商前,先在 2-3 個具代表性樣本上測試你的特定語言與音訊領域。基準是起點,而非決策。
