AI 轉錄準確度會因語言差多少？各語言 WER 基準（2026）

轉錄準確度會因語言而大幅不同。在 FLEURS 基準上，OpenAI 的 Whisper 在英語、西班牙語、義大利語和德語的字詞錯誤率（WER）約為 3-5%；在荷蘭語、土耳其語、越南語等中等資源語言上落在高個位數；而在阿姆哈拉語、約魯巴語、緬甸語等許多低資源語言上則超過 75%，一般模型幾乎無法產出可用文字。這個落差主要來自訓練資料量、語音複雜度與書寫系統。

本文將 OpenAI（2022）Whisper 論文公開的 FLEURS 結果整理成各語言 WER，並依準確度分層。如果你正在評估特定語言的轉錄，或想知道為什麼德語音訊幾乎能完美轉錄、泰語音訊卻不行，下面的資料能解釋這個差距。

這些數字代表什麼，也不代表什麼。 下方所有數字都是 Whisper 論文附錄 D.2.4 中，Whisper large-v2 在 FLEURS 基準上的 WER。這是大型研究機構公開過最完整的各語言 WER 表。不過，它是一個模型在朗讀語音基準上的結果，不是我們執行的即時實測。請把它視為可比較的基準線，而不是目前最佳情境：更新的系統（Whisper large-v3、NVIDIA Canary、語言專用服務商）在許多較難語言上已明顯更好。例如 large-v3 可將馬爾他語從約 77% WER 降到約 26% 的字元錯誤率。對中文、日文、泰文、寮文和緬甸文，Whisper 論文會在字元間插入空格並回報字元錯誤率（CER），因此這些數字已是字元層級，不是詞層級 WER。韓文使用正常詞間空格，所以它的數字是真正的 WER，但會受到韓文分寫習慣影響而偏高。

重點摘要：準確度分層一覽

層級	WER 範圍	代表語言	可期待的結果
第 1 層	低於約 6% WER	英語、西班牙語、義大利語、德語、日文（CER）、波蘭語、俄語	乾淨音訊可接近人類準確度
第 2 層	約 6-11% WER	荷蘭語、印尼語、加泰隆尼亞語、法語、土耳其語、瑞典語、馬來語、越南語	可用於正式流程，只需小幅修正
第 3 層	約 11-16% WER	泰語、希臘語、捷克語、克羅埃西亞語、丹麥語、韓語、羅馬尼亞語、華語（CER）、阿拉伯語	可用，但需要明顯人工整理
第 4 層	約 16-40% WER	泰米爾語、印地語、烏爾都語、希伯來語、塞爾維亞語、卡納達語、馬拉提語、斯瓦希里語	只有草稿品質，需要人工審校
第 5 層	約 45% 到 >100% WER	尼泊爾語、馬爾他語、約魯巴語、高棉語、寮語、孟加拉語、緬甸語、阿姆哈拉語	Whisper 等一般模型實質上會失敗，需要專門模型

數字皆為 Whisper large-v2 的 FLEURS WER（OpenAI, 2022）。精確數值與上述限制請見下方各層級表格。

WER 基準如何測量

理解各基準測的是什麼，可以避免把實驗室分數直接等同於真實場景表現。

LibriSpeech（僅英語）使用乾淨的有聲書錄音。它是常見基準中最容易的一個，因此數字代表模型在理想條件下能達到的低錯誤率下限；目前英語在 LibriSpeech test-clean 的頂尖 WER 約為 1.4-2.7%。

FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）涵蓋 102 種語言，每種語言約 12 小時語音，並在所有語言使用相同句子（Wikipedia/FLoRes 內容的翻譯），因此語言間比較更有意義。它是最常被引用的多語言基準，也是本文各語言數字的來源。

Common Voice（Mozilla）包含 100 多種語言的群眾錄音。由於說話者不是專業錄音者，環境也更多變，因此同一語言、同一模型在 Common Voice 上的 WER 通常高於 FLEURS。

真實音訊包含口音、重疊說話、背景噪音與不完美設備，通常會在這些基準數字上再增加約 5-15 個 WER 點。在 FLEURS 上 5% 的模型，用在一般 Zoom 錄音時可能變成 10-15%。

第 1 層：非常高準確度（低於約 6% WER）

這些語言擁有最大的訓練語料，也最受模型開發者關注。乾淨音訊通常能產出接近正式可用的逐字稿，只需少量編修。

語言	Whisper large-v2 FLEURS WER	說明
西班牙語	3.0%	在各類基準中都屬於最強表現之一
義大利語	4.0%	覆蓋最好的歐洲語言之一
英語	4.2%	參考語言；多數基準都聚焦於英語
德語	4.5%	標準德語表現強；瑞士與奧地利方言會下降
日文	5.3% (CER)	Whisper 以字元層級衡量日文；句子品質非常好
波蘭語	5.4%	對斯拉夫語而言表現特別強
俄語	5.6%	標準俄語表現好；地區口音會讓結果變差

如果你要轉錄這些語言且音訊乾淨，模型差異往往不如輸入音質重要。

第 2 層：高準確度（約 6-11% WER）

這些語言有足夠的訓練資料，但資料量少於第 1 層，或語音複雜度更高。多數正式使用情境都能順利運作，但仍需偶爾修正專有名詞與技術術語。

語言	Whisper large-v2 FLEURS WER	說明
荷蘭語	6.7%	受益於與德語、英語資料的接近性
印尼語	7.1%	以其資源量而言表現很強
加泰隆尼亞語	7.3%	因專門資料集而有超出說話人口規模的表現
法語	8.3%	訓練資料以歐洲法語為主
土耳其語	8.4%	黏著語形態增加複雜度
瑞典語	8.5%	北歐語料整理良好
烏克蘭語	8.6%	2022 年後資料集成長，表現大幅改善
馬來語	8.7%	與印尼語共享許多特徵
越南語	10.3%	聲調語言；聲調錯誤是主要失敗模式

第 3 層：中等準確度（約 11-16% WER）

從這一層開始，AI 轉錄的不完美會明顯可見。逐字稿仍可作為初稿，但每分鐘可能需要修正多處錯誤，尤其是人名、機構名與數字。

語言	Whisper large-v2 FLEURS WER	說明
泰語	11.5% (CER)	Whisper 論文以字元層級計算，因為詞與詞之間沒有空格
希臘語	12.5%	訓練語料少於其他歐洲語言
捷克語	13.3%	即使形態複雜，表現仍穩定
克羅埃西亞語	13.4%	與南斯拉夫語族共享特徵有所幫助
丹麥語	13.8%	語音上較難，但資料代表性不差
羅馬尼亞語	14.4%	隨資料集成長而改善
保加利亞語	14.6%	中等資源的斯拉夫語
韓語	14.3%	詞間空格會墊高韓文 WER；字元層級準確度明顯更好，但論文未公布韓文 CER
華語	14.7% (CER)	字元層級；在 FLEURS 朗讀語音上的數字高於許多人對其表現的印象
阿拉伯語	16.0%	現代標準阿拉伯語；埃及、黎凡特、海灣等方言困難得多

華語這個數字常讓人意外：在乾淨、領域相符的音訊上，許多工具表現會更好；但在 FLEURS 標準化的字元層級衡量下，Whisper large-v2 落在十幾個百分點的中段。較新的模型正在縮小這個差距。

第 4 層：低準確度（約 16-40% WER）

這些語言常有數億使用者，但標註訓練資料有限。輸出通常只是粗略草稿，需要大量人工審校。

語言	Whisper large-v2 FLEURS WER	說明
泰米爾語	17.5%	形態複雜的達羅毗荼語
印地語	21.5%	口音差異與英語 code-switching 造成高度變異
烏爾都語	22.6%	與印地語相關，但使用波斯-阿拉伯文字
希伯來語	27.1%	右至左書寫，形態豐富
塞爾維亞語	33.9%	在 FLEURS 上明顯比鄰近斯拉夫語更難
卡納達語	37.0%	達羅毗荼語族，代表性不足
馬拉提語	38.3%	印度-雅利安語，資源中等
斯瓦希里語	39.3%	東非通用語；資料集仍在成長

對第 4 層語言，混合流程通常效率最高：AI 產生初稿，母語編輯者再清理。

第 5 層：一般模型實質上失敗的語言（約 45% 到 >100% WER）

這一層最能看出其他地方常見的「約 40-50%」友善數字有多容易誤導。在 FLEURS 上，Whisper large-v2 對這些語言不是產出粗糙但可用的草稿，而是產出等於或高於 75%、經常超過 100% 的 WER，也就是錯誤數比詞數還多。沒有專門化時，一般模型實質上無法轉錄。

語言	Whisper large-v2 FLEURS WER	說明
尼泊爾語	47.1%	邊界案例；需要大量審校
馬爾他語	76.6%	large-v3 可大幅改善（約 26% CER）
約魯巴語	94.8%	聲調語言；large-v3 達到約 49% CER，仍然困難
高棉語	99.7%	Whisper large-v2 幾乎產不出可用內容
寮語	101.5%	large-v2 上實質不可轉錄
孟加拉語	104.1%	使用者眾多，但 Whisper large-v2 失敗；large-v3 CER 約 34%
緬甸語	115.7%	large-v2 上實質不可轉錄
阿姆哈拉語	140.3%	錯誤比詞還多；需要專門模型

這裡有兩點很重要。第一，更新且專門化的模型能縮小大部分差距：Whisper large-v3，以及使用特定語言資料微調的服務商，可以把 large-v2 的不可用結果變成可編修草稿（馬爾他語與孟加拉語就是好例子）。第二，僧伽羅語完全不在 Whisper 的 FLEURS 評估中，所以任何具體的「Whisper 僧伽羅語 WER」都沒有這個基準支持；在本文脈絡中應視為未測語言。

準確度差距從何而來

訓練資料量是最強的單一預測因素。Whisper 以 680,000 小時音訊訓練，其中大多數是英語；高資源語言有數萬小時，最低資源語言可能只有幾百小時。更多資料會明顯降低 WER，但當某語言已被充分覆蓋後，邊際效益會遞減。

語音與書寫系統複雜度即使在有資料時也會形成上限。聲調語言（華語、越南語、泰語、約魯巴語）要求模型靠音高區分相近詞。黏著語（土耳其語、芬蘭語、斯瓦希里語）會把許多語素組成長詞，和 tokenization 的互動較差。表意文字或不使用空格的書寫系統（中文、日文、泰文）則會讓公平指標從 WER 轉向字元錯誤率。

音訊領域是否匹配和語言本身一樣重要。主要在朗讀音訊上訓練的模型，在同一語言的自然對話上通常會表現較差。因此 FLEURS 朗讀語音數字比較像下限，不是對會議錄音的承諾。

如何提升較難語言的準確度

先改善音訊。 降噪、說話者分離和穩定音量，能在真實音訊上降低好幾個 WER 點；我們的噪音音訊轉錄指南整理了最快見效的方法。

提供領域脈絡。 許多轉錄 API 可接受專有名詞、技術術語或可能出現的片語清單；有偏置的詞彙能降低行話與命名實體的替換錯誤。

依語言選對模型。 Whisper 在某些語言領先，NVIDIA Canary 或語言專用服務商則在其他語言更好（特別是日文、韓文和阿拉伯語）。如果某語言對工作流程很關鍵，花一小時用代表性樣本測 2-3 家服務商是值得的。

最後一哩交給人工編輯。 對第 3 層以下語言，母語編輯者審閱 AI 草稿通常比從零開始轉錄快好幾倍，最終準確度也能高於 98%。

像 Vocova 這類工具可支援 100 多種語言並自動偵測語言，因此不必事先為檔案標註語言。不過，如上方資料所示，實際可期待的準確度仍取決於你正在處理哪一種語言。

常見問題

哪種語言的 AI 轉錄最準確？

在 FLEURS 基準上，英語、西班牙語、義大利語和德語領先；乾淨朗讀語音上的 Whisper WER 約為 3-5%，日文以字元錯誤率衡量也很接近。若是現實中的自然語音，請在這些值上再加 5-15 點。

Whisper 在不同語言上的準確度如何？

在 FLEURS 上，Whisper large-v2 對本文第 1-2 層語言大致低於約 10% WER；第 3-4 層落在十幾到三十幾；而在一群低資源語言（阿姆哈拉語、約魯巴語、高棉語、寮語、緬甸語、孟加拉語）上則超過 75%，幾乎無法轉錄。較新的 large-v3 明顯改善最困難案例，但目前沒有公開完整的 large-v3 各語言 WER 表。

多少 WER 算「好」？

對大多數商業用途而言，WER 低於 10% 時，逐字稿通常比聽音訊更快閱讀與編修；低於 5% 則接近人類水準。高於 20% 時，在作為發布文字前需要大量人工修正。指標計算方式可參考字詞錯誤率（WER）。

為什麼德語轉錄比泰語準確？

德語是高資源語言（FLEURS WER 約 4.5%），資料豐富，且與英語共享不少特徵。泰語是聲調語言，詞間不加空格，標註資料也較少；其 WER 約為 11-12%，更公平的指標是字元錯誤率。即使是最好的模型，兩者之間仍會有明顯差距。

FLEURS 基準能和真實音訊比較嗎？

不能直接比較。FLEURS 是乾淨、專業錄製的朗讀音訊，不是自然對話。真實音訊（會議、電話、訪談）在同一語言與同一模型下，通常會比 FLEURS 高出 5-15 個 WER 點。因此，這些數字適合用來比較語言，不適合用來精準預測你的結果。

總結

2026 年的 AI 轉錄準確度取決於語言、音訊品質，以及模型和任務是否匹配。在 Whisper FLEURS 基準線上，第 1 層語言於乾淨音訊中可接近人類準確度；第 3 層需要編修；而一群低資源語言若沒有專門化，一般模型實質上無法轉錄，遠比常被引用的友善兩位數數字更困難。更新模型與語言專用模型正在縮小這些差距，尤其是在最困難的一端。

如果你正在選擇轉錄流程，最有用的做法是用 2-3 個代表性樣本，測試你實際的語言與音訊領域。基準可以排序語言，但不能精準預測你的結果。

來源與延伸閱讀

OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision"（Whisper 論文，2022） - 各語言 FLEURS WER，附錄 D.2.4 / 表 13
Conneau et al., "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
FLEURS-SLU (2025) - Whisper large-v3 各語言 CER，本文用於低資源語言相關說明
Mozilla Common Voice datasets
字詞錯誤率（WER）
如何轉錄多語言音訊