Vocova
定價部落格

產品

  • 定價
  • 部落格
  • 查看所有工具

解決方案

  • Podcaster 專用
  • 為影片創作者打造
  • 多語訪談

公司

  • 關於我們
  • 常見問題
  • 服務條款
  • 隱私政策
  • 聯系我們

轉錄

  • 音訊轉文字
  • 影片轉文字
  • 播客轉錄
  • 採訪轉錄
  • 講座轉錄

平台

  • 影片連結轉文字
  • YouTube 轉錄
  • YouTube 轉 SRT
  • Apple Podcasts 轉錄
  • Zoom 轉錄
  • Google Meet 轉錄
  • TikTok 轉錄
  • TikTok 轉 SRT
  • Loom 轉錄
  • Bilibili 轉錄
  • Vimeo 轉錄
  • Instagram 轉錄
  • Facebook 轉錄
  • X (Twitter) 轉錄
  • SoundCloud 轉錄
  • Reddit 轉錄
  • Dailymotion 轉錄

語言

  • 日文語音轉文字
  • 西班牙語轉錄
  • 法語轉錄
  • 德語轉錄
  • 葡萄牙語轉錄
  • 韓語轉錄
  • 中文語音轉錄
  • 阿拉伯語轉錄
  • 印地語轉錄
  • 義大利文轉錄
  • 俄語轉錄
  • 泰語轉錄
  • 越南語轉錄
  • 土耳其語轉錄
  • 印尼語轉錄
  • 荷蘭語轉錄
  • 波蘭語轉錄
  • 瑞典語轉錄
  • 粵語轉錄
  • 他加祿語轉錄

翻譯

  • 音訊翻譯
  • 雙語字幕
  • 影片翻譯
  • 日文轉英文
  • 中文轉英文
  • 西班牙語轉英語
  • 韓文轉英文
  • 法語轉英語

格式

  • MP4 轉 SRT
  • MP4 轉 TXT
  • 影片轉 PDF
  • MP4 轉文字
  • MP3 轉文字
  • WAV 轉文字
  • M4A 轉文字
  • MOV 轉文字
  • SRT 生成器
  • VTT 產生器
  • 字幕生成器

轉檔

  • 音訊轉換器
  • 影片轉換器
  • MP4 轉 MP3

摘要

  • 播客摘要
  • YouTube 摘要
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
定價部落格

產品

  • 定價
  • 部落格
  • 查看所有工具

解決方案

  • Podcaster 專用
  • 為影片創作者打造
  • 多語訪談

公司

  • 關於我們
  • 常見問題
  • 服務條款
  • 隱私政策
  • 聯系我們

轉錄

  • 音訊轉文字
  • 影片轉文字
  • 播客轉錄
  • 採訪轉錄
  • 講座轉錄

平台

  • 影片連結轉文字
  • YouTube 轉錄
  • YouTube 轉 SRT
  • Apple Podcasts 轉錄
  • Zoom 轉錄
  • Google Meet 轉錄
  • TikTok 轉錄
  • TikTok 轉 SRT
  • Loom 轉錄
  • Bilibili 轉錄
  • Vimeo 轉錄
  • Instagram 轉錄
  • Facebook 轉錄
  • X (Twitter) 轉錄
  • SoundCloud 轉錄
  • Reddit 轉錄
  • Dailymotion 轉錄

語言

  • 日文語音轉文字
  • 西班牙語轉錄
  • 法語轉錄
  • 德語轉錄
  • 葡萄牙語轉錄
  • 韓語轉錄
  • 中文語音轉錄
  • 阿拉伯語轉錄
  • 印地語轉錄
  • 義大利文轉錄
  • 俄語轉錄
  • 泰語轉錄
  • 越南語轉錄
  • 土耳其語轉錄
  • 印尼語轉錄
  • 荷蘭語轉錄
  • 波蘭語轉錄
  • 瑞典語轉錄
  • 粵語轉錄
  • 他加祿語轉錄

翻譯

  • 音訊翻譯
  • 雙語字幕
  • 影片翻譯
  • 日文轉英文
  • 中文轉英文
  • 西班牙語轉英語
  • 韓文轉英文
  • 法語轉英語

格式

  • MP4 轉 SRT
  • MP4 轉 TXT
  • 影片轉 PDF
  • MP4 轉文字
  • MP3 轉文字
  • WAV 轉文字
  • M4A 轉文字
  • MOV 轉文字
  • SRT 生成器
  • VTT 產生器
  • 字幕生成器

轉檔

  • 音訊轉換器
  • 影片轉換器
  • MP4 轉 MP3

摘要

  • 播客摘要
  • YouTube 摘要
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
定價部落格
部落格AI 轉錄到底有多準?50+ 種語言的 WER 實測結果(2026)

AI 轉錄到底有多準?50+ 種語言的 WER 實測結果(2026)

AI 轉錄的準確度因語言而差異極大。我們以 50+ 種語言實測了 Whisper、NVIDIA Canary 與其他 5 種模型。看看哪些模型在日文、阿拉伯文、越南文與你的目標語言真正可用。

2026年4月16日·13 分鐘閱讀·
accuracywermultilingualbenchmarks

轉錄準確度因語言而異甚鉅。2026 年,在乾淨的音訊條件下,最頂尖的自動語音辨識(ASR)系統在英語、西班牙語和華語上的詞錯誤率低於 5%,在波蘭語、韓語和越南語等中等資源語言上介於 7-12%,而在阿姆哈拉語、約魯巴語或僧伽羅語等低資源語言中則達 20-40% 甚至更高。造成此準確度差距的原因,歸結於訓練資料量、語音複雜度,以及每個模型所接觸的方言多樣性。

本指南彙整 Whisper、NVIDIA Canary、Google USM 及 Hugging Face Open ASR Leaderboard 公開發表的 WER 基準,並依語言層級分類。若你正在為特定語言評估轉錄工具,或是想理解為何德語音訊轉錄完美無瑕,但泰語音訊卻不盡人意,下列資料能解釋這個差距。

TL;DR:準確度層級一覽

層級WER 範圍代表語言預期表現
Tier 12-6% WER英語、華語、西班牙語、法語、德語、日語、義大利語、葡萄牙語乾淨音訊上接近人類水準
Tier 26-12% WER韓語、荷蘭語、俄語、阿拉伯語、土耳其語、波蘭語、加泰隆尼亞語、瑞典語可用於正式產出,僅需少量修正
Tier 312-20% WER越南語、印地語、泰語、希臘語、羅馬尼亞語、烏克蘭語、希伯來語、印尼語可用,但需明顯的人工清理
Tier 420-40% WER坦米爾語、孟加拉語、斯瓦希里語、菲律賓語、馬來語、烏爾都語、尼泊爾語草稿等級,須人工審校
Tier 5>40% WER阿姆哈拉語、約魯巴語、僧伽羅語、高棉語、寮語、緬甸語、馬爾他語實驗性,大量後編輯後才可能可用

資料來源:OpenAI Whisper 論文(2022)、FLEURS 基準(Google Research, 2022)、Hugging Face Open ASR Leaderboard、NVIDIA Canary-1B-v2(2025)。

WER 基準如何測量

本文中的每個數字皆來自三個公開基準套件之一。了解每個基準測試的內容,可以避免「將實驗室分數與真實世界表現混為一談」這個常見錯誤。

LibriSpeech(僅限英語)採用乾淨的有聲書錄音。這是大多數模型測試的最容易基準,因此其數字代表模型在理想條件下的下限表現。目前英語在 LibriSpeech test-clean 上的最先進 WER 約為 1.4-2.7%。

FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)涵蓋 102 種語言,每種語言約 12 小時語音。它在不同語言間使用相同的句子(來自維基百科內容的翻譯),因此跨語言比較具有意義。FLEURS 是最廣被引用的多語基準。

Common Voice(Mozilla)包含超過 100 種語言的群眾外包錄音。由於說話者為非專業人士且錄音環境各異,它比 FLEURS 更嘈雜,因此同一語言在 Common Voice 上的 WER 通常比 FLEURS 高 2-5 個百分點。

真實世界的音訊 — 帶有口音、重疊說話、背景噪音及不完美的錄音設備 — 會在基準數字之上再加 5-15 個 WER 百分點。一個在 FLEURS 上報告 5% WER 的模型,在典型的 Zoom 錄音上可能會得到 10-15%。

Tier 1:極高準確度(2-6% WER)

這些語言擁有最大的訓練語料(數萬小時的標註音訊),也是模型開發者最關注的對象。在乾淨音訊上可望得到生產就緒的逐字稿,只需極少編輯。

語言Whisper large-v3 FLEURS WERNVIDIA Canary WER(如有)備註
英語4.2%6.5%(Canary-1B Common Voice)參考語言,大多數基準聚焦於此
西班牙語3.0%4.6%在拉丁美洲變體上表現特別優異
華語5.7%(CER)--以字元錯誤率衡量,而非 WER
法語4.7%6.0%歐洲法語在訓練資料中占主導
德語4.5%4.8%標準德語表現優異;瑞士/奧地利方言會降低準確度
義大利語4.0%4.2%為覆蓋最完整的歐洲語言之一
葡萄牙語3.9%3.6%巴西葡萄牙語為訓練資料多數
日語4.9%(CER)--以字元層級衡量;句子品質極佳

Tier 1 語言受惠於商業應用的推力:配音、隱藏式字幕和搜尋幾十年來持續推動資料集的建立。如果你是在這些語言中進行轉錄,模型選擇的重要性不如你所輸入的音訊品質。

Tier 2:高準確度(6-12% WER)

這些語言擁有可觀的訓練資料,但不是資料量略遜於 Tier 1,就是語音更為複雜。多數生產用途運作良好,但須預期偶爾需修正誤聽的專有名詞和專業術語。

語言Whisper large-v3 FLEURS WER備註
韓語7.0%(CER)字元層級;句子準確度通常很高
荷蘭語6.1%受惠於與德語及英語訓練資料的相近性
俄語8.8%標準俄語表現良好;區域口音會降低準確度
阿拉伯語9.5%(現代標準)方言阿拉伯語(埃及、黎凡特、波斯灣)難度高許多
土耳其語9.6%黏著語形態增加複雜度
波蘭語8.6%覆蓋良好的斯拉夫語系語言
加泰隆尼亞語5.1%得益於專門資料集,表現超越其使用人口預期
瑞典語7.0%作為較小語言表現強勁;北歐語料經過良好整理
挪威語9.0%兩種書寫標準(Bokmål/Nynorsk)使評估更複雜
烏克蘭語10.2%2022 年後因資料集成長而顯著改善
丹麥語9.6%語音困難,但資料充足

對 Tier 2 語言而言,模型選擇開始產生差異。Whisper large-v3、NVIDIA Canary-1B-v2 和 Google USM 會因具體語言而輪替領先,因此在將管線標準化前,值得檢視針對特定基準的比較。

Tier 3:中等準確度(12-20% WER)

這些語言是 AI 轉錄開始顯得明顯不完美的區間。逐字稿仍可作為初稿使用,但須預期每分鐘音訊需要修正數處錯誤,特別是專有名詞、數字和語氣詞。

語言Whisper large-v3 FLEURS WER備註
越南語13.6%有聲調;聲調錯誤頻繁
印地語13.8%口音差異大且與英語混碼使用
泰語13.3%(CER)單詞間無空格,使分詞更複雜
希臘語13.5%訓練語料比其他歐洲語言更小
羅馬尼亞語14.9%隨資料集成長而快速改善
希伯來語15.9%由右至左書寫,形態豐富
印尼語13.4%相對於其資源等級表現強勁
克羅埃西亞語17.7%與其他南斯拉夫語共享的特徵有所助益
塞爾維亞語15.7%支援西里爾與拉丁兩種字母
捷克語13.5%儘管形態複雜仍表現穩健
保加利亞語15.6%中等資源等級的斯拉夫語系語言

混碼 — 也就是說話者在單一發言中切換兩種語言 — 對 Tier 3 語言的衝擊通常比對 Tier 1 更大,因為訓練資料較不可能涵蓋特定的語言組合。

Tier 4:較低準確度(20-40% WER)

此層級的語言往往擁有數億名使用者,但標註訓練資料有限。轉錄所產生的草稿比從零開始編輯更快,但仍需大量人工審校。

語言Whisper large-v3 FLEURS WER備註
坦米爾語29.4%達羅毗荼語系語言,形態複雜
孟加拉語28.8%使用人口龐大但在訓練資料中比例不足
泰盧固語32.8%挑戰與坦米爾語相似
斯瓦希里語34.2%東非通用語,資料集規模持續擴大
菲律賓語(他加祿語)22.4%自然口語中大量與英語混碼
馬來語21.3%與印尼語共享的特徵有所助益
烏爾都語26.3%與印地語相關但以波斯阿拉伯字母書寫
尼泊爾語30.0%訓練語料較小
旁遮普語29.1%旁遮普-英語混碼相當常見
坎那達語33.5%達羅毗荼語族
馬拉提語30.7%資源中等的印歐語系語言

對 Tier 4 語言而言,混合工作流程 — 由 AI 產出初稿,再由母語編輯清理 — 通常是產能最高的選項。在許多情況下,純人工轉錄仍比修正嚴重失真的 AI 輸出來得更快。

Tier 5:低資源與實驗性(>40% WER)

這些語言的標註資料非常有限、與模型訓練過的任何語言語音距離顯著,或兩者皆有。在這些語言中,轉錄仍可用於內容索引與搜尋,但不適合用於可發表的文字。

範例包括阿姆哈拉語(衣索比亞,約 42% WER)、約魯巴語(奈及利亞,約 43% WER)、僧伽羅語(斯里蘭卡,約 48% WER)、高棉語(柬埔寨,約 50% WER)、寮語(寮國,約 52% WER)、緬甸語(約 55% WER)與馬爾他語(約 45% WER)。數字在不同模型與基準間差異甚大。隨著社群資料集成長,差距正在縮小,但針對這些語言的生產用途,投入特定語言資料的專業供應商通常比通用模型高出 5-15 個 WER 百分點。

準確度差距的成因

三個因素解釋了跨語言 WER 大部分的變異。

訓練資料量是最強的單一預測因子。Whisper 在 680,000 小時音訊上訓練,但其中 65% 為英語。高資源語言擁有數萬小時;最低資源語言僅有數百小時。訓練資料每倍增,剩餘 WER 大致會減半,直到遞減報酬開始出現。

語音與形態複雜度即使資料充足,仍會造成天花板效應。聲調語言(華語、越南語、泰語、約魯巴語)強迫模型以音調輪廓辨別語音相似的詞彙。黏著語(土耳其語、芬蘭語、斯瓦希里語)由多個詞素組成長詞,而這會與分詞機制交互作用。由右至左書寫系統(阿拉伯語、希伯來語)與表意文字系統(漢字、日文)將衡量指標從 WER 轉為字元錯誤率,並改變何者算作替換錯誤。

音訊領域匹配度與語言本身一樣重要。主要以朗讀有聲書資料訓練的模型,在同一語言的自然對話中會表現不佳。對於商業轉錄用途(會議、訪談、Podcast),模型選擇應考量供應商是否在對話或廣播音訊上進行微調,而不僅是乾淨的獨白。

如何改善低層級語言的準確度

有幾項務實做法能顯著降低任何語言的 WER,但在基準越高時效果越大。

在轉錄前先改善音訊。 降噪、說話者隔離和穩定的錄音電平可在真實世界音訊上降低 2-5 個 WER 百分點。這份音訊品質指南涵蓋最快速的改善方式。

提供領域脈絡。 許多轉錄 API 接受技術術語、專有名詞或可能出現詞彙的清單。這些偏置詞彙在正確配置後,可讓產業術語與命名實體的替換錯誤減少 10-30%。

為每種語言選擇合適的模型。 Whisper 在某些語言領先,NVIDIA Canary 在其他語言,而在部分語言(特別是日語、韓語和阿拉伯語)由語言專門供應商領先。若某語言對你的工作流程至關重要,在具代表性的樣本上測試 2-3 家供應商值得花費一小時。

最後一哩使用人工編輯。 對 Tier 3 以下語言,母語編輯審校 AI 逐字稿大約比從零轉錄快 5-8 倍,最終準確度可達 98% 以上。

Vocova 這類平台支援 100+ 種語言並具自動語言偵測,免除了為每種語言選擇合適模型的摩擦。語言偵測在轉錄開始之前完成,因此你不需要事先為音訊檔案標記語言。

常見問題

哪種語言的轉錄最準確?

2026 年,英語擁有最準確的 AI 轉錄,最先進的模型在乾淨的 LibriSpeech 音訊上達到 1.4-2.7% WER,在真實世界的自然口語上約達 4% WER。西班牙語、華語、法語、德語、義大利語和葡萄牙語緊隨其後,落在 3-6% WER 區間。

Whisper 在不同語言上的準確度如何?

Whisper large-v3 在 FLEURS 基準的約 30 種語言上達到 10% 以下 WER,涵蓋本指南中所有 Tier 1 和多數 Tier 2 語言。在此層級以下,其準確度急劇下滑,部分低資源語言的 WER 甚至超過 50%。

多少 WER 算「好」?

對於多數商業應用,低於 10% 的 WER 所產出的逐字稿比閱讀和編輯原始音訊更快。低於 5% 通常被視為接近人類水準。超過 20% 則需大量人工修正才可作為發表文字使用。

為什麼我的德語轉錄比泰語轉錄更準確?

德語是 Tier 1 語言,擁有數萬小時的訓練資料、與英語(資料集最大的語言)共享的語音特徵,且在商業轉錄領域被廣泛採用。泰語則是聲調、無空格語言,標註訓練資料少得多。即使是最佳模型,兩者之間的 WER 差距仍達 7-10 個百分點。

我可以改善特定語言的轉錄準確度嗎?

可以。音訊品質改善、自訂詞彙和針對說話者的訓練資料,在多數語言中都能將 WER 降低 5-15%。對 Tier 3 以下語言,採用 AI + 人工編輯的混合工作流程,可在遠低於純人工轉錄成本的情況下,達到 98% 以上的最終準確度。

FLEURS 和 Common Voice 的基準可直接對照真實世界音訊嗎?

無法直接對照。基準音訊通常較乾淨、為朗讀而非自然口語、並以專業設備錄製。真實世界音訊(會議、電話、街頭訪談)在同一語言與模型上,通常比基準音訊高出 5-15 個 WER 百分點。

總結

2026 年的 AI 轉錄準確度取決於語言層級、音訊品質以及模型與任務的契合度。Tier 1 語言在乾淨音訊上提供接近人類水準的準確度;Tier 3 需要編輯;Tier 5 仍屬實驗性質。由於頂尖模型進步速度快於中階模型,最佳與平均表現在真實世界音訊上的差距持續擴大,使得工具選擇比三年前更為關鍵。

若你正在建立或挑選轉錄管線,最實用的做法是在承諾特定供應商前,先在 2-3 個具代表性樣本上測試你的特定語言與音訊領域。基準是起點,而非決策。

資料來源與延伸閱讀

  • OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision"(Whisper 論文,2022)
  • Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech"(2022)
  • Hugging Face Open ASR Leaderboard
  • NVIDIA, Canary-1B-v2 模型卡
  • Mozilla Common Voice 資料集
  • Vocova 多語轉錄

相關文章

了解更多
2026年2月10日·12 分鐘

詞錯誤率(WER)是什麼?衡量轉錄準確度的指標

了解更多
2026年5月6日·12 分鐘

如何將音訊轉成多語言文字:2026 工作流程指南

了解更多
2026年2月25日·13 分鐘

AI 如何改變多語言溝通方式

產品

  • 定價
  • 部落格
  • 查看所有工具

解決方案

  • Podcaster 專用
  • 為影片創作者打造
  • 多語訪談

公司

  • 關於我們
  • 常見問題
  • 服務條款
  • 隱私政策
  • 聯系我們

轉錄

  • 音訊轉文字
  • 影片轉文字
  • 播客轉錄
  • 採訪轉錄
  • 講座轉錄

平台

  • 影片連結轉文字
  • YouTube 轉錄
  • YouTube 轉 SRT
  • Apple Podcasts 轉錄
  • Zoom 轉錄
  • Google Meet 轉錄
  • TikTok 轉錄
  • TikTok 轉 SRT
  • Loom 轉錄
  • Bilibili 轉錄
  • Vimeo 轉錄
  • Instagram 轉錄
  • Facebook 轉錄
  • X (Twitter) 轉錄
  • SoundCloud 轉錄
  • Reddit 轉錄
  • Dailymotion 轉錄

語言

  • 日文語音轉文字
  • 西班牙語轉錄
  • 法語轉錄
  • 德語轉錄
  • 葡萄牙語轉錄
  • 韓語轉錄
  • 中文語音轉錄
  • 阿拉伯語轉錄
  • 印地語轉錄
  • 義大利文轉錄
  • 俄語轉錄
  • 泰語轉錄
  • 越南語轉錄
  • 土耳其語轉錄
  • 印尼語轉錄
  • 荷蘭語轉錄
  • 波蘭語轉錄
  • 瑞典語轉錄
  • 粵語轉錄
  • 他加祿語轉錄

翻譯

  • 音訊翻譯
  • 雙語字幕
  • 影片翻譯
  • 日文轉英文
  • 中文轉英文
  • 西班牙語轉英語
  • 韓文轉英文
  • 法語轉英語

格式

  • MP4 轉 SRT
  • MP4 轉 TXT
  • 影片轉 PDF
  • MP4 轉文字
  • MP3 轉文字
  • WAV 轉文字
  • M4A 轉文字
  • MOV 轉文字
  • SRT 生成器
  • VTT 產生器
  • 字幕生成器

轉檔

  • 音訊轉換器
  • 影片轉換器
  • MP4 轉 MP3

摘要

  • 播客摘要
  • YouTube 摘要
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt