AI 文字起こしの精度はどれくらい？50 以上の言語の WER 結果（2026）

文字起こしの精度は言語によって劇的に異なります。2026年のクリーンな音声において、最先端の自動音声認識（ASR）システムは英語、スペイン語、北京語でword error rateが5%未満に達し、ポーランド語、韓国語、ベトナム語などの中リソース言語では7〜12%、そしてアムハラ語、ヨルバ語、シンハラ語など多くの低リソース言語では20〜40%あるいはそれ以上となります。この精度のギャップは、学習データ量、音韻的複雑さ、そして各モデルが学習してきた方言の多様性に起因します。

本ガイドでは、Whisper、NVIDIA Canary、Google USM、およびHugging Face Open ASR Leaderboardの公表されているWERベンチマークを言語階層別にまとめています。特定の言語向けに文字起こしツールを評価している方、あるいは「ドイツ語の音声は完璧に文字起こしされるのに、タイ語の音声はそうならない」理由を理解しようとしている方のために、以下のデータがそのギャップを説明します。

TL;DR：精度階層の一覧

階層	WER範囲	言語（代表例）	期待できる品質
Tier 1	WER 2〜6%	英語、北京語、スペイン語、フランス語、ドイツ語、日本語、イタリア語、ポルトガル語	クリーン音声で人間に近い精度
Tier 2	WER 6〜12%	韓国語、オランダ語、ロシア語、アラビア語、トルコ語、ポーランド語、カタルーニャ語、スウェーデン語	実用レベル、軽微な編集が必要
Tier 3	WER 12〜20%	ベトナム語、ヒンディー語、タイ語、ギリシャ語、ルーマニア語、ウクライナ語、ヘブライ語、インドネシア語	使用可能、相応の手動クリーンアップが必要
Tier 4	WER 20〜40%	タミル語、ベンガル語、スワヒリ語、フィリピン語、マレー語、ウルドゥー語、ネパール語	下書き品質、人間によるレビュー必須
Tier 5	WER 40%超	アムハラ語、ヨルバ語、シンハラ語、クメール語、ラオ語、ビルマ語、マルタ語	実験的、大幅な後編集なしでは使い物にならないことが多い

出典：OpenAI Whisper論文（2022）、FLEURSベンチマーク（Google Research、2022）、Hugging Face Open ASR Leaderboard、NVIDIA Canary-1B-v2（2025）。

WERベンチマークはどのように測定されるか

本記事のすべての数値は、3つの公開ベンチマークスイートのいずれかに由来します。それぞれが何をテストしているかを理解することで、ラボスコアを実世界のパフォーマンスと比較するというよくある誤りを防げます。

LibriSpeech（英語のみ）はクリーンなオーディオブック録音を使用します。ほとんどのモデルが実行する最も容易なベンチマークであるため、その数値はモデルが理想的な条件下で達成できる下限値となります。LibriSpeech test-cleanにおける最先端の英語WERは約1.4〜2.7%です。

FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）は102の言語を1言語あたり約12時間の音声でカバーしています。同一の文章（Wikipediaコンテンツの翻訳）を言語間で使用するため、言語横断的な比較が意味を持ちます。FLEURSは最も広く引用される多言語ベンチマークです。

Common Voice（Mozilla）はクラウドソーシングで収集された100以上の言語の録音を含みます。話者はプロではなく環境も様々なため、FLEURSより音質が悪く、同じ言語におけるCommon VoiceのWERは通常FLEURSより2〜5ポイント高くなります。

実世界の音声は、なまり、話者の重なり、背景ノイズ、録音機材の不完全性などにより、ベンチマーク数値にさらに5〜15ポイントのWERが上乗せされます。FLEURSで5%のWERを報告するモデルが、典型的なZoom録音では10〜15%になる可能性があります。

Tier 1：非常に高精度（WER 2〜6%）

これらの言語は最大の学習コーパス（数万時間のラベル付き音声）と、モデル開発者からの最も大きな注目を受けています。クリーンな音声であれば、最小限の編集で実用レベルの文字起こしが期待できます。

言語	Whisper large-v3 FLEURS WER	NVIDIA Canary WER（利用可能な場合）	備考
英語	4.2%	6.5%（Canary-1B Common Voice）	基準言語、ほとんどのベンチマークが注力
スペイン語	3.0%	4.6%	特にラテンアメリカ方言で強い
北京語	5.7%（CER）	--	WERではなくcharacter error rateで測定
フランス語	4.7%	6.0%	ヨーロッパフランス語が学習データを占める
ドイツ語	4.5%	4.8%	標準ドイツ語に強い。スイス・オーストリア方言では低下
イタリア語	4.0%	4.2%	最もカバレッジの高いヨーロッパ言語のひとつ
ポルトガル語	3.9%	3.6%	ブラジルポルトガル語が学習データの多数派
日本語	4.9%（CER）	--	文字単位指標、文品質は優秀

Tier 1言語は商業アプリケーションの圧力から恩恵を受けています。吹き替え、クローズドキャプション、検索が何十年にもわたりデータセット作成を促してきました。これらの言語で文字起こしを行う場合、モデルの選択よりも投入する音声品質のほうが重要です。

Tier 2：高精度（WER 6〜12%）

これらの言語は意味のある学習データを持ちますが、Tier 1に比べて量が少ないか、音韻的複雑さが高くなっています。ほとんどの実運用ケースで良好に動作しますが、聞き取りが誤った固有名詞や専門用語を時折修正することが必要です。

言語	Whisper large-v3 FLEURS WER	備考
韓国語	7.0%（CER）	文字単位、文の正確性は概して高い
オランダ語	6.1%	ドイツ語・英語学習データとの近接性から恩恵
ロシア語	8.8%	標準ロシア語で良好、地域なまりで低下
アラビア語	9.5%（現代標準）	方言アラビア語（エジプト、レバント、湾岸）は遥かに難しい
トルコ語	9.6%	膠着的形態論が複雑さを増す
ポーランド語	8.6%	カバレッジの高いスラブ系言語
カタルーニャ語	5.1%	専用データセットにより話者数以上の実力
スウェーデン語	7.0%	小規模言語としては強力、北欧コーパスは整備されている
ノルウェー語	9.0%	2つの書き言葉標準（Bokmål/Nynorsk）が評価を複雑にする
ウクライナ語	10.2%	2022年以降、データセット成長により大幅改善
デンマーク語	9.6%	音韻的に難しいが、よく代表されている

Tier 2言語では、モデルの選択が重要になり始めます。Whisper large-v3、NVIDIA Canary-1B-v2、Google USMは特定の言語によって優劣が入れ替わる傾向があるため、パイプラインを標準化する前にベンチマーク固有の比較を確認する価値があります。

Tier 3：中程度の精度（WER 12〜20%）

これらの言語では、AI文字起こしが目に見えて不完全になります。文字起こしは初稿としては依然有用ですが、特に固有名詞、数字、談話標識の周囲で、音声1分あたり数件のエラー修正が必要です。

言語	Whisper large-v3 FLEURS WER	備考
ベトナム語	13.6%	声調言語、声調エラーが頻出
ヒンディー語	13.8%	なまりごとのばらつき大、英語とのコードスイッチング
タイ語	13.3%（CER）	単語間にスペースがなくトークナイゼーションが複雑
ギリシャ語	13.5%	他ヨーロッパ言語より学習コーパスが小規模
ルーマニア語	14.9%	データセット拡大で急速に改善
ヘブライ語	15.9%	右から左への文字、豊かな形態論
インドネシア語	13.4%	リソースレベルの割には強力
クロアチア語	17.7%	他の南スラブ語との共通特徴が助けになる
セルビア語	15.7%	キリル文字とラテン文字の両方をサポート
チェコ語	13.5%	形態論的複雑さにも関わらず堅実
ブルガリア語	15.6%	中程度のリソースレベルのスラブ系言語

コードスイッチング（話者が1つの発話内で2言語を交互に使う現象）は、Tier 1よりもTier 3言語に強く影響します。これは学習データに特定の言語ペアが含まれる可能性が低いためです。

Tier 4：低めの精度（WER 20〜40%）

このTierの言語は話者が数億人いることも多いですが、ラベル付き学習データが限定的です。文字起こしはゼロから始めるより早く編集できる下書きを生成しますが、相応の人間によるレビューを必要とします。

言語	Whisper large-v3 FLEURS WER	備考
タミル語	29.4%	形態論が複雑なドラヴィダ語族
ベンガル語	28.8%	話者基盤は大きいが学習データでは過小
テルグ語	32.8%	タミル語と類似の課題
スワヒリ語	34.2%	東アフリカの共通語、データセット規模が拡大中
フィリピン語（タガログ語）	22.4%	自然な発話では英語とのコードスイッチングが頻繁
マレー語	21.3%	インドネシア語との共通特徴が助けになる
ウルドゥー語	26.3%	ヒンディー語と関係するがペルソ・アラビア文字
ネパール語	30.0%	学習コーパスが小規模
パンジャブ語	29.1%	パンジャブ語と英語のコードスイッチングが頻繁
カンナダ語	33.5%	ドラヴィダ語族
マラーティー語	30.7%	中程度のリソースを持つインド・アーリア語

Tier 4言語では、AIが初稿を生成しネイティブ編集者がクリーンアップするハイブリッドワークフローが通常最もスループットが高い選択肢です。多くの場合、重度に乱れたAI出力を修正するよりも純粋な人間による文字起こしの方が依然として速いケースがあります。

Tier 5：低リソースおよび実験的（WER 40%超）

これらの言語はラベル付きデータが非常に限定的であるか、モデルが学習したどの言語とも音韻的距離が大きいか、あるいはその両方です。これらの言語での文字起こしはコンテンツのインデックス化と検索には使えますが、公開可能なテキストには向きません。

例としてはアムハラ語（エチオピア、WER約42%）、ヨルバ語（ナイジェリア、WER約43%）、シンハラ語（スリランカ、WER約48%）、クメール語（カンボジア、WER約50%）、ラオ語（ラオス、WER約52%）、ビルマ語（WER約55%）、マルタ語（WER約45%）があります。数値はモデルやベンチマークによって大きく異なります。コミュニティデータセットの拡大によりギャップは縮小しつつありますが、これらの言語での実運用ユースケースでは、言語固有のデータに投資してきた専門プロバイダーが汎用モデルよりもWERで5〜15ポイント優れる傾向があります。

精度ギャップを生む要因

言語間のWERのばらつきの大部分は、3つの要因で説明できます。

学習データ量が最も強い予測要因です。Whisperは68万時間の音声で学習されていますが、そのうち65%が英語でした。高リソース言語には数万時間が与えられ、最低リソース言語は数百時間です。学習データが倍増するごとに、残存WERはほぼ半減します（最終的に収穫逓減に達するまで）。

音韻的・形態論的複雑さは、豊富なデータがあっても天井効果を生みます。声調言語（北京語、ベトナム語、タイ語、ヨルバ語）は、音韻的に類似する単語をピッチ輪郭で区別することをモデルに強います。膠着語（トルコ語、フィンランド語、スワヒリ語）は多数の形態素から長い単語を構成し、トークナイゼーションと相互作用します。右から左の文字体系（アラビア語、ヘブライ語）や表語文字体系（中国語、日本語）はWERからcharacter error rateへと指標をシフトさせ、置換として数えられる内容を変えます。

音声ドメインの適合性は言語と同程度に重要です。主に朗読型オーディオブックデータで学習したモデルは、同じ言語の自然な会話では精度が低下します。ビジネス向け文字起こし（会議、インタビュー、ポッドキャスト）では、プロバイダーが会話音声や放送音声でファインチューニングしているか、それともクリーンなモノローグのみか、という点にモデル選択が左右されるべきです。

下位Tier言語の精度を向上させる方法

あらゆる言語でWERを意味のある形で低減する実用的な手段があります。ベースラインが高いほど効果も大きくなります。

文字起こし前に音声を改善する。 ノイズ低減、話者分離、一貫した録音レベルは、実世界の音声でWERを2〜5ポイント削減できます。最速の施策については音声品質ガイドをご覧ください。

ドメインコンテキストを提供する。 多くの文字起こしAPIは、音声に登場しそうな専門用語、固有名詞、フレーズのリストを受け付けます。こうしたバイアス付き語彙は、正しく設定すると業界用語や固有表現の置換エラーを10〜30%削減します。

言語ごとに適切なモデルを選ぶ。 Whisperは一部の言語で先行し、NVIDIA Canaryは別の言語で、そして言語特化型プロバイダーは少数の言語（特に日本語、韓国語、アラビア語）で優れています。特定の言語がワークフローに不可欠である場合、代表的なサンプルで2〜3のプロバイダーをテストすることに1時間を投資する価値があります。

最後の仕上げには人間の編集者を使う。 Tier 3以下では、ネイティブ編集者がAI文字起こしをレビューする方式は、ゼロから文字起こしするより約5〜8倍速く、最終精度は98%を超えます。

Vocovaのようなプラットフォームは、自動言語検出を備えた100以上の言語での文字起こしをサポートしており、言語ごとに適切なモデルを選ぶ手間を省きます。言語検出は文字起こし開始前に行われるため、音声ファイルに事前に言語タグを付ける必要がありません。

よくある質問

最も正確に文字起こしできる言語は？

2026年において最も正確なAI文字起こしは英語で、最先端のモデルはクリーンなLibriSpeech音声で1.4〜2.7%のWER、実世界の自然な発話で約4%のWERに達します。スペイン語、北京語、フランス語、ドイツ語、イタリア語、ポルトガル語もこれに近く、3〜6%のWER範囲にあります。

Whisperの各言語での精度は？

Whisper large-v3は、FLEURSベンチマークで約30の言語でWER 10%未満を達成しており、本ガイドのすべてのTier 1言語とほとんどのTier 2言語が含まれます。その階層より下では精度が急激に低下し、一部の低リソース言語ではWERが50%を超えます。

「良い」WERとされる値は？

ほとんどのビジネス用途では、WERが10%未満であれば、元の音声よりも文字起こしを読んで編集するほうが速くなります。5%未満は一般に人間に近い精度とみなされます。20%を超える場合、公開可能なテキストにするために大幅な手動修正が必要です。

ドイツ語の文字起こしがタイ語の文字起こしより正確なのはなぜですか？

ドイツ語はTier 1言語で、数万時間の学習データ、英語（最大のデータセットを持つ言語）と共通する音韻的特徴、商業文字起こしでの広範な採用を備えています。タイ語は声調があり、単語間にスペースのない言語で、ラベル付き学習データも大幅に少なくなっています。最先端モデルでも両者の間に7〜10ポイントのWERギャップがあります。

特定の言語で文字起こし精度を向上させることはできますか？

はい。音声品質の改善、カスタム語彙、話者固有の学習データにより、ほとんどの言語でWERを5〜15%低減できます。Tier 3以下では、AI＋人間編集者のハイブリッドワークフローにより、純粋な人間文字起こしのごく一部のコストで最終精度98%以上を実現します。

FLEURSやCommon Voiceの文字起こしベンチマークは実世界の音声と比較できますか？

直接には比較できません。ベンチマーク音声は通常、よりクリーンで、自然発話ではなく朗読で、プロ機材で録音されています。実世界の音声（会議、電話、街頭インタビュー）は、同じ言語・モデルにおいてベンチマーク音声より通常5〜15ポイント高いWERを生じます。

まとめ

2026年のAI文字起こし精度は、言語階層、音声品質、モデルとタスクの適合性の関数です。Tier 1言語はクリーン音声で人間に近い精度を提供し、Tier 3は編集が必要で、Tier 5は実験的です。実世界の音声における最良と平均のパフォーマンスのギャップは、上位モデルが中位モデルより速く改善したため広がっており、3年前よりもツール選択の重要性が増しています。

文字起こしパイプラインを構築または選定する場合、最も有用なアクションは、コミットする前に特定の言語と音声ドメインを2〜3の代表サンプルでテストすることです。ベンチマークは出発点であり、決定ではありません。