언어별 트랜스크립션 정확도: 50개 이상 언어의 WER 벤치마크 (2026)
여러분의 언어에서 AI 트랜스크립션은 얼마나 정확할까요? 2026년 Whisper, NVIDIA Canary 등 주요 ASR 모델의 50개 이상 언어별 단어 오류율(WER) 벤치마크를 비교합니다.
트랜스크립션 정확도는 언어에 따라 극적으로 달라집니다. 2026년 기준, 깨끗한 오디오에서 최고의 자동 음성 인식(ASR) 시스템은 영어, 스페인어, 중국어 표준어에서 단어 오류율 5% 미만, 폴란드어, 한국어, 베트남어 같은 중간 리소스 언어에서는 7-12%, 암하라어, 요루바어, 싱할라어 같은 많은 저리소스 언어에서는 20-40% 이상에 달합니다. 이러한 정확도 격차는 학습 데이터 양, 음성학적 복잡성, 그리고 각 모델이 접한 방언의 다양성에서 비롯됩니다.
이 가이드는 Whisper, NVIDIA Canary, Google USM, Hugging Face Open ASR Leaderboard에서 공개된 WER 벤치마크를 언어 계층별로 정리합니다. 특정 언어에 대한 트랜스크립션 도구를 평가하거나, 왜 독일어 오디오는 완벽하게 트랜스크립션되는데 태국어 오디오는 그렇지 않은지 이해하고자 한다면, 아래 데이터가 그 격차를 설명합니다.
TL;DR: 정확도 계층 한눈에 보기
| 계층 | WER 범위 | 대표 언어 | 예상 결과 |
|---|---|---|---|
| Tier 1 | WER 2-6% | 영어, 중국어 표준어, 스페인어, 프랑스어, 독일어, 일본어, 이탈리아어, 포르투갈어 | 깨끗한 오디오에서 사람에 근접한 정확도 |
| Tier 2 | WER 6-12% | 한국어, 네덜란드어, 러시아어, 아랍어, 터키어, 폴란드어, 카탈루냐어, 스웨덴어 | 프로덕션 수준, 소폭 편집 필요 |
| Tier 3 | WER 12-20% | 베트남어, 힌디어, 태국어, 그리스어, 루마니아어, 우크라이나어, 히브리어, 인도네시아어 | 사용 가능, 의미 있는 수작업 정리 필요 |
| Tier 4 | WER 20-40% | 타밀어, 벵골어, 스와힐리어, 필리핀어, 말레이어, 우르두어, 네팔어 | 초고 수준 품질, 사람의 검토 필수 |
| Tier 5 | WER 40% 이상 | 암하라어, 요루바어, 싱할라어, 크메르어, 라오어, 버마어, 몰타어 | 실험적, 상당한 후편집 없이는 대개 사용 불가 |
출처: OpenAI Whisper 논문 (2022), FLEURS 벤치마크 (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
WER 벤치마크는 어떻게 측정되는가
이 글의 모든 수치는 세 가지 공개 벤치마크 스위트 중 하나에서 나옵니다. 각 벤치마크가 무엇을 측정하는지 이해해야 실험실 점수와 실제 성능을 비교하는 흔한 실수를 피할 수 있습니다.
LibriSpeech(영어 전용)는 깨끗한 오디오북 녹음을 사용합니다. 대부분의 모델이 실행하는 가장 쉬운 벤치마크이므로, 그 수치는 모델이 이상적인 조건에서 달성할 수 있는 최저 수준을 나타냅니다. LibriSpeech test-clean에서 최첨단 영어 WER은 약 1.4-2.7%입니다.
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)는 102개 언어를 다루며, 언어당 약 12시간 분량의 음성을 제공합니다. 모든 언어에 동일한 문장(위키피디아 콘텐츠의 번역)을 사용하므로, 언어 간 비교가 의미 있습니다. FLEURS는 가장 널리 인용되는 다국어 벤치마크입니다.
Common Voice(Mozilla)는 100개 이상의 언어에 걸쳐 크라우드소싱된 녹음을 포함합니다. 화자들이 다양한 환경의 비전문가이기 때문에 FLEURS보다 잡음이 많고, 따라서 Common Voice WER은 동일 언어에서 FLEURS보다 일반적으로 2-5포인트 더 높습니다.
억양, 화자 중첩, 배경 소음, 불완전한 녹음 장비가 있는 실제 오디오는 벤치마크 수치에 5-15 WER 포인트를 추가합니다. FLEURS에서 5% WER을 보고한 모델은 일반적인 Zoom 녹음에서는 10-15%를 기록할 수 있습니다.
Tier 1: 매우 높은 정확도 (WER 2-6%)
이 언어들은 가장 큰 학습 코퍼스(수만 시간 분량의 레이블링된 오디오)를 보유하고 있으며, 모델 개발자들의 가장 많은 관심을 받습니다. 깨끗한 오디오에서 최소한의 편집만으로 프로덕션에 바로 투입 가능한 트랜스크립트를 기대할 수 있습니다.
| 언어 | Whisper large-v3 FLEURS WER | NVIDIA Canary WER (가능한 경우) | 비고 |
|---|---|---|---|
| 영어 | 4.2% | 6.5% (Canary-1B Common Voice) | 기준 언어, 대부분의 벤치마크가 여기에 초점 |
| 스페인어 | 3.0% | 4.6% | 특히 라틴 아메리카 변이에 강함 |
| 중국어 표준어 | 5.7% (CER) | -- | WER이 아닌 문자 오류율로 측정 |
| 프랑스어 | 4.7% | 6.0% | 유럽 프랑스어가 학습 데이터를 지배 |
| 독일어 | 4.5% | 4.8% | 표준 독일어에 강함, 스위스/오스트리아 방언은 저하 |
| 이탈리아어 | 4.0% | 4.2% | 가장 잘 커버된 유럽 언어 중 하나 |
| 포르투갈어 | 3.9% | 3.6% | 브라질 포르투갈어가 학습 데이터의 다수 |
| 일본어 | 4.9% (CER) | -- | 문자 수준 지표, 문장 품질은 뛰어남 |
Tier 1 언어는 상업적 응용 압력의 혜택을 받습니다. 더빙, 폐쇄 자막, 검색은 수십 년에 걸쳐 데이터셋 구축을 견인해 왔습니다. 이 중 어느 언어로 트랜스크립션하는 경우든, 모델 선택보다는 입력하는 오디오 품질이 더 중요합니다.
Tier 2: 높은 정확도 (WER 6-12%)
이 언어들은 의미 있는 학습 데이터를 가지고 있지만, Tier 1보다 양이 적거나 음성학적 복잡성이 더 높습니다. 대부분의 프로덕션 사용 사례에서 잘 작동하지만, 가끔 잘못 인식된 고유명사와 기술 용어를 수정해야 합니다.
| 언어 | Whisper large-v3 FLEURS WER | 비고 |
|---|---|---|
| 한국어 | 7.0% (CER) | 문자 수준, 문장 정확도는 일반적으로 높음 |
| 네덜란드어 | 6.1% | 독일어 및 영어 학습 데이터와의 근접성 혜택 |
| 러시아어 | 8.8% | 표준 러시아어에서 양호, 지역 억양은 저하 |
| 아랍어 | 9.5% (현대 표준) | 방언 아랍어(이집트, 레반트, 걸프)는 훨씬 어려움 |
| 터키어 | 9.6% | 교착어 형태론이 복잡성을 더함 |
| 폴란드어 | 8.6% | 잘 커버된 슬라브어 |
| 카탈루냐어 | 5.1% | 전용 데이터셋 덕분에 화자 수 대비 성능이 뛰어남 |
| 스웨덴어 | 7.0% | 소규모 언어치고 강력, 북유럽 코퍼스가 잘 정리됨 |
| 노르웨이어 | 9.0% | 두 가지 문어 표준(Bokmål/Nynorsk)이 평가를 복잡하게 함 |
| 우크라이나어 | 10.2% | 2022년 이후 데이터셋 증가로 크게 개선 |
| 덴마크어 | 9.6% | 어려운 음성학이지만 잘 대표됨 |
Tier 2 언어에서는 모델 선택이 중요해지기 시작합니다. Whisper large-v3, NVIDIA Canary-1B-v2, Google USM은 특정 언어에 따라 선두가 교차하는 경향이 있으므로, 파이프라인을 표준화하기 전에 벤치마크별 비교를 확인할 가치가 있습니다.
Tier 3: 중간 정확도 (WER 12-20%)
이 언어들은 AI 트랜스크립션이 눈에 띄게 불완전해지는 지점입니다. 트랜스크립트는 여전히 초안으로 사용할 수 있지만, 특히 고유 개체명, 숫자, 담화 조사 주변에서 오디오 분당 몇 가지 오류를 수정해야 합니다.
| 언어 | Whisper large-v3 FLEURS WER | 비고 |
|---|---|---|
| 베트남어 | 13.6% | 성조 언어, 성조 오류가 흔함 |
| 힌디어 | 13.8% | 억양에 따라 편차가 크고 영어와의 코드 스위칭 빈번 |
| 태국어 | 13.3% (CER) | 단어 사이에 공백이 없어 토큰화가 복잡 |
| 그리스어 | 13.5% | 다른 유럽 언어보다 학습 코퍼스가 작음 |
| 루마니아어 | 14.9% | 데이터셋 증가로 빠르게 개선 중 |
| 히브리어 | 15.9% | 오른쪽에서 왼쪽으로 쓰는 문자, 풍부한 형태론 |
| 인도네시아어 | 13.4% | 리소스 수준 대비 강함 |
| 크로아티아어 | 17.7% | 다른 남슬라브어와 공유된 특징이 도움 |
| 세르비아어 | 15.7% | 키릴 및 라틴 문자 지원 |
| 체코어 | 13.5% | 형태론적 복잡성에도 견고함 |
| 불가리아어 | 15.6% | 중간 리소스 수준의 슬라브어 |
코드 스위칭(화자가 한 발화 내에서 두 언어를 번갈아 사용하는 것)은 Tier 1보다 Tier 3 언어에 더 큰 타격을 줍니다. 학습 데이터에 특정 언어 쌍이 포함될 가능성이 낮기 때문입니다.
Tier 4: 낮은 정확도 (WER 20-40%)
이 계층의 언어들은 수억 명의 화자를 보유하는 경우가 많지만 레이블링된 학습 데이터가 제한적입니다. 트랜스크립션은 처음부터 작성하는 것보다 편집이 빠른 초안을 만들지만, 상당한 사람의 검토가 필요합니다.
| 언어 | Whisper large-v3 FLEURS WER | 비고 |
|---|---|---|
| 타밀어 | 29.4% | 복잡한 형태론의 드라비다어 |
| 벵골어 | 28.8% | 대규모 화자 기반이지만 학습에서 과소대표 |
| 텔루구어 | 32.8% | 타밀어와 유사한 어려움 |
| 스와힐리어 | 34.2% | 동아프리카 공용어, 데이터셋 규모 증가 중 |
| 필리핀어 (타갈로그) | 22.4% | 자연스러운 발화에서 영어 코드 스위칭이 빈번 |
| 말레이어 | 21.3% | 인도네시아어와 공유된 특징이 도움 |
| 우르두어 | 26.3% | 힌디어와 관련되지만 페르소-아랍 문자로 표기 |
| 네팔어 | 30.0% | 작은 학습 코퍼스 |
| 펀자브어 | 29.1% | 펀자브어-영어 코드 스위칭이 흔함 |
| 칸나다어 | 33.5% | 드라비다어족 |
| 마라티어 | 30.7% | 중간 리소스의 인도-아리아어 |
Tier 4 언어에서는 AI가 초안을 만들고 원어민 편집자가 정리하는 하이브리드 워크플로가 일반적으로 가장 높은 처리량 옵션입니다. 심하게 훼손된 AI 출력을 수정하는 것보다 순수 사람 트랜스크립션이 더 빠른 경우도 많습니다.
Tier 5: 저리소스 및 실험적 (WER 40% 이상)
이 언어들은 레이블링된 데이터가 매우 제한적이거나, 모델이 학습한 언어와의 음성학적 거리가 상당하거나, 둘 다에 해당합니다. 이 언어들의 트랜스크립션은 콘텐츠 인덱싱과 검색에는 사용할 수 있지만 게시용 텍스트로는 적합하지 않습니다.
예로는 암하라어(에티오피아, WER ~42%), 요루바어(나이지리아, WER ~43%), 싱할라어(스리랑카, WER ~48%), 크메르어(캄보디아, WER ~50%), 라오어(라오스, WER ~52%), 버마어(WER ~55%), 몰타어(WER ~45%)가 있습니다. 모델과 벤치마크에 따라 수치는 크게 달라집니다. 커뮤니티 데이터셋이 성장하면서 격차는 줄어들고 있지만, 이러한 언어의 프로덕션 사용 사례에서는 언어별 데이터에 투자한 전문 제공업체가 범용 모델보다 일반적으로 5-15 WER 포인트 더 우수한 성능을 보입니다.
정확도 격차를 만드는 요인
WER의 언어 간 편차 대부분은 세 가지 요인으로 설명됩니다.
학습 데이터 양이 가장 강력한 단일 예측 변수입니다. Whisper는 680,000시간의 오디오로 학습되었지만, 그중 65%가 영어였습니다. 고리소스 언어는 수만 시간을 받고, 최저리소스 언어는 수백 시간만 받습니다. 학습 데이터가 두 배가 될 때마다 남은 WER은 대략 절반으로 줄어들며, 결국 수확체감에 도달합니다.
음성학적·형태론적 복잡성은 데이터가 풍부하더라도 천장 효과를 만듭니다. 성조 언어(중국어 표준어, 베트남어, 태국어, 요루바어)는 모델이 음성학적으로 유사한 단어를 음높이 윤곽으로 구별하도록 강요합니다. 교착어(터키어, 핀란드어, 스와힐리어)는 많은 형태소로 긴 단어를 구성하며, 이는 토큰화와 상호작용합니다. 오른쪽에서 왼쪽으로 쓰는 문자(아랍어, 히브리어)와 표의문자 체계(중국어, 일본어)는 지표를 WER에서 문자 오류율로 이동시키고 대체 오류의 기준을 변경합니다.
오디오 도메인 일치도 언어만큼 중요합니다. 주로 낭독된 오디오북 데이터로 학습된 모델은 동일 언어의 자발적 대화에서 성능이 떨어집니다. 비즈니스 트랜스크립션 사용 사례(회의, 인터뷰, 팟캐스트)에서는 제공업체가 깨끗한 독백만이 아닌 대화형 또는 방송 오디오로 파인튜닝하는지에 따라 모델 선택이 달라져야 합니다.
하위 계층 언어의 정확도를 높이는 방법
어떤 언어에서든 WER을 의미 있게 줄이는 실용적인 방법이 있으며, 기준선이 높을수록 효과가 큽니다.
트랜스크립션 전에 오디오를 개선하세요. 잡음 제거, 화자 분리, 일관된 녹음 레벨은 실제 오디오에서 WER을 2-5포인트 줄일 수 있습니다. 이 오디오 품질 가이드가 가장 빠른 개선 방법을 다룹니다.
도메인 맥락을 제공하세요. 많은 트랜스크립션 API는 오디오에 나타날 가능성이 있는 기술 용어, 고유명사, 문구 목록을 받아들입니다. 이러한 편향된 어휘는 올바르게 구성되었을 때 업계 전문 용어와 고유 개체명의 대체 오류를 10-30% 줄입니다.
언어별로 올바른 모델을 선택하세요. Whisper는 일부 언어에서 선두이고, NVIDIA Canary는 다른 언어에서, 일부(특히 일본어, 한국어, 아랍어)에서는 언어 전문 제공업체가 앞섭니다. 특정 언어가 워크플로에 중요하다면 대표 샘플에 대해 2-3개 제공업체를 테스트하는 데 한 시간 투자할 가치가 있습니다.
마지막 단계에 사람 편집자를 활용하세요. Tier 3 이하에서는 원어민 편집자가 AI 트랜스크립트를 검토하는 것이 처음부터 트랜스크립션하는 것보다 약 5-8배 빠르며, 최종 정확도는 98%를 넘습니다.
Vocova 같은 플랫폼은 자동 언어 감지로 100개 이상의 언어 트랜스크립션을 지원하여, 언어별로 올바른 모델을 선택해야 하는 번거로움을 없애줍니다. 언어 감지는 트랜스크립션이 시작되기 전에 이루어지므로, 오디오 파일에 언어 태그를 미리 달 필요가 없습니다.
자주 묻는 질문
어떤 언어가 가장 정확한 트랜스크립션을 보이나요?
2026년 기준 영어가 가장 정확한 AI 트랜스크립션을 보이며, 최첨단 모델은 깨끗한 LibriSpeech 오디오에서 WER 1.4-2.7%, 실제 자발적 발화에서는 약 4% WER에 도달합니다. 스페인어, 중국어 표준어, 프랑스어, 독일어, 이탈리아어, 포르투갈어가 WER 3-6% 범위에서 근소한 차이로 뒤따릅니다.
Whisper는 언어별로 얼마나 정확한가요?
Whisper large-v3는 FLEURS 벤치마크에서 약 30개 언어에 대해 10% 미만의 WER을 달성하며, 이는 이 가이드의 모든 Tier 1 언어와 대부분의 Tier 2 언어를 포함합니다. 그 아래 계층에서는 정확도가 급격히 떨어지며, 일부 저리소스 언어는 50%를 초과하는 WER을 보입니다.
"좋은" WER은 얼마인가요?
대부분의 비즈니스 응용 분야에서 WER 10% 미만이면 원본 오디오보다 읽고 편집하기 더 빠른 트랜스크립트가 나옵니다. 5% 미만은 일반적으로 사람에 근접한 정확도로 간주됩니다. 20%를 초과하면 게시용 텍스트로 사용하려면 상당한 수작업 보정이 필요합니다.
왜 제 독일어 트랜스크립션이 태국어 트랜스크립션보다 정확한가요?
독일어는 수만 시간의 학습 데이터와 가장 큰 데이터셋을 가진 영어와 공유된 음성학적 특징, 그리고 상업적 트랜스크립션에서의 광범위한 도입을 갖춘 Tier 1 언어입니다. 태국어는 성조 언어이며 공백이 없고 레이블링된 학습 데이터가 훨씬 적습니다. 최고의 모델에서도 두 언어 사이에 7-10포인트의 WER 격차가 있습니다.
특정 언어의 트랜스크립션 정확도를 개선할 수 있나요?
네. 오디오 품질 개선, 사용자 정의 어휘, 화자별 학습 데이터는 대부분의 언어에서 WER을 5-15% 줄일 수 있습니다. Tier 3 이하에서는 AI와 사람 편집자 하이브리드 워크플로를 사용하면 순수 사람 트랜스크립션 비용의 일부로 최종 정확도 98% 이상을 달성할 수 있습니다.
FLEURS 및 Common Voice의 트랜스크립션 벤치마크는 실제 오디오와 비교 가능한가요?
직접 비교는 어렵습니다. 벤치마크 오디오는 일반적으로 더 깨끗하고, 자발적인 발화가 아닌 낭독이며, 전문 장비로 녹음됩니다. 실제 오디오(회의, 전화 통화, 길거리 인터뷰)는 동일 언어 및 모델에서 벤치마크 오디오보다 일반적으로 5-15포인트 높은 WER을 보입니다.
요약
2026년 AI 트랜스크립션 정확도는 언어 계층, 오디오 품질, 모델-작업 적합도의 함수입니다. Tier 1 언어는 깨끗한 오디오에서 사람에 근접한 정확도를 제공하고, Tier 3은 편집이 필요하며, Tier 5는 실험적입니다. 상위 모델이 중위 모델보다 더 빠르게 개선되면서 실제 오디오에서 최고와 평균 성능의 격차가 벌어졌고, 이에 따라 3년 전보다 도구 선택의 중요성이 커졌습니다.
트랜스크립션 파이프라인을 구축하거나 선택하는 경우, 가장 유용한 일은 약속하기 전에 특정 언어와 오디오 도메인에 대해 2-3개의 대표 샘플로 테스트하는 것입니다. 벤치마크는 출발점이지 결정 기준이 아닙니다.
출처 및 추가 자료
- OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (Whisper paper, 2022)
- Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, Canary-1B-v2 model card
- Mozilla Common Voice datasets
- Vocova on multilingual transcription
