Precisão de transcrição por idioma: benchmarks de WER para mais de 50 idiomas (2026)
Qual a precisão da transcrição por IA no seu idioma? Compare benchmarks de word error rate (WER) para mais de 50 idiomas entre Whisper, NVIDIA Canary e outros modelos ASR líderes em 2026.
A precisão da transcrição varia drasticamente de acordo com o idioma. Em áudio limpo em 2026, os melhores sistemas de reconhecimento automático de fala (ASR) atingem taxas de erro por palavra abaixo de 5% em inglês, espanhol e mandarim, entre 7-12% em idiomas de recursos intermediários como polonês, coreano e vietnamita, e 20-40% ou pior em muitos idiomas de baixos recursos como amárico, iorubá ou cingalês. A diferença de precisão se resume ao volume de dados de treinamento, à complexidade fonética e à diversidade de dialetos que cada modelo viu.
Este guia compila benchmarks de WER publicados do Whisper, NVIDIA Canary, Google USM e do Hugging Face Open ASR Leaderboard, organizados por nível de idioma. Se você está avaliando uma ferramenta de transcrição para um idioma específico, ou tentando entender por que seu áudio em alemão é transcrito impecavelmente mas seu áudio em tailandês não, os dados abaixo explicam a diferença.
TL;DR: níveis de precisão em um relance
| Nível | Faixa de WER | Idiomas (representativos) | O que esperar |
|---|---|---|---|
| Nível 1 | 2-6% WER | Inglês, mandarim, espanhol, francês, alemão, japonês, italiano, português | Precisão próxima à humana em áudio limpo |
| Nível 2 | 6-12% WER | Coreano, holandês, russo, árabe, turco, polonês, catalão, sueco | Qualidade de produção, edições menores necessárias |
| Nível 3 | 12-20% WER | Vietnamita, hindi, tailandês, grego, romeno, ucraniano, hebraico, indonésio | Utilizável, espere limpeza manual significativa |
| Nível 4 | 20-40% WER | Tâmil, bengali, suaíli, filipino, malaio, urdu, nepalês | Qualidade de rascunho, revisão humana obrigatória |
| Nível 5 | >40% WER | Amárico, iorubá, cingalês, khmer, laosiano, birmanês, maltês | Experimental, muitas vezes inutilizável sem pós-edição pesada |
Fontes: Artigo do OpenAI Whisper (2022), benchmark FLEURS (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
Como os benchmarks de WER são medidos
Todo número neste post vem de uma das três suítes públicas de benchmark. Entender o que cada uma testa evita o erro comum de comparar uma nota de laboratório com desempenho em situações reais.
LibriSpeech (apenas inglês) usa gravações limpas de audiolivros. É o benchmark mais fácil contra o qual a maioria dos modelos é testada, então seus números são o piso do que um modelo pode fazer em condições ideais. O WER estado-da-arte em inglês no LibriSpeech test-clean fica em torno de 1,4-2,7%.
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) cobre 102 idiomas com cerca de 12 horas de fala por idioma. Usa as mesmas frases em todos os idiomas (traduções de conteúdo da Wikipédia), o que torna a comparação entre idiomas significativa. O FLEURS é o benchmark multilíngue mais amplamente citado.
Common Voice (Mozilla) contém gravações de crowdsourcing em mais de 100 idiomas. É mais ruidoso que o FLEURS porque os falantes são não profissionais em ambientes variados, então o WER do Common Voice é tipicamente 2-5 pontos maior que o do FLEURS no mesmo idioma.
Áudio do mundo real, com sotaques, falantes sobrepostos, ruído de fundo e equipamentos de gravação imperfeitos, adiciona outros 5-15 pontos de WER em cima dos números de benchmark. Um modelo que reporta 5% de WER no FLEURS pode entregar 10-15% em uma gravação típica de Zoom.
Nível 1: precisão muito alta (2-6% WER)
Esses idiomas têm os maiores corpora de treinamento (dezenas de milhares de horas de áudio rotulado) e a maior atenção dos desenvolvedores de modelos. Espere transcrições prontas para produção em áudio limpo com edição mínima.
| Idioma | WER Whisper large-v3 FLEURS | WER NVIDIA Canary (quando disponível) | Observações |
|---|---|---|---|
| Inglês | 4,2% | 6,5% (Canary-1B Common Voice) | Idioma de referência, a maioria dos benchmarks foca aqui |
| Espanhol | 3,0% | 4,6% | Especialmente forte em variantes latino-americanas |
| Chinês mandarim | 5,7% (CER) | -- | Medido em taxa de erro por caractere, não WER |
| Francês | 4,7% | 6,0% | Francês europeu domina os dados de treinamento |
| Alemão | 4,5% | 4,8% | Forte em alemão padrão; dialetos suíço/austríaco degradam |
| Italiano | 4,0% | 4,2% | Entre os idiomas europeus mais bem cobertos |
| Português | 3,9% | 3,6% | Português brasileiro é a maioria nos dados de treinamento |
| Japonês | 4,9% (CER) | -- | Métrica em nível de caractere; qualidade de sentença é excelente |
Idiomas do Nível 1 se beneficiam da pressão de aplicações comerciais: dublagem, closed captioning e busca impulsionaram a criação de datasets por décadas. Se você está transcrevendo em qualquer um deles, a escolha do modelo importa menos que a qualidade do áudio que você fornece.
Nível 2: alta precisão (6-12% WER)
Esses idiomas têm dados de treinamento significativos, mas menor volume que o Nível 1 ou maior complexidade fonética. A maioria dos casos de uso em produção funciona bem, mas espere corrigir ocasionalmente nomes próprios e termos técnicos mal reconhecidos.
| Idioma | WER Whisper large-v3 FLEURS | Observações |
|---|---|---|
| Coreano | 7,0% (CER) | Nível de caractere; precisão de sentença geralmente é alta |
| Holandês | 6,1% | Se beneficia da proximidade com dados de treinamento de alemão e inglês |
| Russo | 8,8% | Bom em russo padrão; sotaques regionais degradam |
| Árabe | 9,5% (moderno padrão) | Árabe dialetal (egípcio, levantino, do Golfo) é muito mais difícil |
| Turco | 9,6% | Morfologia aglutinante adiciona complexidade |
| Polonês | 8,6% | Idioma eslavo bem coberto |
| Catalão | 5,1% | Supera seu contingente de falantes graças a datasets dedicados |
| Sueco | 7,0% | Forte para um idioma menor; corpora nórdicos são bem curados |
| Norueguês | 9,0% | Dois padrões escritos (Bokmål/Nynorsk) complicam a avaliação |
| Ucraniano | 10,2% | Melhora significativa pós-2022 devido ao crescimento de datasets |
| Dinamarquês | 9,6% | Fonética difícil, mas bem representada |
Para idiomas do Nível 2, a escolha do modelo começa a importar. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendem a trocar de liderança dependendo do idioma específico, então vale a pena verificar comparações específicas de benchmark antes de padronizar um pipeline.
Nível 3: precisão média (12-20% WER)
Esses idiomas são onde a transcrição por IA se torna visivelmente imperfeita. As transcrições ainda são úteis como primeiro rascunho, mas espere corrigir vários erros por minuto de áudio, especialmente em torno de entidades nomeadas, números e partículas de discurso.
| Idioma | WER Whisper large-v3 FLEURS | Observações |
|---|---|---|
| Vietnamita | 13,6% | Tonal; erros de tom são comuns |
| Hindi | 13,8% | Forte variância entre sotaques e code-switching com inglês |
| Tailandês | 13,3% (CER) | Sem espaços entre palavras complica a tokenização |
| Grego | 13,5% | Corpus de treinamento menor que outros idiomas europeus |
| Romeno | 14,9% | Melhorando rapidamente à medida que datasets crescem |
| Hebraico | 15,9% | Escrita da direita para a esquerda, morfologia rica |
| Indonésio | 13,4% | Forte para seu nível de recursos |
| Croata | 17,7% | Características compartilhadas com outros idiomas eslavos do sul ajudam |
| Sérvio | 15,7% | Escritas cirílica e latina suportadas |
| Tcheco | 13,5% | Sólido apesar da complexidade morfológica |
| Búlgaro | 15,6% | Idioma eslavo com nível moderado de recursos |
Code-switching -- quando falantes alternam entre dois idiomas em uma única enunciação -- tende a afetar idiomas do Nível 3 mais fortemente que do Nível 1 porque os dados de treinamento têm menos probabilidade de incluir o par de idiomas específico.
Nível 4: precisão menor (20-40% WER)
Idiomas deste nível frequentemente têm centenas de milhões de falantes, mas dados de treinamento rotulados limitados. A transcrição produz um rascunho bruto mais rápido de editar do que começar do zero, mas requer revisão humana substancial.
| Idioma | WER Whisper large-v3 FLEURS | Observações |
|---|---|---|
| Tâmil | 29,4% | Idioma dravídico com morfologia complexa |
| Bengali | 28,8% | Grande base de falantes mas sub-representado no treinamento |
| Telugu | 32,8% | Desafios similares ao tâmil |
| Suaíli | 34,2% | Língua franca do leste africano, tamanho crescente de dataset |
| Filipino (tagalo) | 22,4% | Code-switching intenso com inglês é comum na fala natural |
| Malaio | 21,3% | Características compartilhadas com indonésio ajudam |
| Urdu | 26,3% | Relacionado ao hindi mas escrito em alfabeto perso-arábico |
| Nepalês | 30,0% | Corpus de treinamento pequeno |
| Punjabi | 29,1% | Code-switching punjabi-inglês é comum |
| Canará | 33,5% | Família dravídica |
| Marata | 30,7% | Idioma indo-ariano com recursos moderados |
Para idiomas do Nível 4, fluxos de trabalho híbridos onde a IA produz o primeiro rascunho e um editor nativo faz a limpeza são tipicamente a opção de maior throughput. Transcrição puramente humana ainda é mais rápida do que corrigir saída de IA altamente distorcida em muitos casos.
Nível 5: baixos recursos e experimental (>40% WER)
Esses idiomas ou têm dados rotulados muito limitados, distância fonética significativa de qualquer idioma em que o modelo foi treinado, ou ambos. A transcrição nesses idiomas é utilizável para indexação de conteúdo e busca, mas não para texto publicável.
Exemplos incluem amárico (Etiópia, ~42% WER), iorubá (Nigéria, ~43% WER), cingalês (Sri Lanka, ~48% WER), khmer (Camboja, ~50% WER), laosiano (Laos, ~52% WER), birmanês (~55% WER) e maltês (~45% WER). Os números variam significativamente entre modelos e benchmarks. A lacuna está se fechando à medida que os datasets comunitários crescem, mas para casos de uso em produção nesses idiomas, provedores especializados que investiram em dados específicos do idioma tipicamente superam modelos de propósito geral em 5-15 pontos de WER.
O que impulsiona a diferença de precisão
Três fatores explicam a maior parte da variância em WER entre os idiomas.
Volume de dados de treinamento é o preditor individual mais forte. O Whisper foi treinado em 680.000 horas de áudio, mas 65% disso era inglês. Idiomas de recursos maiores recebem dezenas de milhares de horas; os idiomas de menores recursos recebem algumas centenas. Cada duplicação de dados de treinamento aproximadamente reduz pela metade o WER restante até que os retornos decrescentes apareçam.
Complexidade fonética e morfológica cria efeitos de teto mesmo com dados abundantes. Idiomas tonais (mandarim, vietnamita, tailandês, iorubá) forçam o modelo a distinguir palavras foneticamente similares pelo contorno do tom. Idiomas aglutinantes (turco, finlandês, suaíli) constroem palavras longas a partir de muitos morfemas, que interagem com a tokenização. Escritas da direita para a esquerda (árabe, hebraico) e sistemas de escrita logográficos (chinês, japonês) mudam a métrica de WER para taxa de erro por caractere e mudam o que conta como substituição.
Correspondência de domínio de áudio importa tanto quanto o idioma. Um modelo treinado principalmente em áudio de audiolivros lidos em voz alta terá desempenho inferior em conversas espontâneas no mesmo idioma. Para casos de uso de transcrição empresarial (reuniões, entrevistas, podcasts), a escolha do modelo deve ser informada por se o provedor faz fine-tuning em áudio conversacional ou de broadcast em vez de apenas monólogo limpo.
Como melhorar a precisão para idiomas de níveis mais baixos
Existem passos práticos que reduzem significativamente o WER para qualquer idioma, embora o impacto seja maior quando a linha de base é mais alta.
Melhore o áudio antes de transcrever. Redução de ruído, isolamento de falantes e níveis de gravação consistentes podem cortar o WER em 2-5 pontos em áudio do mundo real. Este guia de qualidade de áudio cobre os ganhos mais rápidos.
Forneça contexto de domínio. Muitas APIs de transcrição aceitam uma lista de termos técnicos, nomes próprios ou frases que provavelmente aparecerão no áudio. Esses vocabulários enviesados reduzem erros de substituição para jargões do setor e entidades nomeadas em 10-30% quando configurados corretamente.
Escolha o modelo certo por idioma. O Whisper lidera em alguns idiomas, o NVIDIA Canary em outros e provedores específicos de idioma em alguns (particularmente japonês, coreano e árabe). Se um idioma específico é crítico para seu fluxo de trabalho, testar 2-3 provedores em uma amostra representativa vale a hora investida.
Use um editor humano para a última milha. Para Nível 3 e abaixo, um editor falante nativo revisando uma transcrição de IA é aproximadamente 5-8x mais rápido do que transcrever do zero, e a precisão final fica acima de 98%.
Plataformas como o Vocova suportam transcrição em mais de 100 idiomas com detecção automática de idioma, o que remove o atrito de escolher o modelo certo por idioma. A detecção acontece antes do início da transcrição, então você não precisa rotular os arquivos de áudio por idioma com antecedência.
Perguntas frequentes
Qual idioma tem a transcrição mais precisa?
O inglês tem a transcrição por IA mais precisa em 2026, com modelos estado-da-arte alcançando 1,4-2,7% de WER em áudio limpo do LibriSpeech e cerca de 4% de WER em fala espontânea do mundo real. Espanhol, mandarim, francês, alemão, italiano e português vêm logo atrás na faixa de 3-6% de WER.
Qual a precisão do Whisper entre os idiomas?
O Whisper large-v3 atinge WER abaixo de 10% em aproximadamente 30 idiomas no benchmark FLEURS, incluindo todos os idiomas do Nível 1 e a maioria do Nível 2 deste guia. Sua precisão degrada acentuadamente abaixo desse nível, com alguns idiomas de baixos recursos excedendo 50% de WER.
Que WER é considerado "bom"?
Para a maioria das aplicações empresariais, um WER abaixo de 10% produz uma transcrição mais rápida de ler e editar do que o áudio original. Abaixo de 5% é geralmente considerado precisão próxima à humana. Acima de 20% requer correção manual significativa para ser utilizável como texto publicado.
Por que minha transcrição em alemão é mais precisa que minha transcrição em tailandês?
O alemão é um idioma de Nível 1 com dezenas de milhares de horas de dados de treinamento, características fonéticas compartilhadas com o inglês (que tem o maior dataset) e ampla adoção em transcrição comercial. O tailandês é um idioma tonal, sem espaços entre palavras, com dados de treinamento rotulados significativamente menores. Mesmo os melhores modelos têm uma lacuna de WER de 7-10 pontos entre os dois.
Posso melhorar a precisão da transcrição para meu idioma específico?
Sim. Melhorias na qualidade de áudio, vocabulários personalizados e dados de treinamento específicos por falante podem reduzir o WER em 5-15% na maioria dos idiomas. Para Nível 3 e abaixo, usar um fluxo de trabalho híbrido IA + editor humano produz precisão final acima de 98% a uma fração do custo da transcrição puramente humana.
Os benchmarks de transcrição do FLEURS e Common Voice são comparáveis ao áudio do mundo real?
Não diretamente. O áudio de benchmark é tipicamente mais limpo, lido em vez de espontâneo, e gravado com equipamento profissional. Áudio do mundo real (reuniões, chamadas telefônicas, entrevistas de rua) tipicamente produz 5-15 pontos a mais de WER do que áudio de benchmark para o mesmo idioma e modelo.
Resumo
A precisão da transcrição por IA em 2026 é uma função do nível do idioma, qualidade do áudio e adequação modelo-tarefa. Idiomas do Nível 1 entregam precisão próxima à humana em áudio limpo; o Nível 3 requer edição; o Nível 5 é experimental. A lacuna entre o desempenho médio e o melhor em áudio do mundo real se ampliou à medida que os modelos de topo melhoraram mais rápido que os de nível médio, tornando a seleção de ferramenta mais consequente do que era há três anos.
Se você está construindo ou escolhendo um pipeline de transcrição, a coisa mais útil que pode fazer é testar seu idioma específico e domínio de áudio em 2-3 amostras representativas antes de se comprometer. Benchmarks são um ponto de partida, não uma decisão.
Fontes e leitura adicional
- OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (artigo do Whisper, 2022)
- Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, ficha do modelo Canary-1B-v2
- Datasets Mozilla Common Voice
- Vocova sobre transcrição multilíngue
