Quão precisa é a transcrição por IA? Resultados de WER em mais de 50 idiomas (2026)

A precisão da transcrição varia drasticamente de acordo com o idioma. Em áudio limpo em 2026, os melhores sistemas de reconhecimento automático de fala (ASR) atingem taxas de erro por palavra abaixo de 5% em inglês, espanhol e mandarim, entre 7-12% em idiomas de recursos intermediários como polonês, coreano e vietnamita, e 20-40% ou pior em muitos idiomas de baixos recursos como amárico, iorubá ou cingalês. A diferença de precisão se resume ao volume de dados de treinamento, à complexidade fonética e à diversidade de dialetos que cada modelo viu.

Este guia compila benchmarks de WER publicados do Whisper, NVIDIA Canary, Google USM e do Hugging Face Open ASR Leaderboard, organizados por nível de idioma. Se você está avaliando uma ferramenta de transcrição para um idioma específico, ou tentando entender por que seu áudio em alemão é transcrito impecavelmente mas seu áudio em tailandês não, os dados abaixo explicam a diferença.

TL;DR: níveis de precisão em um relance

Nível	Faixa de WER	Idiomas (representativos)	O que esperar
Nível 1	2-6% WER	Inglês, mandarim, espanhol, francês, alemão, japonês, italiano, português	Precisão próxima à humana em áudio limpo
Nível 2	6-12% WER	Coreano, holandês, russo, árabe, turco, polonês, catalão, sueco	Qualidade de produção, edições menores necessárias
Nível 3	12-20% WER	Vietnamita, hindi, tailandês, grego, romeno, ucraniano, hebraico, indonésio	Utilizável, espere limpeza manual significativa
Nível 4	20-40% WER	Tâmil, bengali, suaíli, filipino, malaio, urdu, nepalês	Qualidade de rascunho, revisão humana obrigatória
Nível 5	>40% WER	Amárico, iorubá, cingalês, khmer, laosiano, birmanês, maltês	Experimental, muitas vezes inutilizável sem pós-edição pesada

Fontes: Artigo do OpenAI Whisper (2022), benchmark FLEURS (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Como os benchmarks de WER são medidos

Todo número neste post vem de uma das três suítes públicas de benchmark. Entender o que cada uma testa evita o erro comum de comparar uma nota de laboratório com desempenho em situações reais.

LibriSpeech (apenas inglês) usa gravações limpas de audiolivros. É o benchmark mais fácil contra o qual a maioria dos modelos é testada, então seus números são o piso do que um modelo pode fazer em condições ideais. O WER estado-da-arte em inglês no LibriSpeech test-clean fica em torno de 1,4-2,7%.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) cobre 102 idiomas com cerca de 12 horas de fala por idioma. Usa as mesmas frases em todos os idiomas (traduções de conteúdo da Wikipédia), o que torna a comparação entre idiomas significativa. O FLEURS é o benchmark multilíngue mais amplamente citado.

Common Voice (Mozilla) contém gravações de crowdsourcing em mais de 100 idiomas. É mais ruidoso que o FLEURS porque os falantes são não profissionais em ambientes variados, então o WER do Common Voice é tipicamente 2-5 pontos maior que o do FLEURS no mesmo idioma.

Áudio do mundo real, com sotaques, falantes sobrepostos, ruído de fundo e equipamentos de gravação imperfeitos, adiciona outros 5-15 pontos de WER em cima dos números de benchmark. Um modelo que reporta 5% de WER no FLEURS pode entregar 10-15% em uma gravação típica de Zoom.

Nível 1: precisão muito alta (2-6% WER)

Esses idiomas têm os maiores corpora de treinamento (dezenas de milhares de horas de áudio rotulado) e a maior atenção dos desenvolvedores de modelos. Espere transcrições prontas para produção em áudio limpo com edição mínima.

Idioma	WER Whisper large-v3 FLEURS	WER NVIDIA Canary (quando disponível)	Observações
Inglês	4,2%	6,5% (Canary-1B Common Voice)	Idioma de referência, a maioria dos benchmarks foca aqui
Espanhol	3,0%	4,6%	Especialmente forte em variantes latino-americanas
Chinês mandarim	5,7% (CER)	--	Medido em taxa de erro por caractere, não WER
Francês	4,7%	6,0%	Francês europeu domina os dados de treinamento
Alemão	4,5%	4,8%	Forte em alemão padrão; dialetos suíço/austríaco degradam
Italiano	4,0%	4,2%	Entre os idiomas europeus mais bem cobertos
Português	3,9%	3,6%	Português brasileiro é a maioria nos dados de treinamento
Japonês	4,9% (CER)	--	Métrica em nível de caractere; qualidade de sentença é excelente

Idiomas do Nível 1 se beneficiam da pressão de aplicações comerciais: dublagem, closed captioning e busca impulsionaram a criação de datasets por décadas. Se você está transcrevendo em qualquer um deles, a escolha do modelo importa menos que a qualidade do áudio que você fornece.

Nível 2: alta precisão (6-12% WER)

Esses idiomas têm dados de treinamento significativos, mas menor volume que o Nível 1 ou maior complexidade fonética. A maioria dos casos de uso em produção funciona bem, mas espere corrigir ocasionalmente nomes próprios e termos técnicos mal reconhecidos.

Idioma	WER Whisper large-v3 FLEURS	Observações
Coreano	7,0% (CER)	Nível de caractere; precisão de sentença geralmente é alta
Holandês	6,1%	Se beneficia da proximidade com dados de treinamento de alemão e inglês
Russo	8,8%	Bom em russo padrão; sotaques regionais degradam
Árabe	9,5% (moderno padrão)	Árabe dialetal (egípcio, levantino, do Golfo) é muito mais difícil
Turco	9,6%	Morfologia aglutinante adiciona complexidade
Polonês	8,6%	Idioma eslavo bem coberto
Catalão	5,1%	Supera seu contingente de falantes graças a datasets dedicados
Sueco	7,0%	Forte para um idioma menor; corpora nórdicos são bem curados
Norueguês	9,0%	Dois padrões escritos (Bokmål/Nynorsk) complicam a avaliação
Ucraniano	10,2%	Melhora significativa pós-2022 devido ao crescimento de datasets
Dinamarquês	9,6%	Fonética difícil, mas bem representada

Para idiomas do Nível 2, a escolha do modelo começa a importar. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendem a trocar de liderança dependendo do idioma específico, então vale a pena verificar comparações específicas de benchmark antes de padronizar um pipeline.

Nível 3: precisão média (12-20% WER)

Esses idiomas são onde a transcrição por IA se torna visivelmente imperfeita. As transcrições ainda são úteis como primeiro rascunho, mas espere corrigir vários erros por minuto de áudio, especialmente em torno de entidades nomeadas, números e partículas de discurso.

Idioma	WER Whisper large-v3 FLEURS	Observações
Vietnamita	13,6%	Tonal; erros de tom são comuns
Hindi	13,8%	Forte variância entre sotaques e code-switching com inglês
Tailandês	13,3% (CER)	Sem espaços entre palavras complica a tokenização
Grego	13,5%	Corpus de treinamento menor que outros idiomas europeus
Romeno	14,9%	Melhorando rapidamente à medida que datasets crescem
Hebraico	15,9%	Escrita da direita para a esquerda, morfologia rica
Indonésio	13,4%	Forte para seu nível de recursos
Croata	17,7%	Características compartilhadas com outros idiomas eslavos do sul ajudam
Sérvio	15,7%	Escritas cirílica e latina suportadas
Tcheco	13,5%	Sólido apesar da complexidade morfológica
Búlgaro	15,6%	Idioma eslavo com nível moderado de recursos

Code-switching -- quando falantes alternam entre dois idiomas em uma única enunciação -- tende a afetar idiomas do Nível 3 mais fortemente que do Nível 1 porque os dados de treinamento têm menos probabilidade de incluir o par de idiomas específico.

Nível 4: precisão menor (20-40% WER)

Idiomas deste nível frequentemente têm centenas de milhões de falantes, mas dados de treinamento rotulados limitados. A transcrição produz um rascunho bruto mais rápido de editar do que começar do zero, mas requer revisão humana substancial.

Idioma	WER Whisper large-v3 FLEURS	Observações
Tâmil	29,4%	Idioma dravídico com morfologia complexa
Bengali	28,8%	Grande base de falantes mas sub-representado no treinamento
Telugu	32,8%	Desafios similares ao tâmil
Suaíli	34,2%	Língua franca do leste africano, tamanho crescente de dataset
Filipino (tagalo)	22,4%	Code-switching intenso com inglês é comum na fala natural
Malaio	21,3%	Características compartilhadas com indonésio ajudam
Urdu	26,3%	Relacionado ao hindi mas escrito em alfabeto perso-arábico
Nepalês	30,0%	Corpus de treinamento pequeno
Punjabi	29,1%	Code-switching punjabi-inglês é comum
Canará	33,5%	Família dravídica
Marata	30,7%	Idioma indo-ariano com recursos moderados

Para idiomas do Nível 4, fluxos de trabalho híbridos onde a IA produz o primeiro rascunho e um editor nativo faz a limpeza são tipicamente a opção de maior throughput. Transcrição puramente humana ainda é mais rápida do que corrigir saída de IA altamente distorcida em muitos casos.

Nível 5: baixos recursos e experimental (>40% WER)

Esses idiomas ou têm dados rotulados muito limitados, distância fonética significativa de qualquer idioma em que o modelo foi treinado, ou ambos. A transcrição nesses idiomas é utilizável para indexação de conteúdo e busca, mas não para texto publicável.

Exemplos incluem amárico (Etiópia, ~42% WER), iorubá (Nigéria, ~43% WER), cingalês (Sri Lanka, ~48% WER), khmer (Camboja, ~50% WER), laosiano (Laos, ~52% WER), birmanês (~55% WER) e maltês (~45% WER). Os números variam significativamente entre modelos e benchmarks. A lacuna está se fechando à medida que os datasets comunitários crescem, mas para casos de uso em produção nesses idiomas, provedores especializados que investiram em dados específicos do idioma tipicamente superam modelos de propósito geral em 5-15 pontos de WER.

O que impulsiona a diferença de precisão

Três fatores explicam a maior parte da variância em WER entre os idiomas.

Volume de dados de treinamento é o preditor individual mais forte. O Whisper foi treinado em 680.000 horas de áudio, mas 65% disso era inglês. Idiomas de recursos maiores recebem dezenas de milhares de horas; os idiomas de menores recursos recebem algumas centenas. Cada duplicação de dados de treinamento aproximadamente reduz pela metade o WER restante até que os retornos decrescentes apareçam.

Complexidade fonética e morfológica cria efeitos de teto mesmo com dados abundantes. Idiomas tonais (mandarim, vietnamita, tailandês, iorubá) forçam o modelo a distinguir palavras foneticamente similares pelo contorno do tom. Idiomas aglutinantes (turco, finlandês, suaíli) constroem palavras longas a partir de muitos morfemas, que interagem com a tokenização. Escritas da direita para a esquerda (árabe, hebraico) e sistemas de escrita logográficos (chinês, japonês) mudam a métrica de WER para taxa de erro por caractere e mudam o que conta como substituição.

Correspondência de domínio de áudio importa tanto quanto o idioma. Um modelo treinado principalmente em áudio de audiolivros lidos em voz alta terá desempenho inferior em conversas espontâneas no mesmo idioma. Para casos de uso de transcrição empresarial (reuniões, entrevistas, podcasts), a escolha do modelo deve ser informada por se o provedor faz fine-tuning em áudio conversacional ou de broadcast em vez de apenas monólogo limpo.

Como melhorar a precisão para idiomas de níveis mais baixos

Existem passos práticos que reduzem significativamente o WER para qualquer idioma, embora o impacto seja maior quando a linha de base é mais alta.

Melhore o áudio antes de transcrever. Redução de ruído, isolamento de falantes e níveis de gravação consistentes podem cortar o WER em 2-5 pontos em áudio do mundo real. Este guia de qualidade de áudio cobre os ganhos mais rápidos.

Forneça contexto de domínio. Muitas APIs de transcrição aceitam uma lista de termos técnicos, nomes próprios ou frases que provavelmente aparecerão no áudio. Esses vocabulários enviesados reduzem erros de substituição para jargões do setor e entidades nomeadas em 10-30% quando configurados corretamente.

Escolha o modelo certo por idioma. O Whisper lidera em alguns idiomas, o NVIDIA Canary em outros e provedores específicos de idioma em alguns (particularmente japonês, coreano e árabe). Se um idioma específico é crítico para seu fluxo de trabalho, testar 2-3 provedores em uma amostra representativa vale a hora investida.

Use um editor humano para a última milha. Para Nível 3 e abaixo, um editor falante nativo revisando uma transcrição de IA é aproximadamente 5-8x mais rápido do que transcrever do zero, e a precisão final fica acima de 98%.

Plataformas como o Vocova suportam transcrição em mais de 100 idiomas com detecção automática de idioma, o que remove o atrito de escolher o modelo certo por idioma. A detecção acontece antes do início da transcrição, então você não precisa rotular os arquivos de áudio por idioma com antecedência.

Perguntas frequentes

Qual idioma tem a transcrição mais precisa?

O inglês tem a transcrição por IA mais precisa em 2026, com modelos estado-da-arte alcançando 1,4-2,7% de WER em áudio limpo do LibriSpeech e cerca de 4% de WER em fala espontânea do mundo real. Espanhol, mandarim, francês, alemão, italiano e português vêm logo atrás na faixa de 3-6% de WER.

Qual a precisão do Whisper entre os idiomas?

O Whisper large-v3 atinge WER abaixo de 10% em aproximadamente 30 idiomas no benchmark FLEURS, incluindo todos os idiomas do Nível 1 e a maioria do Nível 2 deste guia. Sua precisão degrada acentuadamente abaixo desse nível, com alguns idiomas de baixos recursos excedendo 50% de WER.

Que WER é considerado "bom"?

Para a maioria das aplicações empresariais, um WER abaixo de 10% produz uma transcrição mais rápida de ler e editar do que o áudio original. Abaixo de 5% é geralmente considerado precisão próxima à humana. Acima de 20% requer correção manual significativa para ser utilizável como texto publicado.

Por que minha transcrição em alemão é mais precisa que minha transcrição em tailandês?

O alemão é um idioma de Nível 1 com dezenas de milhares de horas de dados de treinamento, características fonéticas compartilhadas com o inglês (que tem o maior dataset) e ampla adoção em transcrição comercial. O tailandês é um idioma tonal, sem espaços entre palavras, com dados de treinamento rotulados significativamente menores. Mesmo os melhores modelos têm uma lacuna de WER de 7-10 pontos entre os dois.

Posso melhorar a precisão da transcrição para meu idioma específico?

Sim. Melhorias na qualidade de áudio, vocabulários personalizados e dados de treinamento específicos por falante podem reduzir o WER em 5-15% na maioria dos idiomas. Para Nível 3 e abaixo, usar um fluxo de trabalho híbrido IA + editor humano produz precisão final acima de 98% a uma fração do custo da transcrição puramente humana.

Os benchmarks de transcrição do FLEURS e Common Voice são comparáveis ao áudio do mundo real?

Não diretamente. O áudio de benchmark é tipicamente mais limpo, lido em vez de espontâneo, e gravado com equipamento profissional. Áudio do mundo real (reuniões, chamadas telefônicas, entrevistas de rua) tipicamente produz 5-15 pontos a mais de WER do que áudio de benchmark para o mesmo idioma e modelo.

Resumo

A precisão da transcrição por IA em 2026 é uma função do nível do idioma, qualidade do áudio e adequação modelo-tarefa. Idiomas do Nível 1 entregam precisão próxima à humana em áudio limpo; o Nível 3 requer edição; o Nível 5 é experimental. A lacuna entre o desempenho médio e o melhor em áudio do mundo real se ampliou à medida que os modelos de topo melhoraram mais rápido que os de nível médio, tornando a seleção de ferramenta mais consequente do que era há três anos.

Se você está construindo ou escolhendo um pipeline de transcrição, a coisa mais útil que pode fazer é testar seu idioma específico e domínio de áudio em 2-3 amostras representativas antes de se comprometer. Benchmarks são um ponto de partida, não uma decisão.