Vocova
PreçosBlog

Produto

  • Preços
  • Blog
  • Ver todas as ferramentas

Soluções

  • Para podcasters
  • Para criadores de vídeo
  • Entrevistas multilíngues

Empresa

  • Sobre
  • FAQ
  • Termos de uso
  • Política de privacidade
  • Contato

Transcrição

  • Áudio para texto
  • Vídeo para texto
  • Transcrição de podcasts
  • Transcrição de entrevistas
  • Transcrição de aulas

Plataforma

  • Transcrição do YouTube
  • Transcrição de Apple Podcasts
  • Transcrição do Zoom
  • Transcrição de Google Meet
  • Transcrição de TikTok
  • Transcrição de Loom
  • Transcrição do Bilibili
  • Transcrição de Vimeo
  • Transcrição do Instagram
  • Transcrição do Facebook
  • Transcrição do X (Twitter)
  • Transcrição do SoundCloud
  • Transcrição do Reddit
  • Transcrição do Dailymotion

Idioma

  • Transcrição em japonês
  • Transcrição de espanhol
  • Transcrição em francês
  • Transcrição em alemão
  • Transcrição em português
  • Transcrição em coreano
  • Transcrição em chinês
  • Transcrição em árabe
  • Transcrição de hindi
  • Transcrição de italiano
  • Transcrição em russo
  • Transcrição em tailandês
  • Transcrição em vietnamita
  • Transcrição em turco
  • Transcrição em indonésio
  • Transcrição em holandês
  • Transcrição de polonês
  • Transcrição em sueco
  • Transcrição em cantonês
  • Transcrição em tagalo

Tradução

  • Tradução de áudio
  • Legendas bilíngues
  • Tradução de vídeo
  • Japonês para inglês
  • Chinês para inglês
  • Espanhol para inglês
  • Coreano para inglês
  • Francês para inglês

Formato

  • MP4 para texto
  • MP3 para texto
  • WAV para texto
  • M4A para texto
  • MOV para texto
  • Gerador de SRT
  • Gerador de VTT
  • Gerador de legendas

Conversor

  • Conversor de áudio
  • Conversor de vídeo
  • MP4 para MP3

Resumir

  • Resumidor de podcast
  • Resumidor do YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
PreçosBlog

Produto

  • Preços
  • Blog
  • Ver todas as ferramentas

Soluções

  • Para podcasters
  • Para criadores de vídeo
  • Entrevistas multilíngues

Empresa

  • Sobre
  • FAQ
  • Termos de uso
  • Política de privacidade
  • Contato

Transcrição

  • Áudio para texto
  • Vídeo para texto
  • Transcrição de podcasts
  • Transcrição de entrevistas
  • Transcrição de aulas

Plataforma

  • Transcrição do YouTube
  • Transcrição de Apple Podcasts
  • Transcrição do Zoom
  • Transcrição de Google Meet
  • Transcrição de TikTok
  • Transcrição de Loom
  • Transcrição do Bilibili
  • Transcrição de Vimeo
  • Transcrição do Instagram
  • Transcrição do Facebook
  • Transcrição do X (Twitter)
  • Transcrição do SoundCloud
  • Transcrição do Reddit
  • Transcrição do Dailymotion

Idioma

  • Transcrição em japonês
  • Transcrição de espanhol
  • Transcrição em francês
  • Transcrição em alemão
  • Transcrição em português
  • Transcrição em coreano
  • Transcrição em chinês
  • Transcrição em árabe
  • Transcrição de hindi
  • Transcrição de italiano
  • Transcrição em russo
  • Transcrição em tailandês
  • Transcrição em vietnamita
  • Transcrição em turco
  • Transcrição em indonésio
  • Transcrição em holandês
  • Transcrição de polonês
  • Transcrição em sueco
  • Transcrição em cantonês
  • Transcrição em tagalo

Tradução

  • Tradução de áudio
  • Legendas bilíngues
  • Tradução de vídeo
  • Japonês para inglês
  • Chinês para inglês
  • Espanhol para inglês
  • Coreano para inglês
  • Francês para inglês

Formato

  • MP4 para texto
  • MP3 para texto
  • WAV para texto
  • M4A para texto
  • MOV para texto
  • Gerador de SRT
  • Gerador de VTT
  • Gerador de legendas

Conversor

  • Conversor de áudio
  • Conversor de vídeo
  • MP4 para MP3

Resumir

  • Resumidor de podcast
  • Resumidor do YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
PreçosBlog
BlogQuão precisa é a transcrição por IA? Resultados de WER em mais de 50 idiomas (2026)

Quão precisa é a transcrição por IA? Resultados de WER em mais de 50 idiomas (2026)

A precisão da transcrição por IA varia muito de acordo com o idioma. Testamos Whisper, NVIDIA Canary e outros 5 modelos contra mais de 50 idiomas. Veja quais modelos são utilizáveis para japonês, árabe, vietnamita e o seu idioma alvo.

16 de abr. de 2026·14 min de leitura·
accuracywermultilingualbenchmarks

A precisão da transcrição varia drasticamente de acordo com o idioma. Em áudio limpo em 2026, os melhores sistemas de reconhecimento automático de fala (ASR) atingem taxas de erro por palavra abaixo de 5% em inglês, espanhol e mandarim, entre 7-12% em idiomas de recursos intermediários como polonês, coreano e vietnamita, e 20-40% ou pior em muitos idiomas de baixos recursos como amárico, iorubá ou cingalês. A diferença de precisão se resume ao volume de dados de treinamento, à complexidade fonética e à diversidade de dialetos que cada modelo viu.

Este guia compila benchmarks de WER publicados do Whisper, NVIDIA Canary, Google USM e do Hugging Face Open ASR Leaderboard, organizados por nível de idioma. Se você está avaliando uma ferramenta de transcrição para um idioma específico, ou tentando entender por que seu áudio em alemão é transcrito impecavelmente mas seu áudio em tailandês não, os dados abaixo explicam a diferença.

TL;DR: níveis de precisão em um relance

NívelFaixa de WERIdiomas (representativos)O que esperar
Nível 12-6% WERInglês, mandarim, espanhol, francês, alemão, japonês, italiano, portuguêsPrecisão próxima à humana em áudio limpo
Nível 26-12% WERCoreano, holandês, russo, árabe, turco, polonês, catalão, suecoQualidade de produção, edições menores necessárias
Nível 312-20% WERVietnamita, hindi, tailandês, grego, romeno, ucraniano, hebraico, indonésioUtilizável, espere limpeza manual significativa
Nível 420-40% WERTâmil, bengali, suaíli, filipino, malaio, urdu, nepalêsQualidade de rascunho, revisão humana obrigatória
Nível 5>40% WERAmárico, iorubá, cingalês, khmer, laosiano, birmanês, maltêsExperimental, muitas vezes inutilizável sem pós-edição pesada

Fontes: Artigo do OpenAI Whisper (2022), benchmark FLEURS (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Como os benchmarks de WER são medidos

Todo número neste post vem de uma das três suítes públicas de benchmark. Entender o que cada uma testa evita o erro comum de comparar uma nota de laboratório com desempenho em situações reais.

LibriSpeech (apenas inglês) usa gravações limpas de audiolivros. É o benchmark mais fácil contra o qual a maioria dos modelos é testada, então seus números são o piso do que um modelo pode fazer em condições ideais. O WER estado-da-arte em inglês no LibriSpeech test-clean fica em torno de 1,4-2,7%.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) cobre 102 idiomas com cerca de 12 horas de fala por idioma. Usa as mesmas frases em todos os idiomas (traduções de conteúdo da Wikipédia), o que torna a comparação entre idiomas significativa. O FLEURS é o benchmark multilíngue mais amplamente citado.

Common Voice (Mozilla) contém gravações de crowdsourcing em mais de 100 idiomas. É mais ruidoso que o FLEURS porque os falantes são não profissionais em ambientes variados, então o WER do Common Voice é tipicamente 2-5 pontos maior que o do FLEURS no mesmo idioma.

Áudio do mundo real, com sotaques, falantes sobrepostos, ruído de fundo e equipamentos de gravação imperfeitos, adiciona outros 5-15 pontos de WER em cima dos números de benchmark. Um modelo que reporta 5% de WER no FLEURS pode entregar 10-15% em uma gravação típica de Zoom.

Nível 1: precisão muito alta (2-6% WER)

Esses idiomas têm os maiores corpora de treinamento (dezenas de milhares de horas de áudio rotulado) e a maior atenção dos desenvolvedores de modelos. Espere transcrições prontas para produção em áudio limpo com edição mínima.

IdiomaWER Whisper large-v3 FLEURSWER NVIDIA Canary (quando disponível)Observações
Inglês4,2%6,5% (Canary-1B Common Voice)Idioma de referência, a maioria dos benchmarks foca aqui
Espanhol3,0%4,6%Especialmente forte em variantes latino-americanas
Chinês mandarim5,7% (CER)--Medido em taxa de erro por caractere, não WER
Francês4,7%6,0%Francês europeu domina os dados de treinamento
Alemão4,5%4,8%Forte em alemão padrão; dialetos suíço/austríaco degradam
Italiano4,0%4,2%Entre os idiomas europeus mais bem cobertos
Português3,9%3,6%Português brasileiro é a maioria nos dados de treinamento
Japonês4,9% (CER)--Métrica em nível de caractere; qualidade de sentença é excelente

Idiomas do Nível 1 se beneficiam da pressão de aplicações comerciais: dublagem, closed captioning e busca impulsionaram a criação de datasets por décadas. Se você está transcrevendo em qualquer um deles, a escolha do modelo importa menos que a qualidade do áudio que você fornece.

Nível 2: alta precisão (6-12% WER)

Esses idiomas têm dados de treinamento significativos, mas menor volume que o Nível 1 ou maior complexidade fonética. A maioria dos casos de uso em produção funciona bem, mas espere corrigir ocasionalmente nomes próprios e termos técnicos mal reconhecidos.

IdiomaWER Whisper large-v3 FLEURSObservações
Coreano7,0% (CER)Nível de caractere; precisão de sentença geralmente é alta
Holandês6,1%Se beneficia da proximidade com dados de treinamento de alemão e inglês
Russo8,8%Bom em russo padrão; sotaques regionais degradam
Árabe9,5% (moderno padrão)Árabe dialetal (egípcio, levantino, do Golfo) é muito mais difícil
Turco9,6%Morfologia aglutinante adiciona complexidade
Polonês8,6%Idioma eslavo bem coberto
Catalão5,1%Supera seu contingente de falantes graças a datasets dedicados
Sueco7,0%Forte para um idioma menor; corpora nórdicos são bem curados
Norueguês9,0%Dois padrões escritos (Bokmål/Nynorsk) complicam a avaliação
Ucraniano10,2%Melhora significativa pós-2022 devido ao crescimento de datasets
Dinamarquês9,6%Fonética difícil, mas bem representada

Para idiomas do Nível 2, a escolha do modelo começa a importar. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendem a trocar de liderança dependendo do idioma específico, então vale a pena verificar comparações específicas de benchmark antes de padronizar um pipeline.

Nível 3: precisão média (12-20% WER)

Esses idiomas são onde a transcrição por IA se torna visivelmente imperfeita. As transcrições ainda são úteis como primeiro rascunho, mas espere corrigir vários erros por minuto de áudio, especialmente em torno de entidades nomeadas, números e partículas de discurso.

IdiomaWER Whisper large-v3 FLEURSObservações
Vietnamita13,6%Tonal; erros de tom são comuns
Hindi13,8%Forte variância entre sotaques e code-switching com inglês
Tailandês13,3% (CER)Sem espaços entre palavras complica a tokenização
Grego13,5%Corpus de treinamento menor que outros idiomas europeus
Romeno14,9%Melhorando rapidamente à medida que datasets crescem
Hebraico15,9%Escrita da direita para a esquerda, morfologia rica
Indonésio13,4%Forte para seu nível de recursos
Croata17,7%Características compartilhadas com outros idiomas eslavos do sul ajudam
Sérvio15,7%Escritas cirílica e latina suportadas
Tcheco13,5%Sólido apesar da complexidade morfológica
Búlgaro15,6%Idioma eslavo com nível moderado de recursos

Code-switching -- quando falantes alternam entre dois idiomas em uma única enunciação -- tende a afetar idiomas do Nível 3 mais fortemente que do Nível 1 porque os dados de treinamento têm menos probabilidade de incluir o par de idiomas específico.

Nível 4: precisão menor (20-40% WER)

Idiomas deste nível frequentemente têm centenas de milhões de falantes, mas dados de treinamento rotulados limitados. A transcrição produz um rascunho bruto mais rápido de editar do que começar do zero, mas requer revisão humana substancial.

IdiomaWER Whisper large-v3 FLEURSObservações
Tâmil29,4%Idioma dravídico com morfologia complexa
Bengali28,8%Grande base de falantes mas sub-representado no treinamento
Telugu32,8%Desafios similares ao tâmil
Suaíli34,2%Língua franca do leste africano, tamanho crescente de dataset
Filipino (tagalo)22,4%Code-switching intenso com inglês é comum na fala natural
Malaio21,3%Características compartilhadas com indonésio ajudam
Urdu26,3%Relacionado ao hindi mas escrito em alfabeto perso-arábico
Nepalês30,0%Corpus de treinamento pequeno
Punjabi29,1%Code-switching punjabi-inglês é comum
Canará33,5%Família dravídica
Marata30,7%Idioma indo-ariano com recursos moderados

Para idiomas do Nível 4, fluxos de trabalho híbridos onde a IA produz o primeiro rascunho e um editor nativo faz a limpeza são tipicamente a opção de maior throughput. Transcrição puramente humana ainda é mais rápida do que corrigir saída de IA altamente distorcida em muitos casos.

Nível 5: baixos recursos e experimental (>40% WER)

Esses idiomas ou têm dados rotulados muito limitados, distância fonética significativa de qualquer idioma em que o modelo foi treinado, ou ambos. A transcrição nesses idiomas é utilizável para indexação de conteúdo e busca, mas não para texto publicável.

Exemplos incluem amárico (Etiópia, ~42% WER), iorubá (Nigéria, ~43% WER), cingalês (Sri Lanka, ~48% WER), khmer (Camboja, ~50% WER), laosiano (Laos, ~52% WER), birmanês (~55% WER) e maltês (~45% WER). Os números variam significativamente entre modelos e benchmarks. A lacuna está se fechando à medida que os datasets comunitários crescem, mas para casos de uso em produção nesses idiomas, provedores especializados que investiram em dados específicos do idioma tipicamente superam modelos de propósito geral em 5-15 pontos de WER.

O que impulsiona a diferença de precisão

Três fatores explicam a maior parte da variância em WER entre os idiomas.

Volume de dados de treinamento é o preditor individual mais forte. O Whisper foi treinado em 680.000 horas de áudio, mas 65% disso era inglês. Idiomas de recursos maiores recebem dezenas de milhares de horas; os idiomas de menores recursos recebem algumas centenas. Cada duplicação de dados de treinamento aproximadamente reduz pela metade o WER restante até que os retornos decrescentes apareçam.

Complexidade fonética e morfológica cria efeitos de teto mesmo com dados abundantes. Idiomas tonais (mandarim, vietnamita, tailandês, iorubá) forçam o modelo a distinguir palavras foneticamente similares pelo contorno do tom. Idiomas aglutinantes (turco, finlandês, suaíli) constroem palavras longas a partir de muitos morfemas, que interagem com a tokenização. Escritas da direita para a esquerda (árabe, hebraico) e sistemas de escrita logográficos (chinês, japonês) mudam a métrica de WER para taxa de erro por caractere e mudam o que conta como substituição.

Correspondência de domínio de áudio importa tanto quanto o idioma. Um modelo treinado principalmente em áudio de audiolivros lidos em voz alta terá desempenho inferior em conversas espontâneas no mesmo idioma. Para casos de uso de transcrição empresarial (reuniões, entrevistas, podcasts), a escolha do modelo deve ser informada por se o provedor faz fine-tuning em áudio conversacional ou de broadcast em vez de apenas monólogo limpo.

Como melhorar a precisão para idiomas de níveis mais baixos

Existem passos práticos que reduzem significativamente o WER para qualquer idioma, embora o impacto seja maior quando a linha de base é mais alta.

Melhore o áudio antes de transcrever. Redução de ruído, isolamento de falantes e níveis de gravação consistentes podem cortar o WER em 2-5 pontos em áudio do mundo real. Este guia de qualidade de áudio cobre os ganhos mais rápidos.

Forneça contexto de domínio. Muitas APIs de transcrição aceitam uma lista de termos técnicos, nomes próprios ou frases que provavelmente aparecerão no áudio. Esses vocabulários enviesados reduzem erros de substituição para jargões do setor e entidades nomeadas em 10-30% quando configurados corretamente.

Escolha o modelo certo por idioma. O Whisper lidera em alguns idiomas, o NVIDIA Canary em outros e provedores específicos de idioma em alguns (particularmente japonês, coreano e árabe). Se um idioma específico é crítico para seu fluxo de trabalho, testar 2-3 provedores em uma amostra representativa vale a hora investida.

Use um editor humano para a última milha. Para Nível 3 e abaixo, um editor falante nativo revisando uma transcrição de IA é aproximadamente 5-8x mais rápido do que transcrever do zero, e a precisão final fica acima de 98%.

Plataformas como o Vocova suportam transcrição em mais de 100 idiomas com detecção automática de idioma, o que remove o atrito de escolher o modelo certo por idioma. A detecção acontece antes do início da transcrição, então você não precisa rotular os arquivos de áudio por idioma com antecedência.

Perguntas frequentes

Qual idioma tem a transcrição mais precisa?

O inglês tem a transcrição por IA mais precisa em 2026, com modelos estado-da-arte alcançando 1,4-2,7% de WER em áudio limpo do LibriSpeech e cerca de 4% de WER em fala espontânea do mundo real. Espanhol, mandarim, francês, alemão, italiano e português vêm logo atrás na faixa de 3-6% de WER.

Qual a precisão do Whisper entre os idiomas?

O Whisper large-v3 atinge WER abaixo de 10% em aproximadamente 30 idiomas no benchmark FLEURS, incluindo todos os idiomas do Nível 1 e a maioria do Nível 2 deste guia. Sua precisão degrada acentuadamente abaixo desse nível, com alguns idiomas de baixos recursos excedendo 50% de WER.

Que WER é considerado "bom"?

Para a maioria das aplicações empresariais, um WER abaixo de 10% produz uma transcrição mais rápida de ler e editar do que o áudio original. Abaixo de 5% é geralmente considerado precisão próxima à humana. Acima de 20% requer correção manual significativa para ser utilizável como texto publicado.

Por que minha transcrição em alemão é mais precisa que minha transcrição em tailandês?

O alemão é um idioma de Nível 1 com dezenas de milhares de horas de dados de treinamento, características fonéticas compartilhadas com o inglês (que tem o maior dataset) e ampla adoção em transcrição comercial. O tailandês é um idioma tonal, sem espaços entre palavras, com dados de treinamento rotulados significativamente menores. Mesmo os melhores modelos têm uma lacuna de WER de 7-10 pontos entre os dois.

Posso melhorar a precisão da transcrição para meu idioma específico?

Sim. Melhorias na qualidade de áudio, vocabulários personalizados e dados de treinamento específicos por falante podem reduzir o WER em 5-15% na maioria dos idiomas. Para Nível 3 e abaixo, usar um fluxo de trabalho híbrido IA + editor humano produz precisão final acima de 98% a uma fração do custo da transcrição puramente humana.

Os benchmarks de transcrição do FLEURS e Common Voice são comparáveis ao áudio do mundo real?

Não diretamente. O áudio de benchmark é tipicamente mais limpo, lido em vez de espontâneo, e gravado com equipamento profissional. Áudio do mundo real (reuniões, chamadas telefônicas, entrevistas de rua) tipicamente produz 5-15 pontos a mais de WER do que áudio de benchmark para o mesmo idioma e modelo.

Resumo

A precisão da transcrição por IA em 2026 é uma função do nível do idioma, qualidade do áudio e adequação modelo-tarefa. Idiomas do Nível 1 entregam precisão próxima à humana em áudio limpo; o Nível 3 requer edição; o Nível 5 é experimental. A lacuna entre o desempenho médio e o melhor em áudio do mundo real se ampliou à medida que os modelos de topo melhoraram mais rápido que os de nível médio, tornando a seleção de ferramenta mais consequente do que era há três anos.

Se você está construindo ou escolhendo um pipeline de transcrição, a coisa mais útil que pode fazer é testar seu idioma específico e domínio de áudio em 2-3 amostras representativas antes de se comprometer. Benchmarks são um ponto de partida, não uma decisão.

Fontes e leitura adicional

  • OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (artigo do Whisper, 2022)
  • Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
  • Hugging Face Open ASR Leaderboard
  • NVIDIA, ficha do modelo Canary-1B-v2
  • Datasets Mozilla Common Voice
  • Vocova sobre transcrição multilíngue

Artigos relacionados

Ler mais
10 de fev. de 2026·14 min

O que é a taxa de erro por palavra (WER)? A métrica que mede a precisão da transcrição

Ler mais
6 de mai. de 2026·13 min

Como transcrever áudio em vários idiomas: guia de fluxo de trabalho 2026

Ler mais
25 de fev. de 2026·14 min

Como a IA está transformando a comunicação multilíngue

Produto

  • Preços
  • Blog
  • Ver todas as ferramentas

Soluções

  • Para podcasters
  • Para criadores de vídeo
  • Entrevistas multilíngues

Empresa

  • Sobre
  • FAQ
  • Termos de uso
  • Política de privacidade
  • Contato

Transcrição

  • Áudio para texto
  • Vídeo para texto
  • Transcrição de podcasts
  • Transcrição de entrevistas
  • Transcrição de aulas

Plataforma

  • Transcrição do YouTube
  • Transcrição de Apple Podcasts
  • Transcrição do Zoom
  • Transcrição de Google Meet
  • Transcrição de TikTok
  • Transcrição de Loom
  • Transcrição do Bilibili
  • Transcrição de Vimeo
  • Transcrição do Instagram
  • Transcrição do Facebook
  • Transcrição do X (Twitter)
  • Transcrição do SoundCloud
  • Transcrição do Reddit
  • Transcrição do Dailymotion

Idioma

  • Transcrição em japonês
  • Transcrição de espanhol
  • Transcrição em francês
  • Transcrição em alemão
  • Transcrição em português
  • Transcrição em coreano
  • Transcrição em chinês
  • Transcrição em árabe
  • Transcrição de hindi
  • Transcrição de italiano
  • Transcrição em russo
  • Transcrição em tailandês
  • Transcrição em vietnamita
  • Transcrição em turco
  • Transcrição em indonésio
  • Transcrição em holandês
  • Transcrição de polonês
  • Transcrição em sueco
  • Transcrição em cantonês
  • Transcrição em tagalo

Tradução

  • Tradução de áudio
  • Legendas bilíngues
  • Tradução de vídeo
  • Japonês para inglês
  • Chinês para inglês
  • Espanhol para inglês
  • Coreano para inglês
  • Francês para inglês

Formato

  • MP4 para texto
  • MP3 para texto
  • WAV para texto
  • M4A para texto
  • MOV para texto
  • Gerador de SRT
  • Gerador de VTT
  • Gerador de legendas

Conversor

  • Conversor de áudio
  • Conversor de vídeo
  • MP4 para MP3

Resumir

  • Resumidor de podcast
  • Resumidor do YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt