Precisión de transcripción por idioma: benchmarks WER para más de 50 idiomas (2026)
¿Qué tan precisa es la transcripción con IA en tu idioma? Compara los benchmarks de tasa de error por palabra (WER) para más de 50 idiomas en Whisper, NVIDIA Canary y otros modelos ASR líderes en 2026.
La precisión de transcripción varía drásticamente según el idioma. Con audio limpio en 2026, los mejores sistemas de reconocimiento automático de voz (ASR) logran tasas de error por palabra por debajo del 5% en inglés, español y mandarín, entre el 7-12% en idiomas de recursos medios como polaco, coreano y vietnamita, y del 20-40% o peor en muchos idiomas de bajos recursos como amárico, yoruba o cingalés. La brecha de precisión se reduce al volumen de datos de entrenamiento, la complejidad fonética y la diversidad de dialectos que ha visto cada modelo.
Esta guía recopila los benchmarks WER publicados de Whisper, NVIDIA Canary, Google USM y el Hugging Face Open ASR Leaderboard, organizados por nivel de idioma. Si estás evaluando una herramienta de transcripción para un idioma específico, o intentando entender por qué tu audio en alemán se transcribe perfectamente pero tu audio en tailandés no, los datos a continuación explican la diferencia.
TL;DR: niveles de precisión de un vistazo
| Nivel | Rango WER | Idiomas (representativos) | Qué esperar |
|---|---|---|---|
| Nivel 1 | 2-6% WER | Inglés, mandarín, español, francés, alemán, japonés, italiano, portugués | Precisión casi humana en audio limpio |
| Nivel 2 | 6-12% WER | Coreano, neerlandés, ruso, árabe, turco, polaco, catalán, sueco | Calidad de producción, se necesitan ediciones menores |
| Nivel 3 | 12-20% WER | Vietnamita, hindi, tailandés, griego, rumano, ucraniano, hebreo, indonesio | Utilizable, se espera una limpieza manual significativa |
| Nivel 4 | 20-40% WER | Tamil, bengalí, suajili, filipino, malayo, urdu, nepalí | Calidad de borrador, se requiere revisión humana |
| Nivel 5 | >40% WER | Amárico, yoruba, cingalés, jemer, lao, birmano, maltés | Experimental, a menudo inutilizable sin una posedición intensa |
Fuentes: Artículo de OpenAI Whisper (2022), Benchmark FLEURS (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
Cómo se miden los benchmarks WER
Cada cifra de este artículo proviene de una de tres suites de benchmarks públicos. Entender qué evalúa cada una evita el error común de comparar una puntuación de laboratorio con el rendimiento en el mundo real.
LibriSpeech (solo en inglés) utiliza grabaciones limpias de audiolibros. Es el benchmark más fácil contra el que se prueban la mayoría de los modelos, por lo que sus cifras representan el suelo de lo que un modelo puede hacer en condiciones ideales. El WER de vanguardia en inglés en LibriSpeech test-clean está en torno al 1,4-2,7%.
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) cubre 102 idiomas con ~12 horas de habla por idioma. Utiliza las mismas oraciones en todos los idiomas (traducciones de contenido de Wikipedia), lo que hace que la comparación entre idiomas sea significativa. FLEURS es el benchmark multilingüe más citado.
Common Voice (Mozilla) contiene grabaciones colaborativas en más de 100 idiomas. Es más ruidoso que FLEURS porque los hablantes son no profesionales en entornos variados, por lo que el WER de Common Voice suele ser entre 2 y 5 puntos más alto que FLEURS en el mismo idioma.
El audio del mundo real, con acentos, hablantes superpuestos, ruido de fondo y equipos de grabación imperfectos, añade otros 5-15 puntos de WER sobre las cifras de benchmark. Un modelo que reporta un 5% de WER en FLEURS puede ofrecer un 10-15% en una grabación típica de Zoom.
Nivel 1: precisión muy alta (2-6% WER)
Estos idiomas cuentan con los mayores corpus de entrenamiento (decenas de miles de horas de audio etiquetado) y la mayor atención de los desarrolladores de modelos. Espera transcripciones listas para producción en audio limpio con edición mínima.
| Idioma | WER Whisper large-v3 FLEURS | WER NVIDIA Canary (cuando está disponible) | Notas |
|---|---|---|---|
| Inglés | 4,2% | 6,5% (Canary-1B Common Voice) | Idioma de referencia, la mayoría de los benchmarks se centran aquí |
| Español | 3,0% | 4,6% | Especialmente fuerte en variedades latinoamericanas |
| Chino mandarín | 5,7% (CER) | -- | Se mide en tasa de error por carácter, no en WER |
| Francés | 4,7% | 6,0% | El francés europeo domina los datos de entrenamiento |
| Alemán | 4,5% | 4,8% | Fuerte en alemán estándar; los dialectos suizo/austriaco degradan el rendimiento |
| Italiano | 4,0% | 4,2% | Entre los idiomas europeos mejor cubiertos |
| Portugués | 3,9% | 3,6% | El portugués brasileño es mayoritario en los datos de entrenamiento |
| Japonés | 4,9% (CER) | -- | Métrica a nivel de carácter; la calidad de las oraciones es excelente |
Los idiomas de Nivel 1 se benefician de la presión de las aplicaciones comerciales: el doblaje, el subtitulado cerrado y la búsqueda han impulsado la creación de conjuntos de datos durante décadas. Si estás transcribiendo en cualquiera de estos, la elección del modelo importa menos que la calidad del audio que le suministres.
Nivel 2: precisión alta (6-12% WER)
Estos idiomas tienen una cantidad significativa de datos de entrenamiento, pero o bien menos volumen que los de Nivel 1, o bien mayor complejidad fonética. La mayoría de los casos de uso en producción funcionan bien, pero espera corregir ocasionalmente nombres propios y términos técnicos mal interpretados.
| Idioma | WER Whisper large-v3 FLEURS | Notas |
|---|---|---|
| Coreano | 7,0% (CER) | A nivel de carácter; la precisión a nivel de oración suele ser alta |
| Neerlandés | 6,1% | Se beneficia de la proximidad a los datos de entrenamiento de alemán e inglés |
| Ruso | 8,8% | Bueno en ruso estándar; los acentos regionales degradan el rendimiento |
| Árabe | 9,5% (estándar moderno) | El árabe dialectal (egipcio, levantino, del Golfo) es mucho más difícil |
| Turco | 9,6% | La morfología aglutinante añade complejidad |
| Polaco | 8,6% | Idioma eslavo bien cubierto |
| Catalán | 5,1% | Rinde por encima de su número de hablantes gracias a conjuntos de datos dedicados |
| Sueco | 7,0% | Fuerte para un idioma más pequeño; los corpus nórdicos están bien curados |
| Noruego | 9,0% | Dos estándares escritos (bokmål/nynorsk) complican la evaluación |
| Ucraniano | 10,2% | Mejora significativa después de 2022 debido al crecimiento de los conjuntos de datos |
| Danés | 9,6% | Fonética difícil, pero bien representado |
Para los idiomas de Nivel 2, la elección del modelo empieza a importar. Whisper large-v3, NVIDIA Canary-1B-v2 y Google USM tienden a intercambiar el liderazgo según el idioma específico, por lo que vale la pena revisar comparaciones concretas antes de estandarizar una canalización.
Nivel 3: precisión media (12-20% WER)
Estos idiomas son donde la transcripción con IA se vuelve visiblemente imperfecta. Las transcripciones siguen siendo utilizables como primer borrador, pero espera corregir varios errores por minuto de audio, especialmente en torno a entidades nombradas, números y partículas discursivas.
| Idioma | WER Whisper large-v3 FLEURS | Notas |
|---|---|---|
| Vietnamita | 13,6% | Tonal; los errores de tono son comunes |
| Hindi | 13,8% | Fuerte variabilidad según acentos y mezcla de códigos con inglés |
| Tailandés | 13,3% (CER) | La ausencia de espacios entre palabras complica la tokenización |
| Griego | 13,5% | Corpus de entrenamiento más pequeño que otros idiomas europeos |
| Rumano | 14,9% | Mejora rápidamente a medida que crecen los conjuntos de datos |
| Hebreo | 15,9% | Escritura de derecha a izquierda, morfología rica |
| Indonesio | 13,4% | Fuerte para su nivel de recursos |
| Croata | 17,7% | Las características compartidas con otros idiomas eslavos del sur ayudan |
| Serbio | 15,7% | Se admiten las escrituras cirílica y latina |
| Checo | 13,5% | Sólido a pesar de la complejidad morfológica |
| Búlgaro | 15,6% | Idioma eslavo con un nivel de recursos moderado |
La mezcla de códigos -- cuando los hablantes alternan entre dos idiomas en una sola emisión -- tiende a golpear más fuerte a los idiomas de Nivel 3 que a los de Nivel 1, porque los datos de entrenamiento tienen menos probabilidades de incluir el par de idiomas específico.
Nivel 4: precisión más baja (20-40% WER)
Los idiomas de este nivel suelen tener cientos de millones de hablantes, pero datos de entrenamiento etiquetados limitados. La transcripción produce un borrador aproximado que es más rápido de editar que empezar desde cero, pero requiere una revisión humana sustancial.
| Idioma | WER Whisper large-v3 FLEURS | Notas |
|---|---|---|
| Tamil | 29,4% | Idioma drávida con morfología compleja |
| Bengalí | 28,8% | Gran base de hablantes, pero infrarrepresentado en el entrenamiento |
| Telugu | 32,8% | Desafíos similares al tamil |
| Suajili | 34,2% | Lingua franca de África Oriental, con un conjunto de datos en crecimiento |
| Filipino (tagalo) | 22,4% | La fuerte mezcla de códigos con inglés es común en el habla natural |
| Malayo | 21,3% | Las características compartidas con el indonesio ayudan |
| Urdu | 26,3% | Relacionado con el hindi, pero escrito en escritura perso-árabe |
| Nepalí | 30,0% | Corpus de entrenamiento pequeño |
| Panyabí | 29,1% | La mezcla de códigos panyabí-inglés es común |
| Canarés | 33,5% | Familia drávida |
| Maratí | 30,7% | Idioma indoario con recursos moderados |
Para los idiomas de Nivel 4, los flujos de trabajo híbridos en los que la IA produce el primer borrador y un editor hablante nativo lo limpia suelen ser la opción de mayor rendimiento. La transcripción puramente humana sigue siendo más rápida que corregir un resultado de IA muy distorsionado en muchos casos.
Nivel 5: bajos recursos y experimental (>40% WER)
Estos idiomas tienen datos etiquetados muy limitados, una distancia fonética significativa con respecto a cualquier idioma en el que se haya entrenado el modelo, o ambas cosas. La transcripción en estos idiomas es utilizable para la indexación de contenido y la búsqueda, pero no para texto publicable.
Los ejemplos incluyen amárico (Etiopía, ~42% WER), yoruba (Nigeria, ~43% WER), cingalés (Sri Lanka, ~48% WER), jemer (Camboya, ~50% WER), lao (Laos, ~52% WER), birmano (~55% WER) y maltés (~45% WER). Las cifras varían significativamente entre modelos y benchmarks. La brecha se está reduciendo a medida que crecen los conjuntos de datos comunitarios, pero para los casos de uso en producción en estos idiomas, los proveedores especializados que han invertido en datos específicos del idioma suelen superar a los modelos de propósito general en 5-15 puntos de WER.
Qué impulsa la brecha de precisión
Tres factores explican la mayor parte de la varianza del WER entre idiomas.
El volumen de datos de entrenamiento es el predictor individual más fuerte. Whisper fue entrenado con 680.000 horas de audio, pero el 65% era en inglés. Los idiomas con más recursos obtienen decenas de miles de horas; los de menos recursos, unas pocas cientos. Cada duplicación de los datos de entrenamiento aproximadamente reduce a la mitad el WER restante hasta que aparecen rendimientos decrecientes.
La complejidad fonética y morfológica crea efectos techo incluso con datos abundantes. Los idiomas tonales (mandarín, vietnamita, tailandés, yoruba) obligan al modelo a distinguir palabras fonéticamente similares por el contorno del tono. Los idiomas aglutinantes (turco, finlandés, suajili) construyen palabras largas a partir de muchos morfemas, lo que interactúa con la tokenización. Las escrituras de derecha a izquierda (árabe, hebreo) y los sistemas de escritura logográficos (chino, japonés) cambian la métrica de WER a tasa de error por carácter y modifican lo que cuenta como una sustitución.
La coincidencia del dominio de audio importa tanto como el idioma. Un modelo entrenado principalmente con datos de audiolibros leídos rendirá peor en conversaciones espontáneas en el mismo idioma. Para los casos de uso de transcripción empresarial (reuniones, entrevistas, pódcasts), la elección del modelo debe basarse en si el proveedor ajusta fino en audio conversacional o de difusión, en lugar de solo monólogos limpios.
Cómo mejorar la precisión para los idiomas de niveles más bajos
Hay pasos prácticos que reducen significativamente el WER para cualquier idioma, aunque el impacto es mayor cuando el punto de partida es más alto.
Mejora el audio antes de transcribir. La reducción de ruido, el aislamiento del hablante y los niveles de grabación consistentes pueden reducir el WER entre 2 y 5 puntos en audio del mundo real. Esta guía de calidad de audio cubre las ganancias más rápidas.
Proporciona contexto del dominio. Muchas API de transcripción aceptan una lista de términos técnicos, nombres propios o frases que probablemente aparezcan en el audio. Estos vocabularios sesgados reducen los errores de sustitución para la jerga de la industria y las entidades nombradas entre un 10-30% cuando se configuran correctamente.
Elige el modelo adecuado para cada idioma. Whisper lidera en algunos idiomas, NVIDIA Canary en otros, y los proveedores específicos de idioma en unos pocos (particularmente japonés, coreano y árabe). Si un idioma específico es crítico para tu flujo de trabajo, probar 2-3 proveedores con una muestra representativa vale la hora invertida.
Usa un editor humano para la última milla. Para Nivel 3 y por debajo, un editor hablante nativo que revise una transcripción de IA es aproximadamente 5-8 veces más rápido que transcribir desde cero, y la precisión final supera el 98%.
Plataformas como Vocova admiten transcripción en más de 100 idiomas con detección automática de idioma, lo que elimina la fricción de elegir el modelo adecuado por idioma. La detección ocurre antes de que comience la transcripción, por lo que no necesitas etiquetar los archivos de audio por idioma de antemano.
Preguntas frecuentes
¿Qué idioma tiene la transcripción más precisa?
El inglés tiene la transcripción con IA más precisa en 2026, con modelos de vanguardia que alcanzan un WER del 1,4-2,7% en audio limpio de LibriSpeech y alrededor del 4% de WER en habla espontánea del mundo real. El español, mandarín, francés, alemán, italiano y portugués siguen de cerca en el rango del 3-6% de WER.
¿Qué tan preciso es Whisper entre idiomas?
Whisper large-v3 logra un WER inferior al 10% en aproximadamente 30 idiomas en el benchmark FLEURS, incluyendo todos los de Nivel 1 y la mayoría de los de Nivel 2 de esta guía. Su precisión se degrada bruscamente por debajo de ese nivel, y algunos idiomas de bajos recursos superan el 50% de WER.
¿Qué WER se considera "bueno"?
Para la mayoría de las aplicaciones empresariales, un WER por debajo del 10% produce una transcripción más rápida de leer y editar que el audio original. Por debajo del 5% se considera generalmente precisión casi humana. Por encima del 20% requiere una corrección manual significativa para ser utilizable como texto publicado.
¿Por qué mi transcripción en alemán es más precisa que la de tailandés?
El alemán es un idioma de Nivel 1 con decenas de miles de horas de datos de entrenamiento, características fonéticas compartidas con el inglés (que tiene el mayor conjunto de datos) y amplia adopción en la transcripción comercial. El tailandés es un idioma tonal, sin espacios, con significativamente menos datos de entrenamiento etiquetados. Incluso los mejores modelos tienen una brecha de WER de 7-10 puntos entre ambos.
¿Puedo mejorar la precisión de la transcripción para mi idioma específico?
Sí. Las mejoras en la calidad del audio, los vocabularios personalizados y los datos de entrenamiento específicos del hablante pueden reducir el WER entre un 5-15% en la mayoría de los idiomas. Para Nivel 3 y por debajo, el uso de un flujo de trabajo híbrido IA + editor humano produce una precisión final superior al 98% a una fracción del coste de la transcripción puramente humana.
¿Los benchmarks de transcripción de FLEURS y Common Voice son comparables al audio del mundo real?
No directamente. El audio de benchmark suele ser más limpio, leído en lugar de espontáneo, y grabado con equipos profesionales. El audio del mundo real (reuniones, llamadas telefónicas, entrevistas en la calle) normalmente produce entre 5 y 15 puntos más de WER que el audio de benchmark para el mismo idioma y modelo.
Resumen
La precisión de la transcripción con IA en 2026 es una función del nivel de idioma, la calidad del audio y la adecuación modelo-tarea. Los idiomas de Nivel 1 ofrecen precisión casi humana en audio limpio; los de Nivel 3 requieren edición; los de Nivel 5 son experimentales. La brecha entre el mejor rendimiento y el rendimiento promedio en audio del mundo real se ha ampliado a medida que los mejores modelos han mejorado más rápido que los de nivel medio, lo que hace que la selección de herramientas sea más consecuente que hace tres años.
Si estás construyendo o eligiendo una canalización de transcripción, lo más útil que puedes hacer es probar tu idioma específico y dominio de audio con 2-3 muestras representativas antes de comprometerte. Los benchmarks son un punto de partida, no una decisión.
Fuentes y lecturas adicionales
- OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (artículo de Whisper, 2022)
- Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, ficha del modelo Canary-1B-v2
- Conjuntos de datos de Mozilla Common Voice
- Vocova sobre transcripción multilingüe
