Quelle est la précision de la transcription IA ? Résultats WER pour plus de 50 langues (2026)

La précision de la transcription varie considérablement selon la langue. Sur de l'audio propre en 2026, les meilleurs systèmes de reconnaissance automatique de la parole (ASR) atteignent des taux d'erreur par mot inférieurs à 5 % en anglais, espagnol et mandarin, entre 7 et 12 % dans les langues de ressources intermédiaires comme le polonais, le coréen et le vietnamien, et 20 à 40 % voire plus dans de nombreuses langues à faibles ressources telles que l'amharique, le yoruba ou le cinghalais. L'écart de précision s'explique par le volume de données d'entraînement, la complexité phonétique et la diversité des dialectes auxquels chaque modèle a été exposé.

Ce guide compile les benchmarks WER publiés par Whisper, NVIDIA Canary, Google USM et le Hugging Face Open ASR Leaderboard, organisés par paliers de langue. Si vous évaluez un outil de transcription pour une langue spécifique, ou que vous essayez de comprendre pourquoi votre audio allemand se transcrit parfaitement mais pas votre audio thaï, les données ci-dessous expliquent l'écart.

TL;DR : les paliers de précision en un coup d'œil

Palier	Plage WER	Langues (représentatives)	À quoi s'attendre
Palier 1	2-6 % WER	anglais, mandarin, espagnol, français, allemand, japonais, italien, portugais	Précision quasi humaine sur audio propre
Palier 2	6-12 % WER	coréen, néerlandais, russe, arabe, turc, polonais, catalan, suédois	Qualité production, corrections mineures requises
Palier 3	12-20 % WER	vietnamien, hindi, thaï, grec, roumain, ukrainien, hébreu, indonésien	Exploitable, attendez-vous à un nettoyage manuel significatif
Palier 4	20-40 % WER	tamoul, bengali, swahili, philippin, malais, ourdou, népalais	Qualité premier jet, révision humaine requise
Palier 5	>40 % WER	amharique, yoruba, cinghalais, khmer, lao, birman, maltais	Expérimental, souvent inutilisable sans lourde post-édition

Sources : OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Comment sont mesurés les benchmarks WER

Chaque chiffre de cet article provient de l'une des trois suites de benchmarks publiques. Comprendre ce que chacune teste évite l'erreur courante de comparer un score de laboratoire à la performance en conditions réelles.

LibriSpeech (anglais uniquement) utilise des enregistrements propres de livres audio. C'est le benchmark le plus facile contre lequel la plupart des modèles se mesurent, ses chiffres représentent donc le plancher de ce qu'un modèle peut accomplir dans des conditions idéales. Le WER de pointe en anglais sur LibriSpeech test-clean est d'environ 1,4 à 2,7 %.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) couvre 102 langues avec environ 12 heures de parole par langue. Il utilise les mêmes phrases dans toutes les langues (traductions de contenu Wikipédia), ce qui rend la comparaison inter-langues pertinente. FLEURS est le benchmark multilingue le plus largement cité.

Common Voice (Mozilla) contient des enregistrements collaboratifs dans plus de 100 langues. Il est plus bruité que FLEURS car les locuteurs sont des non-professionnels dans des environnements variés, donc le WER de Common Voice est généralement 2 à 5 points plus élevé que celui de FLEURS sur la même langue.

L'audio en conditions réelles, avec accents, locuteurs qui se chevauchent, bruit de fond et matériel d'enregistrement imparfait, ajoute 5 à 15 points de WER supplémentaires aux chiffres des benchmarks. Un modèle affichant 5 % de WER sur FLEURS peut livrer 10 à 15 % sur un enregistrement Zoom typique.

Palier 1 : précision très élevée (2-6 % WER)

Ces langues disposent des plus grands corpus d'entraînement (dizaines de milliers d'heures d'audio annoté) et de la plus grande attention de la part des développeurs de modèles. Attendez-vous à des transcriptions prêtes pour la production sur audio propre avec une édition minimale.

Langue	Whisper large-v3 FLEURS WER	NVIDIA Canary WER (si disponible)	Notes
Anglais	4,2 %	6,5 % (Canary-1B Common Voice)	Langue de référence, la plupart des benchmarks se concentrent ici
Espagnol	3,0 %	4,6 %	Particulièrement solide sur les variétés latino-américaines
Chinois mandarin	5,7 % (CER)	--	Mesuré en taux d'erreur par caractère, pas en WER
Français	4,7 %	6,0 %	Le français européen domine les données d'entraînement
Allemand	4,5 %	4,8 %	Solide sur l'allemand standard ; les dialectes suisses/autrichiens dégradent
Italien	4,0 %	4,2 %	Parmi les langues européennes les mieux couvertes
Portugais	3,9 %	3,6 %	Le portugais brésilien est majoritaire dans les données d'entraînement
Japonais	4,9 % (CER)	--	Métrique au niveau du caractère ; qualité des phrases excellente

Les langues du Palier 1 bénéficient de la pression des applications commerciales : doublage, sous-titrage codé et recherche ont alimenté la création de jeux de données pendant des décennies. Si vous transcrivez dans l'une d'entre elles, le choix du modèle importe moins que la qualité audio que vous lui fournissez.

Palier 2 : précision élevée (6-12 % WER)

Ces langues disposent de données d'entraînement significatives mais d'un volume moindre que le Palier 1 ou d'une plus grande complexité phonétique. La plupart des cas d'usage de production fonctionnent bien, mais attendez-vous à corriger occasionnellement des noms propres mal entendus et des termes techniques.

Langue	Whisper large-v3 FLEURS WER	Notes
Coréen	7,0 % (CER)	Niveau caractère ; la précision au niveau de la phrase est généralement élevée
Néerlandais	6,1 %	Bénéficie de la proximité avec les données d'entraînement allemandes et anglaises
Russe	8,8 %	Bon sur le russe standard ; les accents régionaux dégradent
Arabe	9,5 % (standard moderne)	L'arabe dialectal (égyptien, levantin, du Golfe) est beaucoup plus difficile
Turc	9,6 %	La morphologie agglutinante ajoute de la complexité
Polonais	8,6 %	Langue slave bien couverte
Catalan	5,1 %	Performe au-dessus de son nombre de locuteurs grâce à des jeux de données dédiés
Suédois	7,0 %	Solide pour une langue plus petite ; les corpus nordiques sont bien organisés
Norvégien	9,0 %	Deux standards écrits (Bokmål/Nynorsk) compliquent l'évaluation
Ukrainien	10,2 %	Amélioration significative après 2022 grâce à la croissance des jeux de données
Danois	9,6 %	Phonétique difficile, mais bien représenté

Pour les langues du Palier 2, le choix du modèle commence à compter. Whisper large-v3, NVIDIA Canary-1B-v2 et Google USM ont tendance à se relayer en tête selon la langue spécifique, il vaut donc la peine de vérifier des comparaisons spécifiques aux benchmarks avant de standardiser un pipeline.

Palier 3 : précision moyenne (12-20 % WER)

Ces langues sont celles où la transcription IA devient visiblement imparfaite. Les transcriptions restent exploitables comme premier jet, mais attendez-vous à corriger plusieurs erreurs par minute d'audio, en particulier autour des entités nommées, des chiffres et des particules de discours.

Langue	Whisper large-v3 FLEURS WER	Notes
Vietnamien	13,6 %	Tonale ; les erreurs de ton sont courantes
Hindi	13,8 %	Forte variance selon les accents et alternance codique avec l'anglais
Thaï	13,3 % (CER)	L'absence d'espaces entre les mots complique la tokenisation
Grec	13,5 %	Corpus d'entraînement plus petit que les autres langues européennes
Roumain	14,9 %	S'améliore rapidement à mesure que les jeux de données grandissent
Hébreu	15,9 %	Écriture de droite à gauche, morphologie riche
Indonésien	13,4 %	Solide pour son niveau de ressources
Croate	17,7 %	Les caractéristiques partagées avec d'autres langues slaves du sud aident
Serbe	15,7 %	Écritures cyrillique et latine prises en charge
Tchèque	13,5 %	Solide malgré la complexité morphologique
Bulgare	15,6 %	Langue slave au niveau de ressources modéré

L'alternance codique -- où les locuteurs alternent entre deux langues dans un même énoncé -- tend à pénaliser plus fortement les langues du Palier 3 que celles du Palier 1, car les données d'entraînement sont moins susceptibles d'inclure la paire linguistique spécifique.

Palier 4 : précision inférieure (20-40 % WER)

Les langues de ce palier comptent souvent des centaines de millions de locuteurs mais disposent de données d'entraînement annotées limitées. La transcription produit un premier jet plus rapide à éditer qu'à partir de zéro mais nécessite une révision humaine substantielle.

Langue	Whisper large-v3 FLEURS WER	Notes
Tamoul	29,4 %	Langue dravidienne à morphologie complexe
Bengali	28,8 %	Large base de locuteurs mais sous-représentée dans l'entraînement
Télougou	32,8 %	Défis similaires au tamoul
Swahili	34,2 %	Lingua franca de l'Afrique de l'Est, taille des jeux de données en croissance
Philippin (tagalog)	22,4 %	L'alternance codique intensive avec l'anglais est courante dans la parole naturelle
Malais	21,3 %	Les caractéristiques partagées avec l'indonésien aident
Ourdou	26,3 %	Apparenté au hindi mais écrit en alphabet perso-arabe
Népalais	30,0 %	Petit corpus d'entraînement
Pendjabi	29,1 %	L'alternance codique pendjabi-anglais est courante
Kannada	33,5 %	Famille dravidienne
Marathi	30,7 %	Langue indo-aryenne aux ressources modérées

Pour les langues du Palier 4, les flux de travail hybrides où l'IA produit le premier jet et un éditeur locuteur natif le nettoie constituent généralement l'option au plus haut rendement. La transcription purement humaine reste plus rapide que la correction d'une sortie IA lourdement déformée dans de nombreux cas.

Palier 5 : faibles ressources et expérimental (>40 % WER)

Ces langues ont soit des données annotées très limitées, soit une distance phonétique significative par rapport à toute langue sur laquelle le modèle a été entraîné, soit les deux. La transcription dans ces langues est exploitable pour l'indexation et la recherche de contenu mais pas pour du texte publiable.

Exemples : amharique (Éthiopie, ~42 % WER), yoruba (Nigéria, ~43 % WER), cinghalais (Sri Lanka, ~48 % WER), khmer (Cambodge, ~50 % WER), lao (Laos, ~52 % WER), birman (~55 % WER) et maltais (~45 % WER). Les chiffres varient significativement selon les modèles et les benchmarks. L'écart se réduit à mesure que les jeux de données communautaires se développent, mais pour les cas d'usage de production dans ces langues, les fournisseurs spécialisés ayant investi dans des données propres à la langue surpassent généralement les modèles à usage général de 5 à 15 points de WER.

Ce qui explique l'écart de précision

Trois facteurs expliquent la majeure partie de la variance du WER entre les langues.

Le volume des données d'entraînement est le prédicteur unique le plus puissant. Whisper a été entraîné sur 680 000 heures d'audio, mais 65 % de celles-ci étaient en anglais. Les langues à ressources plus élevées obtiennent des dizaines de milliers d'heures ; les langues à ressources les plus faibles n'en obtiennent que quelques centaines. Chaque doublement des données d'entraînement divise approximativement par deux le WER résiduel jusqu'à l'apparition de rendements décroissants.

La complexité phonétique et morphologique crée des effets de plafond même avec des données abondantes. Les langues tonales (mandarin, vietnamien, thaï, yoruba) forcent le modèle à distinguer des mots phonétiquement similaires par le contour mélodique. Les langues agglutinantes (turc, finnois, swahili) construisent de longs mots à partir de nombreux morphèmes, ce qui interagit avec la tokenisation. Les écritures de droite à gauche (arabe, hébreu) et les systèmes d'écriture logographiques (chinois, japonais) déplacent la métrique du WER vers le taux d'erreur par caractère et modifient ce qui compte comme une substitution.

L'adéquation du domaine audio compte autant que la langue. Un modèle entraîné principalement sur des données de livres audio lus obtiendra de moins bons résultats sur de la conversation spontanée dans la même langue. Pour les cas d'usage de transcription professionnels (réunions, entretiens, podcasts), le choix du modèle doit être éclairé par le fait que le fournisseur affine ou non sur de l'audio conversationnel ou de diffusion, plutôt que seulement sur du monologue propre.

Comment améliorer la précision pour les langues des paliers inférieurs

Il existe des étapes pratiques qui réduisent significativement le WER pour n'importe quelle langue, bien que l'impact soit plus grand lorsque la ligne de base est plus élevée.

Améliorez l'audio avant de transcrire. La réduction du bruit, l'isolation des locuteurs et des niveaux d'enregistrement cohérents peuvent réduire le WER de 2 à 5 points sur de l'audio réel. Ce guide sur la qualité audio couvre les gains les plus rapides.

Fournissez un contexte de domaine. De nombreuses API de transcription acceptent une liste de termes techniques, de noms propres ou de phrases susceptibles d'apparaître dans l'audio. Ces vocabulaires biaisés réduisent les erreurs de substitution pour le jargon sectoriel et les entités nommées de 10 à 30 % lorsqu'ils sont correctement configurés.

Choisissez le bon modèle par langue. Whisper domine sur certaines langues, NVIDIA Canary sur d'autres, et les fournisseurs spécialisés par langue sur quelques-unes (notamment le japonais, le coréen et l'arabe). Si une langue spécifique est critique pour votre flux de travail, tester 2 ou 3 fournisseurs sur un échantillon représentatif vaut l'heure investie.

Utilisez un éditeur humain pour la dernière ligne droite. Pour le Palier 3 et inférieur, un éditeur locuteur natif révisant une transcription IA est environ 5 à 8 fois plus rapide qu'une transcription à partir de zéro, et la précision finale dépasse 98 %.

Des plateformes comme Vocova prennent en charge la transcription dans plus de 100 langues avec détection automatique de la langue, ce qui élimine la friction du choix du bon modèle par langue. La détection a lieu avant le début de la transcription, donc vous n'avez pas besoin d'étiqueter vos fichiers audio par langue à l'avance.

Questions fréquemment posées

Quelle langue bénéficie de la transcription la plus précise ?

L'anglais bénéficie de la transcription IA la plus précise en 2026, avec des modèles de pointe atteignant 1,4 à 2,7 % de WER sur de l'audio propre LibriSpeech et environ 4 % de WER sur de la parole spontanée en conditions réelles. L'espagnol, le mandarin, le français, l'allemand, l'italien et le portugais suivent de près dans la plage 3-6 % de WER.

Quelle est la précision de Whisper selon les langues ?

Whisper large-v3 atteint moins de 10 % de WER sur environ 30 langues au benchmark FLEURS, incluant toutes les langues du Palier 1 et la plupart du Palier 2 de ce guide. Sa précision se dégrade fortement en dessous de ce palier, certaines langues à faibles ressources dépassant 50 % de WER.

Quel WER est considéré comme « bon » ?

Pour la plupart des applications professionnelles, un WER inférieur à 10 % produit une transcription plus rapide à lire et à éditer que l'audio original. En dessous de 5 %, on considère généralement que la précision est quasi humaine. Au-dessus de 20 %, une correction manuelle significative est nécessaire pour être exploitable comme texte publié.

Pourquoi ma transcription allemande est-elle plus précise que ma transcription thaï ?

L'allemand est une langue du Palier 1 avec des dizaines de milliers d'heures de données d'entraînement, des caractéristiques phonétiques partagées avec l'anglais (qui possède le plus grand jeu de données) et une large adoption dans la transcription commerciale. Le thaï est une langue tonale sans espaces avec significativement moins de données d'entraînement annotées. Même les meilleurs modèles présentent un écart de WER de 7 à 10 points entre les deux.

Puis-je améliorer la précision de la transcription pour ma langue spécifique ?

Oui. Les améliorations de la qualité audio, les vocabulaires personnalisés et les données d'entraînement spécifiques aux locuteurs peuvent tous réduire le WER de 5 à 15 % dans la plupart des langues. Pour le Palier 3 et inférieur, l'utilisation d'un flux de travail hybride IA + éditeur humain produit une précision finale supérieure à 98 % à une fraction du coût de la transcription purement humaine.

Les benchmarks de transcription de FLEURS et Common Voice sont-ils comparables à l'audio réel ?

Pas directement. L'audio de benchmark est généralement plus propre, lu plutôt que spontané, et enregistré avec un équipement professionnel. L'audio en conditions réelles (réunions, appels téléphoniques, entretiens de rue) produit généralement 5 à 15 points de WER supplémentaires par rapport à l'audio de benchmark pour la même langue et le même modèle.

Synthèse

La précision de la transcription IA en 2026 est fonction du palier de langue, de la qualité audio et de l'adéquation modèle-tâche. Les langues du Palier 1 offrent une précision quasi humaine sur audio propre ; le Palier 3 nécessite une édition ; le Palier 5 est expérimental. L'écart entre les meilleures performances et la performance moyenne sur de l'audio réel s'est creusé à mesure que les modèles de pointe ont progressé plus rapidement que ceux de milieu de gamme, rendant le choix de l'outil plus conséquent qu'il ne l'était il y a trois ans.

Si vous construisez ou choisissez un pipeline de transcription, la chose la plus utile que vous puissiez faire est de tester votre langue spécifique et votre domaine audio sur 2 ou 3 échantillons représentatifs avant de vous engager. Les benchmarks sont un point de départ, pas une décision.