Précision de la transcription par langue : benchmarks WER pour plus de 50 langues (2026)
Quelle est la précision de la transcription IA dans votre langue ? Comparez les benchmarks de taux d'erreur par mot (WER) pour plus de 50 langues sur Whisper, NVIDIA Canary et d'autres principaux modèles ASR en 2026.
La précision de la transcription varie considérablement selon la langue. Sur de l'audio propre en 2026, les meilleurs systèmes de reconnaissance automatique de la parole (ASR) atteignent des taux d'erreur par mot inférieurs à 5 % en anglais, espagnol et mandarin, entre 7 et 12 % dans les langues de ressources intermédiaires comme le polonais, le coréen et le vietnamien, et 20 à 40 % voire plus dans de nombreuses langues à faibles ressources telles que l'amharique, le yoruba ou le cinghalais. L'écart de précision s'explique par le volume de données d'entraînement, la complexité phonétique et la diversité des dialectes auxquels chaque modèle a été exposé.
Ce guide compile les benchmarks WER publiés par Whisper, NVIDIA Canary, Google USM et le Hugging Face Open ASR Leaderboard, organisés par paliers de langue. Si vous évaluez un outil de transcription pour une langue spécifique, ou que vous essayez de comprendre pourquoi votre audio allemand se transcrit parfaitement mais pas votre audio thaï, les données ci-dessous expliquent l'écart.
TL;DR : les paliers de précision en un coup d'œil
| Palier | Plage WER | Langues (représentatives) | À quoi s'attendre |
|---|---|---|---|
| Palier 1 | 2-6 % WER | anglais, mandarin, espagnol, français, allemand, japonais, italien, portugais | Précision quasi humaine sur audio propre |
| Palier 2 | 6-12 % WER | coréen, néerlandais, russe, arabe, turc, polonais, catalan, suédois | Qualité production, corrections mineures requises |
| Palier 3 | 12-20 % WER | vietnamien, hindi, thaï, grec, roumain, ukrainien, hébreu, indonésien | Exploitable, attendez-vous à un nettoyage manuel significatif |
| Palier 4 | 20-40 % WER | tamoul, bengali, swahili, philippin, malais, ourdou, népalais | Qualité premier jet, révision humaine requise |
| Palier 5 | >40 % WER | amharique, yoruba, cinghalais, khmer, lao, birman, maltais | Expérimental, souvent inutilisable sans lourde post-édition |
Sources : OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
Comment sont mesurés les benchmarks WER
Chaque chiffre de cet article provient de l'une des trois suites de benchmarks publiques. Comprendre ce que chacune teste évite l'erreur courante de comparer un score de laboratoire à la performance en conditions réelles.
LibriSpeech (anglais uniquement) utilise des enregistrements propres de livres audio. C'est le benchmark le plus facile contre lequel la plupart des modèles se mesurent, ses chiffres représentent donc le plancher de ce qu'un modèle peut accomplir dans des conditions idéales. Le WER de pointe en anglais sur LibriSpeech test-clean est d'environ 1,4 à 2,7 %.
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) couvre 102 langues avec environ 12 heures de parole par langue. Il utilise les mêmes phrases dans toutes les langues (traductions de contenu Wikipédia), ce qui rend la comparaison inter-langues pertinente. FLEURS est le benchmark multilingue le plus largement cité.
Common Voice (Mozilla) contient des enregistrements collaboratifs dans plus de 100 langues. Il est plus bruité que FLEURS car les locuteurs sont des non-professionnels dans des environnements variés, donc le WER de Common Voice est généralement 2 à 5 points plus élevé que celui de FLEURS sur la même langue.
L'audio en conditions réelles, avec accents, locuteurs qui se chevauchent, bruit de fond et matériel d'enregistrement imparfait, ajoute 5 à 15 points de WER supplémentaires aux chiffres des benchmarks. Un modèle affichant 5 % de WER sur FLEURS peut livrer 10 à 15 % sur un enregistrement Zoom typique.
Palier 1 : précision très élevée (2-6 % WER)
Ces langues disposent des plus grands corpus d'entraînement (dizaines de milliers d'heures d'audio annoté) et de la plus grande attention de la part des développeurs de modèles. Attendez-vous à des transcriptions prêtes pour la production sur audio propre avec une édition minimale.
| Langue | Whisper large-v3 FLEURS WER | NVIDIA Canary WER (si disponible) | Notes |
|---|---|---|---|
| Anglais | 4,2 % | 6,5 % (Canary-1B Common Voice) | Langue de référence, la plupart des benchmarks se concentrent ici |
| Espagnol | 3,0 % | 4,6 % | Particulièrement solide sur les variétés latino-américaines |
| Chinois mandarin | 5,7 % (CER) | -- | Mesuré en taux d'erreur par caractère, pas en WER |
| Français | 4,7 % | 6,0 % | Le français européen domine les données d'entraînement |
| Allemand | 4,5 % | 4,8 % | Solide sur l'allemand standard ; les dialectes suisses/autrichiens dégradent |
| Italien | 4,0 % | 4,2 % | Parmi les langues européennes les mieux couvertes |
| Portugais | 3,9 % | 3,6 % | Le portugais brésilien est majoritaire dans les données d'entraînement |
| Japonais | 4,9 % (CER) | -- | Métrique au niveau du caractère ; qualité des phrases excellente |
Les langues du Palier 1 bénéficient de la pression des applications commerciales : doublage, sous-titrage codé et recherche ont alimenté la création de jeux de données pendant des décennies. Si vous transcrivez dans l'une d'entre elles, le choix du modèle importe moins que la qualité audio que vous lui fournissez.
Palier 2 : précision élevée (6-12 % WER)
Ces langues disposent de données d'entraînement significatives mais d'un volume moindre que le Palier 1 ou d'une plus grande complexité phonétique. La plupart des cas d'usage de production fonctionnent bien, mais attendez-vous à corriger occasionnellement des noms propres mal entendus et des termes techniques.
| Langue | Whisper large-v3 FLEURS WER | Notes |
|---|---|---|
| Coréen | 7,0 % (CER) | Niveau caractère ; la précision au niveau de la phrase est généralement élevée |
| Néerlandais | 6,1 % | Bénéficie de la proximité avec les données d'entraînement allemandes et anglaises |
| Russe | 8,8 % | Bon sur le russe standard ; les accents régionaux dégradent |
| Arabe | 9,5 % (standard moderne) | L'arabe dialectal (égyptien, levantin, du Golfe) est beaucoup plus difficile |
| Turc | 9,6 % | La morphologie agglutinante ajoute de la complexité |
| Polonais | 8,6 % | Langue slave bien couverte |
| Catalan | 5,1 % | Performe au-dessus de son nombre de locuteurs grâce à des jeux de données dédiés |
| Suédois | 7,0 % | Solide pour une langue plus petite ; les corpus nordiques sont bien organisés |
| Norvégien | 9,0 % | Deux standards écrits (Bokmål/Nynorsk) compliquent l'évaluation |
| Ukrainien | 10,2 % | Amélioration significative après 2022 grâce à la croissance des jeux de données |
| Danois | 9,6 % | Phonétique difficile, mais bien représenté |
Pour les langues du Palier 2, le choix du modèle commence à compter. Whisper large-v3, NVIDIA Canary-1B-v2 et Google USM ont tendance à se relayer en tête selon la langue spécifique, il vaut donc la peine de vérifier des comparaisons spécifiques aux benchmarks avant de standardiser un pipeline.
Palier 3 : précision moyenne (12-20 % WER)
Ces langues sont celles où la transcription IA devient visiblement imparfaite. Les transcriptions restent exploitables comme premier jet, mais attendez-vous à corriger plusieurs erreurs par minute d'audio, en particulier autour des entités nommées, des chiffres et des particules de discours.
| Langue | Whisper large-v3 FLEURS WER | Notes |
|---|---|---|
| Vietnamien | 13,6 % | Tonale ; les erreurs de ton sont courantes |
| Hindi | 13,8 % | Forte variance selon les accents et alternance codique avec l'anglais |
| Thaï | 13,3 % (CER) | L'absence d'espaces entre les mots complique la tokenisation |
| Grec | 13,5 % | Corpus d'entraînement plus petit que les autres langues européennes |
| Roumain | 14,9 % | S'améliore rapidement à mesure que les jeux de données grandissent |
| Hébreu | 15,9 % | Écriture de droite à gauche, morphologie riche |
| Indonésien | 13,4 % | Solide pour son niveau de ressources |
| Croate | 17,7 % | Les caractéristiques partagées avec d'autres langues slaves du sud aident |
| Serbe | 15,7 % | Écritures cyrillique et latine prises en charge |
| Tchèque | 13,5 % | Solide malgré la complexité morphologique |
| Bulgare | 15,6 % | Langue slave au niveau de ressources modéré |
L'alternance codique -- où les locuteurs alternent entre deux langues dans un même énoncé -- tend à pénaliser plus fortement les langues du Palier 3 que celles du Palier 1, car les données d'entraînement sont moins susceptibles d'inclure la paire linguistique spécifique.
Palier 4 : précision inférieure (20-40 % WER)
Les langues de ce palier comptent souvent des centaines de millions de locuteurs mais disposent de données d'entraînement annotées limitées. La transcription produit un premier jet plus rapide à éditer qu'à partir de zéro mais nécessite une révision humaine substantielle.
| Langue | Whisper large-v3 FLEURS WER | Notes |
|---|---|---|
| Tamoul | 29,4 % | Langue dravidienne à morphologie complexe |
| Bengali | 28,8 % | Large base de locuteurs mais sous-représentée dans l'entraînement |
| Télougou | 32,8 % | Défis similaires au tamoul |
| Swahili | 34,2 % | Lingua franca de l'Afrique de l'Est, taille des jeux de données en croissance |
| Philippin (tagalog) | 22,4 % | L'alternance codique intensive avec l'anglais est courante dans la parole naturelle |
| Malais | 21,3 % | Les caractéristiques partagées avec l'indonésien aident |
| Ourdou | 26,3 % | Apparenté au hindi mais écrit en alphabet perso-arabe |
| Népalais | 30,0 % | Petit corpus d'entraînement |
| Pendjabi | 29,1 % | L'alternance codique pendjabi-anglais est courante |
| Kannada | 33,5 % | Famille dravidienne |
| Marathi | 30,7 % | Langue indo-aryenne aux ressources modérées |
Pour les langues du Palier 4, les flux de travail hybrides où l'IA produit le premier jet et un éditeur locuteur natif le nettoie constituent généralement l'option au plus haut rendement. La transcription purement humaine reste plus rapide que la correction d'une sortie IA lourdement déformée dans de nombreux cas.
Palier 5 : faibles ressources et expérimental (>40 % WER)
Ces langues ont soit des données annotées très limitées, soit une distance phonétique significative par rapport à toute langue sur laquelle le modèle a été entraîné, soit les deux. La transcription dans ces langues est exploitable pour l'indexation et la recherche de contenu mais pas pour du texte publiable.
Exemples : amharique (Éthiopie, ~42 % WER), yoruba (Nigéria, ~43 % WER), cinghalais (Sri Lanka, ~48 % WER), khmer (Cambodge, ~50 % WER), lao (Laos, ~52 % WER), birman (~55 % WER) et maltais (~45 % WER). Les chiffres varient significativement selon les modèles et les benchmarks. L'écart se réduit à mesure que les jeux de données communautaires se développent, mais pour les cas d'usage de production dans ces langues, les fournisseurs spécialisés ayant investi dans des données propres à la langue surpassent généralement les modèles à usage général de 5 à 15 points de WER.
Ce qui explique l'écart de précision
Trois facteurs expliquent la majeure partie de la variance du WER entre les langues.
Le volume des données d'entraînement est le prédicteur unique le plus puissant. Whisper a été entraîné sur 680 000 heures d'audio, mais 65 % de celles-ci étaient en anglais. Les langues à ressources plus élevées obtiennent des dizaines de milliers d'heures ; les langues à ressources les plus faibles n'en obtiennent que quelques centaines. Chaque doublement des données d'entraînement divise approximativement par deux le WER résiduel jusqu'à l'apparition de rendements décroissants.
La complexité phonétique et morphologique crée des effets de plafond même avec des données abondantes. Les langues tonales (mandarin, vietnamien, thaï, yoruba) forcent le modèle à distinguer des mots phonétiquement similaires par le contour mélodique. Les langues agglutinantes (turc, finnois, swahili) construisent de longs mots à partir de nombreux morphèmes, ce qui interagit avec la tokenisation. Les écritures de droite à gauche (arabe, hébreu) et les systèmes d'écriture logographiques (chinois, japonais) déplacent la métrique du WER vers le taux d'erreur par caractère et modifient ce qui compte comme une substitution.
L'adéquation du domaine audio compte autant que la langue. Un modèle entraîné principalement sur des données de livres audio lus obtiendra de moins bons résultats sur de la conversation spontanée dans la même langue. Pour les cas d'usage de transcription professionnels (réunions, entretiens, podcasts), le choix du modèle doit être éclairé par le fait que le fournisseur affine ou non sur de l'audio conversationnel ou de diffusion, plutôt que seulement sur du monologue propre.
Comment améliorer la précision pour les langues des paliers inférieurs
Il existe des étapes pratiques qui réduisent significativement le WER pour n'importe quelle langue, bien que l'impact soit plus grand lorsque la ligne de base est plus élevée.
Améliorez l'audio avant de transcrire. La réduction du bruit, l'isolation des locuteurs et des niveaux d'enregistrement cohérents peuvent réduire le WER de 2 à 5 points sur de l'audio réel. Ce guide sur la qualité audio couvre les gains les plus rapides.
Fournissez un contexte de domaine. De nombreuses API de transcription acceptent une liste de termes techniques, de noms propres ou de phrases susceptibles d'apparaître dans l'audio. Ces vocabulaires biaisés réduisent les erreurs de substitution pour le jargon sectoriel et les entités nommées de 10 à 30 % lorsqu'ils sont correctement configurés.
Choisissez le bon modèle par langue. Whisper domine sur certaines langues, NVIDIA Canary sur d'autres, et les fournisseurs spécialisés par langue sur quelques-unes (notamment le japonais, le coréen et l'arabe). Si une langue spécifique est critique pour votre flux de travail, tester 2 ou 3 fournisseurs sur un échantillon représentatif vaut l'heure investie.
Utilisez un éditeur humain pour la dernière ligne droite. Pour le Palier 3 et inférieur, un éditeur locuteur natif révisant une transcription IA est environ 5 à 8 fois plus rapide qu'une transcription à partir de zéro, et la précision finale dépasse 98 %.
Des plateformes comme Vocova prennent en charge la transcription dans plus de 100 langues avec détection automatique de la langue, ce qui élimine la friction du choix du bon modèle par langue. La détection a lieu avant le début de la transcription, donc vous n'avez pas besoin d'étiqueter vos fichiers audio par langue à l'avance.
Questions fréquemment posées
Quelle langue bénéficie de la transcription la plus précise ?
L'anglais bénéficie de la transcription IA la plus précise en 2026, avec des modèles de pointe atteignant 1,4 à 2,7 % de WER sur de l'audio propre LibriSpeech et environ 4 % de WER sur de la parole spontanée en conditions réelles. L'espagnol, le mandarin, le français, l'allemand, l'italien et le portugais suivent de près dans la plage 3-6 % de WER.
Quelle est la précision de Whisper selon les langues ?
Whisper large-v3 atteint moins de 10 % de WER sur environ 30 langues au benchmark FLEURS, incluant toutes les langues du Palier 1 et la plupart du Palier 2 de ce guide. Sa précision se dégrade fortement en dessous de ce palier, certaines langues à faibles ressources dépassant 50 % de WER.
Quel WER est considéré comme « bon » ?
Pour la plupart des applications professionnelles, un WER inférieur à 10 % produit une transcription plus rapide à lire et à éditer que l'audio original. En dessous de 5 %, on considère généralement que la précision est quasi humaine. Au-dessus de 20 %, une correction manuelle significative est nécessaire pour être exploitable comme texte publié.
Pourquoi ma transcription allemande est-elle plus précise que ma transcription thaï ?
L'allemand est une langue du Palier 1 avec des dizaines de milliers d'heures de données d'entraînement, des caractéristiques phonétiques partagées avec l'anglais (qui possède le plus grand jeu de données) et une large adoption dans la transcription commerciale. Le thaï est une langue tonale sans espaces avec significativement moins de données d'entraînement annotées. Même les meilleurs modèles présentent un écart de WER de 7 à 10 points entre les deux.
Puis-je améliorer la précision de la transcription pour ma langue spécifique ?
Oui. Les améliorations de la qualité audio, les vocabulaires personnalisés et les données d'entraînement spécifiques aux locuteurs peuvent tous réduire le WER de 5 à 15 % dans la plupart des langues. Pour le Palier 3 et inférieur, l'utilisation d'un flux de travail hybride IA + éditeur humain produit une précision finale supérieure à 98 % à une fraction du coût de la transcription purement humaine.
Les benchmarks de transcription de FLEURS et Common Voice sont-ils comparables à l'audio réel ?
Pas directement. L'audio de benchmark est généralement plus propre, lu plutôt que spontané, et enregistré avec un équipement professionnel. L'audio en conditions réelles (réunions, appels téléphoniques, entretiens de rue) produit généralement 5 à 15 points de WER supplémentaires par rapport à l'audio de benchmark pour la même langue et le même modèle.
Synthèse
La précision de la transcription IA en 2026 est fonction du palier de langue, de la qualité audio et de l'adéquation modèle-tâche. Les langues du Palier 1 offrent une précision quasi humaine sur audio propre ; le Palier 3 nécessite une édition ; le Palier 5 est expérimental. L'écart entre les meilleures performances et la performance moyenne sur de l'audio réel s'est creusé à mesure que les modèles de pointe ont progressé plus rapidement que ceux de milieu de gamme, rendant le choix de l'outil plus conséquent qu'il ne l'était il y a trois ans.
Si vous construisez ou choisissez un pipeline de transcription, la chose la plus utile que vous puissiez faire est de tester votre langue spécifique et votre domaine audio sur 2 ou 3 échantillons représentatifs avant de vous engager. Les benchmarks sont un point de départ, pas une décision.
Sources et lectures complémentaires
- OpenAI, « Robust Speech Recognition via Large-Scale Weak Supervision » (Whisper paper, 2022)
- Google Research, « FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech » (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, Canary-1B-v2 model card
- Mozilla Common Voice datasets
- Vocova sur la transcription multilingue
