Accuratezza della trascrizione per lingua: benchmark WER per oltre 50 lingue (2026)
Quanto è accurata la trascrizione AI nella sua lingua? Confronti i benchmark di word error rate (WER) per oltre 50 lingue su Whisper, NVIDIA Canary e altri modelli ASR leader nel 2026.
L'accuratezza della trascrizione varia drasticamente a seconda della lingua. Su audio pulito nel 2026, i migliori sistemi di riconoscimento vocale automatico (ASR) raggiungono word error rate inferiori al 5% in inglese, spagnolo e mandarino, tra il 7-12% in lingue a risorse medie come polacco, coreano e vietnamita, e 20-40% o più in molte lingue a basse risorse come amarico, yoruba o singalese. Il divario di accuratezza si riduce al volume di dati di addestramento, alla complessità fonetica e alla diversità dei dialetti che ogni modello ha visto.
Questa guida raccoglie i benchmark WER pubblicati da Whisper, NVIDIA Canary, Google USM e dalla Hugging Face Open ASR Leaderboard, organizzati per livello linguistico. Se sta valutando uno strumento di trascrizione per una lingua specifica, o sta cercando di capire perché il suo audio tedesco viene trascritto in modo impeccabile ma il suo audio thailandese no, i dati qui sotto spiegano il divario.
In sintesi: livelli di accuratezza a colpo d'occhio
| Livello | Intervallo WER | Lingue (rappresentative) | Cosa aspettarsi |
|---|---|---|---|
| Livello 1 | 2-6% WER | Inglese, mandarino, spagnolo, francese, tedesco, giapponese, italiano, portoghese | Accuratezza quasi umana su audio pulito |
| Livello 2 | 6-12% WER | Coreano, olandese, russo, arabo, turco, polacco, catalano, svedese | Qualità di produzione, servono modifiche minori |
| Livello 3 | 12-20% WER | Vietnamita, hindi, thailandese, greco, rumeno, ucraino, ebraico, indonesiano | Utilizzabile, aspettarsi una pulizia manuale significativa |
| Livello 4 | 20-40% WER | Tamil, bengalese, swahili, filippino, malese, urdu, nepalese | Qualità bozza, revisione umana richiesta |
| Livello 5 | >40% WER | Amarico, yoruba, singalese, khmer, lao, birmano, maltese | Sperimentale, spesso inutilizzabile senza pesante post-editing |
Fonti: OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
Come si misurano i benchmark WER
Ogni numero in questo post proviene da una delle tre suite di benchmark pubbliche. Comprendere cosa testa ciascuna previene l'errore comune di confrontare un punteggio di laboratorio con le prestazioni nel mondo reale.
LibriSpeech (solo inglese) utilizza registrazioni pulite di audiolibri. È il benchmark più semplice contro cui la maggior parte dei modelli viene eseguita, quindi i suoi numeri rappresentano il limite inferiore di ciò che un modello può fare in condizioni ideali. Il WER inglese allo stato dell'arte su LibriSpeech test-clean è intorno all'1,4-2,7%.
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) copre 102 lingue con ~12 ore di parlato per lingua. Utilizza le stesse frasi tra le lingue (traduzioni di contenuti Wikipedia), il che rende significativo il confronto tra lingue. FLEURS è il benchmark multilingue più ampiamente citato.
Common Voice (Mozilla) contiene registrazioni crowdsourced in oltre 100 lingue. È più rumoroso di FLEURS perché gli speaker sono non-professionisti in ambienti vari, quindi il WER su Common Voice è tipicamente 2-5 punti più alto rispetto a FLEURS nella stessa lingua.
L'audio del mondo reale, con accenti, speaker sovrapposti, rumore di fondo e apparecchiature di registrazione imperfette, aggiunge altri 5-15 punti di WER sopra i numeri del benchmark. Un modello che riporta il 5% di WER su FLEURS può produrre il 10-15% su una tipica registrazione Zoom.
Livello 1: accuratezza molto alta (2-6% WER)
Queste lingue hanno i corpus di addestramento più grandi (decine di migliaia di ore di audio etichettato) e la maggiore attenzione da parte degli sviluppatori di modelli. Aspettarsi trascrizioni pronte per la produzione su audio pulito con editing minimo.
| Lingua | Whisper large-v3 FLEURS WER | NVIDIA Canary WER (dove disponibile) | Note |
|---|---|---|---|
| Inglese | 4,2% | 6,5% (Canary-1B Common Voice) | Lingua di riferimento, la maggior parte dei benchmark si concentra qui |
| Spagnolo | 3,0% | 4,6% | Particolarmente forte sulle varietà latinoamericane |
| Cinese mandarino | 5,7% (CER) | -- | Misurato in character error rate, non WER |
| Francese | 4,7% | 6,0% | Il francese europeo domina i dati di addestramento |
| Tedesco | 4,5% | 4,8% | Forte sul tedesco standard; i dialetti svizzeri/austriaci degradano |
| Italiano | 4,0% | 4,2% | Tra le lingue europee meglio coperte |
| Portoghese | 3,9% | 3,6% | Il portoghese brasiliano è la maggioranza nei dati di addestramento |
| Giapponese | 4,9% (CER) | -- | Metrica a livello di carattere; la qualità della frase è eccellente |
Le lingue di Livello 1 beneficiano della pressione delle applicazioni commerciali: doppiaggio, closed captioning e ricerca hanno guidato la creazione di dataset per decenni. Se sta trascrivendo in una qualsiasi di queste, la scelta del modello conta meno della qualità dell'audio che le fornisce.
Livello 2: alta accuratezza (6-12% WER)
Queste lingue hanno dati di addestramento significativi ma un volume inferiore al Livello 1 o una maggiore complessità fonetica. La maggior parte dei casi d'uso in produzione funziona bene, ma aspettarsi di correggere occasionali nomi propri e termini tecnici sentiti male.
| Lingua | Whisper large-v3 FLEURS WER | Note |
|---|---|---|
| Coreano | 7,0% (CER) | Livello carattere; l'accuratezza della frase è generalmente alta |
| Olandese | 6,1% | Beneficia della vicinanza ai dati di addestramento di tedesco e inglese |
| Russo | 8,8% | Buono sul russo standard; gli accenti regionali degradano |
| Arabo | 9,5% (standard moderno) | L'arabo dialettale (egiziano, levantino, del Golfo) è molto più difficile |
| Turco | 9,6% | La morfologia agglutinante aggiunge complessità |
| Polacco | 8,6% | Lingua slava ben coperta |
| Catalano | 5,1% | Supera il proprio numero di parlanti grazie a dataset dedicati |
| Svedese | 7,0% | Forte per una lingua più piccola; i corpus nordici sono ben curati |
| Norvegese | 9,0% | Due standard scritti (Bokmål/Nynorsk) complicano la valutazione |
| Ucraino | 10,2% | Miglioramento significativo post-2022 grazie alla crescita del dataset |
| Danese | 9,6% | Fonetica difficile, ma ben rappresentato |
Per le lingue di Livello 2, la scelta del modello inizia a contare. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendono a scambiarsi la leadership a seconda della lingua specifica, quindi vale la pena controllare confronti specifici sui benchmark prima di standardizzare una pipeline.
Livello 3: accuratezza media (12-20% WER)
Queste lingue sono quelle in cui la trascrizione AI diventa visibilmente imperfetta. Le trascrizioni sono ancora utilizzabili come prima bozza, ma aspettarsi di correggere diversi errori per minuto di audio, specialmente attorno a entità nominate, numeri e particelle discorsive.
| Lingua | Whisper large-v3 FLEURS WER | Note |
|---|---|---|
| Vietnamita | 13,6% | Tonale; gli errori di tono sono comuni |
| Hindi | 13,8% | Forte varianza tra accenti e code-switching con l'inglese |
| Thailandese | 13,3% (CER) | L'assenza di spazi tra le parole complica la tokenizzazione |
| Greco | 13,5% | Corpus di addestramento più piccolo di altre lingue europee |
| Rumeno | 14,9% | In rapido miglioramento con la crescita dei dataset |
| Ebraico | 15,9% | Scrittura da destra a sinistra, morfologia ricca |
| Indonesiano | 13,4% | Forte per il suo livello di risorse |
| Croato | 17,7% | Le caratteristiche condivise con altre lingue slave meridionali aiutano |
| Serbo | 15,7% | Sono supportati sia il cirillico che il latino |
| Ceco | 13,5% | Solido nonostante la complessità morfologica |
| Bulgaro | 15,6% | Lingua slava con livello di risorse moderato |
Il code-switching -- dove gli speaker alternano tra due lingue in una singola enunciazione -- tende a colpire le lingue di Livello 3 più duramente del Livello 1 perché è meno probabile che i dati di addestramento includano la specifica coppia linguistica.
Livello 4: accuratezza inferiore (20-40% WER)
Le lingue in questo livello spesso hanno centinaia di milioni di parlanti ma dati di addestramento etichettati limitati. La trascrizione produce una bozza che è più veloce da modificare che da scrivere da zero ma richiede una revisione umana sostanziale.
| Lingua | Whisper large-v3 FLEURS WER | Note |
|---|---|---|
| Tamil | 29,4% | Lingua dravidica con morfologia complessa |
| Bengalese | 28,8% | Ampia base di parlanti ma sottorappresentata nell'addestramento |
| Telugu | 32,8% | Sfide simili al tamil |
| Swahili | 34,2% | Lingua franca dell'Africa orientale, dataset in crescita |
| Filippino (tagalog) | 22,4% | Il forte code-switching con l'inglese è comune nel parlato naturale |
| Malese | 21,3% | Le caratteristiche condivise con l'indonesiano aiutano |
| Urdu | 26,3% | Correlato all'hindi ma scritto in alfabeto perso-arabo |
| Nepalese | 30,0% | Corpus di addestramento piccolo |
| Punjabi | 29,1% | Il code-switching punjabi-inglese è comune |
| Kannada | 33,5% | Famiglia dravidica |
| Marathi | 30,7% | Lingua indo-ariana con risorse moderate |
Per le lingue di Livello 4, i flussi di lavoro ibridi in cui l'AI produce la prima bozza e un editor madrelingua la ripulisce sono tipicamente l'opzione con il throughput più alto. La trascrizione puramente umana è ancora più veloce della correzione di un output AI pesantemente confuso in molti casi.
Livello 5: risorse basse e sperimentali (>40% WER)
Queste lingue hanno o dati etichettati molto limitati, una significativa distanza fonetica da qualsiasi lingua su cui il modello è stato addestrato, o entrambi. La trascrizione in queste lingue è utilizzabile per indicizzazione e ricerca di contenuti ma non per testi pubblicabili.
Esempi includono amarico (Etiopia, ~42% WER), yoruba (Nigeria, ~43% WER), singalese (Sri Lanka, ~48% WER), khmer (Cambogia, ~50% WER), lao (Laos, ~52% WER), birmano (~55% WER) e maltese (~45% WER). I numeri variano significativamente tra modelli e benchmark. Il divario si sta chiudendo con la crescita dei dataset della comunità, ma per i casi d'uso in produzione in queste lingue, i fornitori specializzati che hanno investito in dati specifici per la lingua tipicamente superano i modelli generici di 5-15 punti WER.
Cosa determina il divario di accuratezza
Tre fattori spiegano la maggior parte della varianza del WER tra le lingue.
Il volume di dati di addestramento è il singolo predittore più forte. Whisper è stato addestrato su 680.000 ore di audio, ma il 65% di queste era in inglese. Le lingue con risorse più alte ottengono decine di migliaia di ore; le lingue con risorse più basse ne ottengono poche centinaia. Ogni raddoppio dei dati di addestramento dimezza approssimativamente il WER residuo finché non entrano in gioco i rendimenti decrescenti.
La complessità fonetica e morfologica crea effetti soffitto anche con dati abbondanti. Le lingue tonali (mandarino, vietnamita, thailandese, yoruba) costringono il modello a distinguere parole foneticamente simili dal contorno di altezza. Le lingue agglutinanti (turco, finlandese, swahili) costruiscono parole lunghe da molti morfemi, che interagiscono con la tokenizzazione. Le scritture da destra a sinistra (arabo, ebraico) e i sistemi di scrittura logografici (cinese, giapponese) spostano la metrica da WER a character error rate e cambiano ciò che conta come sostituzione.
La corrispondenza di dominio audio conta tanto quanto la lingua. Un modello addestrato principalmente su dati di audiolibri letti ad alta voce avrà prestazioni inferiori su conversazione spontanea nella stessa lingua. Per i casi d'uso di trascrizione aziendale (riunioni, interviste, podcast), la scelta del modello dovrebbe essere informata dal fatto che il fornitore faccia fine-tuning su audio conversazionale o di trasmissione piuttosto che solo su monologhi puliti.
Come migliorare l'accuratezza per le lingue di livello inferiore
Esistono passi pratici che riducono significativamente il WER per qualsiasi lingua, sebbene l'impatto sia maggiore quando la baseline è più alta.
Migliorare l'audio prima di trascrivere. Riduzione del rumore, isolamento dello speaker e livelli di registrazione coerenti possono ridurre il WER di 2-5 punti su audio del mondo reale. Questa guida alla qualità audio copre i miglioramenti più rapidi.
Fornire contesto di dominio. Molte API di trascrizione accettano un elenco di termini tecnici, nomi propri o frasi che probabilmente appariranno nell'audio. Questi vocabolari biased riducono gli errori di sostituzione per gergo di settore ed entità nominate del 10-30% quando configurati correttamente.
Scegliere il modello giusto per lingua. Whisper è in testa in alcune lingue, NVIDIA Canary in altre e fornitori specifici per lingua in alcune (in particolare giapponese, coreano e arabo). Se una lingua specifica è critica per il suo flusso di lavoro, testare 2-3 fornitori su un campione rappresentativo vale l'ora investita.
Utilizzare un editor umano per l'ultimo miglio. Per il Livello 3 e inferiori, un editor madrelingua che rivede una trascrizione AI è circa 5-8 volte più veloce della trascrizione da zero, e l'accuratezza finale arriva sopra il 98%.
Piattaforme come Vocova supportano la trascrizione in oltre 100 lingue con rilevamento automatico della lingua, il che rimuove l'attrito di scegliere il modello giusto per lingua. Il rilevamento avviene prima che la trascrizione inizi, quindi non è necessario etichettare i file audio per lingua in anticipo.
Domande frequenti
Quale lingua ha la trascrizione più accurata?
L'inglese ha la trascrizione AI più accurata nel 2026, con i modelli allo stato dell'arte che raggiungono 1,4-2,7% di WER su audio pulito LibriSpeech e circa il 4% di WER sul parlato spontaneo del mondo reale. Spagnolo, mandarino, francese, tedesco, italiano e portoghese seguono da vicino nell'intervallo 3-6% di WER.
Quanto è accurato Whisper tra le lingue?
Whisper large-v3 raggiunge un WER inferiore al 10% su circa 30 lingue sul benchmark FLEURS, includendo tutto il Livello 1 e la maggior parte delle lingue di Livello 2 in questa guida. La sua accuratezza degrada bruscamente sotto quel livello, con alcune lingue a basse risorse che superano il 50% di WER.
Quale WER è considerato "buono"?
Per la maggior parte delle applicazioni aziendali, un WER inferiore al 10% produce una trascrizione che è più veloce da leggere e modificare rispetto all'audio originale. Sotto il 5% è generalmente considerato accuratezza quasi umana. Sopra il 20% richiede una correzione manuale significativa per essere utilizzabile come testo pubblicato.
Perché la mia trascrizione in tedesco è più accurata della mia trascrizione in thailandese?
Il tedesco è una lingua di Livello 1 con decine di migliaia di ore di dati di addestramento, caratteristiche fonetiche condivise con l'inglese (che ha il dataset più grande) e ampia adozione nella trascrizione commerciale. Il thailandese è una lingua tonale, senza spazi con dati di addestramento etichettati significativamente inferiori. Anche i migliori modelli hanno un divario WER di 7-10 punti tra le due.
Posso migliorare l'accuratezza della trascrizione per la mia lingua specifica?
Sì. Miglioramenti della qualità audio, vocabolari personalizzati e dati di addestramento specifici per lo speaker possono tutti ridurre il WER del 5-15% nella maggior parte delle lingue. Per il Livello 3 e inferiori, utilizzare un flusso di lavoro ibrido AI + editor umano produce un'accuratezza finale superiore al 98% a una frazione del costo della trascrizione puramente umana.
I benchmark di trascrizione di FLEURS e Common Voice sono comparabili all'audio del mondo reale?
Non direttamente. L'audio dei benchmark è tipicamente più pulito, letto piuttosto che spontaneo, e registrato con apparecchiature professionali. L'audio del mondo reale (riunioni, telefonate, interviste di strada) produce tipicamente 5-15 punti WER più alti rispetto all'audio del benchmark per la stessa lingua e modello.
Riepilogo
L'accuratezza della trascrizione AI nel 2026 è funzione del livello linguistico, della qualità audio e dell'adattamento modello-task. Le lingue di Livello 1 offrono accuratezza quasi umana su audio pulito; il Livello 3 richiede editing; il Livello 5 è sperimentale. Il divario tra le prestazioni migliori e medie su audio del mondo reale si è ampliato poiché i modelli top sono migliorati più velocemente di quelli di livello medio, rendendo la selezione degli strumenti più rilevante di quanto fosse tre anni fa.
Se sta costruendo o scegliendo una pipeline di trascrizione, la cosa più utile che può fare è testare la sua lingua specifica e il dominio audio su 2-3 campioni rappresentativi prima di impegnarsi. I benchmark sono un punto di partenza, non una decisione.
Fonti e approfondimenti
- OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (Whisper paper, 2022)
- Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, scheda del modello Canary-1B-v2
- Dataset Mozilla Common Voice
- Vocova sulla trascrizione multilingue
