Quanto è accurata la trascrizione AI? Risultati WER per oltre 50 lingue (2026)

L'accuratezza della trascrizione varia drasticamente a seconda della lingua. Su audio pulito nel 2026, i migliori sistemi di riconoscimento vocale automatico (ASR) raggiungono word error rate inferiori al 5% in inglese, spagnolo e mandarino, tra il 7-12% in lingue a risorse medie come polacco, coreano e vietnamita, e 20-40% o più in molte lingue a basse risorse come amarico, yoruba o singalese. Il divario di accuratezza si riduce al volume di dati di addestramento, alla complessità fonetica e alla diversità dei dialetti che ogni modello ha visto.

Questa guida raccoglie i benchmark WER pubblicati da Whisper, NVIDIA Canary, Google USM e dalla Hugging Face Open ASR Leaderboard, organizzati per livello linguistico. Se sta valutando uno strumento di trascrizione per una lingua specifica, o sta cercando di capire perché il suo audio tedesco viene trascritto in modo impeccabile ma il suo audio thailandese no, i dati qui sotto spiegano il divario.

In sintesi: livelli di accuratezza a colpo d'occhio

Livello	Intervallo WER	Lingue (rappresentative)	Cosa aspettarsi
Livello 1	2-6% WER	Inglese, mandarino, spagnolo, francese, tedesco, giapponese, italiano, portoghese	Accuratezza quasi umana su audio pulito
Livello 2	6-12% WER	Coreano, olandese, russo, arabo, turco, polacco, catalano, svedese	Qualità di produzione, servono modifiche minori
Livello 3	12-20% WER	Vietnamita, hindi, thailandese, greco, rumeno, ucraino, ebraico, indonesiano	Utilizzabile, aspettarsi una pulizia manuale significativa
Livello 4	20-40% WER	Tamil, bengalese, swahili, filippino, malese, urdu, nepalese	Qualità bozza, revisione umana richiesta
Livello 5	>40% WER	Amarico, yoruba, singalese, khmer, lao, birmano, maltese	Sperimentale, spesso inutilizzabile senza pesante post-editing

Fonti: OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Come si misurano i benchmark WER

Ogni numero in questo post proviene da una delle tre suite di benchmark pubbliche. Comprendere cosa testa ciascuna previene l'errore comune di confrontare un punteggio di laboratorio con le prestazioni nel mondo reale.

LibriSpeech (solo inglese) utilizza registrazioni pulite di audiolibri. È il benchmark più semplice contro cui la maggior parte dei modelli viene eseguita, quindi i suoi numeri rappresentano il limite inferiore di ciò che un modello può fare in condizioni ideali. Il WER inglese allo stato dell'arte su LibriSpeech test-clean è intorno all'1,4-2,7%.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) copre 102 lingue con ~12 ore di parlato per lingua. Utilizza le stesse frasi tra le lingue (traduzioni di contenuti Wikipedia), il che rende significativo il confronto tra lingue. FLEURS è il benchmark multilingue più ampiamente citato.

Common Voice (Mozilla) contiene registrazioni crowdsourced in oltre 100 lingue. È più rumoroso di FLEURS perché gli speaker sono non-professionisti in ambienti vari, quindi il WER su Common Voice è tipicamente 2-5 punti più alto rispetto a FLEURS nella stessa lingua.

L'audio del mondo reale, con accenti, speaker sovrapposti, rumore di fondo e apparecchiature di registrazione imperfette, aggiunge altri 5-15 punti di WER sopra i numeri del benchmark. Un modello che riporta il 5% di WER su FLEURS può produrre il 10-15% su una tipica registrazione Zoom.

Livello 1: accuratezza molto alta (2-6% WER)

Queste lingue hanno i corpus di addestramento più grandi (decine di migliaia di ore di audio etichettato) e la maggiore attenzione da parte degli sviluppatori di modelli. Aspettarsi trascrizioni pronte per la produzione su audio pulito con editing minimo.

Lingua	Whisper large-v3 FLEURS WER	NVIDIA Canary WER (dove disponibile)	Note
Inglese	4,2%	6,5% (Canary-1B Common Voice)	Lingua di riferimento, la maggior parte dei benchmark si concentra qui
Spagnolo	3,0%	4,6%	Particolarmente forte sulle varietà latinoamericane
Cinese mandarino	5,7% (CER)	--	Misurato in character error rate, non WER
Francese	4,7%	6,0%	Il francese europeo domina i dati di addestramento
Tedesco	4,5%	4,8%	Forte sul tedesco standard; i dialetti svizzeri/austriaci degradano
Italiano	4,0%	4,2%	Tra le lingue europee meglio coperte
Portoghese	3,9%	3,6%	Il portoghese brasiliano è la maggioranza nei dati di addestramento
Giapponese	4,9% (CER)	--	Metrica a livello di carattere; la qualità della frase è eccellente

Le lingue di Livello 1 beneficiano della pressione delle applicazioni commerciali: doppiaggio, closed captioning e ricerca hanno guidato la creazione di dataset per decenni. Se sta trascrivendo in una qualsiasi di queste, la scelta del modello conta meno della qualità dell'audio che le fornisce.

Livello 2: alta accuratezza (6-12% WER)

Queste lingue hanno dati di addestramento significativi ma un volume inferiore al Livello 1 o una maggiore complessità fonetica. La maggior parte dei casi d'uso in produzione funziona bene, ma aspettarsi di correggere occasionali nomi propri e termini tecnici sentiti male.

Lingua	Whisper large-v3 FLEURS WER	Note
Coreano	7,0% (CER)	Livello carattere; l'accuratezza della frase è generalmente alta
Olandese	6,1%	Beneficia della vicinanza ai dati di addestramento di tedesco e inglese
Russo	8,8%	Buono sul russo standard; gli accenti regionali degradano
Arabo	9,5% (standard moderno)	L'arabo dialettale (egiziano, levantino, del Golfo) è molto più difficile
Turco	9,6%	La morfologia agglutinante aggiunge complessità
Polacco	8,6%	Lingua slava ben coperta
Catalano	5,1%	Supera il proprio numero di parlanti grazie a dataset dedicati
Svedese	7,0%	Forte per una lingua più piccola; i corpus nordici sono ben curati
Norvegese	9,0%	Due standard scritti (Bokmål/Nynorsk) complicano la valutazione
Ucraino	10,2%	Miglioramento significativo post-2022 grazie alla crescita del dataset
Danese	9,6%	Fonetica difficile, ma ben rappresentato

Per le lingue di Livello 2, la scelta del modello inizia a contare. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendono a scambiarsi la leadership a seconda della lingua specifica, quindi vale la pena controllare confronti specifici sui benchmark prima di standardizzare una pipeline.

Livello 3: accuratezza media (12-20% WER)

Queste lingue sono quelle in cui la trascrizione AI diventa visibilmente imperfetta. Le trascrizioni sono ancora utilizzabili come prima bozza, ma aspettarsi di correggere diversi errori per minuto di audio, specialmente attorno a entità nominate, numeri e particelle discorsive.

Lingua	Whisper large-v3 FLEURS WER	Note
Vietnamita	13,6%	Tonale; gli errori di tono sono comuni
Hindi	13,8%	Forte varianza tra accenti e code-switching con l'inglese
Thailandese	13,3% (CER)	L'assenza di spazi tra le parole complica la tokenizzazione
Greco	13,5%	Corpus di addestramento più piccolo di altre lingue europee
Rumeno	14,9%	In rapido miglioramento con la crescita dei dataset
Ebraico	15,9%	Scrittura da destra a sinistra, morfologia ricca
Indonesiano	13,4%	Forte per il suo livello di risorse
Croato	17,7%	Le caratteristiche condivise con altre lingue slave meridionali aiutano
Serbo	15,7%	Sono supportati sia il cirillico che il latino
Ceco	13,5%	Solido nonostante la complessità morfologica
Bulgaro	15,6%	Lingua slava con livello di risorse moderato

Il code-switching -- dove gli speaker alternano tra due lingue in una singola enunciazione -- tende a colpire le lingue di Livello 3 più duramente del Livello 1 perché è meno probabile che i dati di addestramento includano la specifica coppia linguistica.

Livello 4: accuratezza inferiore (20-40% WER)

Le lingue in questo livello spesso hanno centinaia di milioni di parlanti ma dati di addestramento etichettati limitati. La trascrizione produce una bozza che è più veloce da modificare che da scrivere da zero ma richiede una revisione umana sostanziale.

Lingua	Whisper large-v3 FLEURS WER	Note
Tamil	29,4%	Lingua dravidica con morfologia complessa
Bengalese	28,8%	Ampia base di parlanti ma sottorappresentata nell'addestramento
Telugu	32,8%	Sfide simili al tamil
Swahili	34,2%	Lingua franca dell'Africa orientale, dataset in crescita
Filippino (tagalog)	22,4%	Il forte code-switching con l'inglese è comune nel parlato naturale
Malese	21,3%	Le caratteristiche condivise con l'indonesiano aiutano
Urdu	26,3%	Correlato all'hindi ma scritto in alfabeto perso-arabo
Nepalese	30,0%	Corpus di addestramento piccolo
Punjabi	29,1%	Il code-switching punjabi-inglese è comune
Kannada	33,5%	Famiglia dravidica
Marathi	30,7%	Lingua indo-ariana con risorse moderate

Per le lingue di Livello 4, i flussi di lavoro ibridi in cui l'AI produce la prima bozza e un editor madrelingua la ripulisce sono tipicamente l'opzione con il throughput più alto. La trascrizione puramente umana è ancora più veloce della correzione di un output AI pesantemente confuso in molti casi.

Livello 5: risorse basse e sperimentali (>40% WER)

Queste lingue hanno o dati etichettati molto limitati, una significativa distanza fonetica da qualsiasi lingua su cui il modello è stato addestrato, o entrambi. La trascrizione in queste lingue è utilizzabile per indicizzazione e ricerca di contenuti ma non per testi pubblicabili.

Esempi includono amarico (Etiopia, ~42% WER), yoruba (Nigeria, ~43% WER), singalese (Sri Lanka, ~48% WER), khmer (Cambogia, ~50% WER), lao (Laos, ~52% WER), birmano (~55% WER) e maltese (~45% WER). I numeri variano significativamente tra modelli e benchmark. Il divario si sta chiudendo con la crescita dei dataset della comunità, ma per i casi d'uso in produzione in queste lingue, i fornitori specializzati che hanno investito in dati specifici per la lingua tipicamente superano i modelli generici di 5-15 punti WER.

Cosa determina il divario di accuratezza

Tre fattori spiegano la maggior parte della varianza del WER tra le lingue.

Il volume di dati di addestramento è il singolo predittore più forte. Whisper è stato addestrato su 680.000 ore di audio, ma il 65% di queste era in inglese. Le lingue con risorse più alte ottengono decine di migliaia di ore; le lingue con risorse più basse ne ottengono poche centinaia. Ogni raddoppio dei dati di addestramento dimezza approssimativamente il WER residuo finché non entrano in gioco i rendimenti decrescenti.

La complessità fonetica e morfologica crea effetti soffitto anche con dati abbondanti. Le lingue tonali (mandarino, vietnamita, thailandese, yoruba) costringono il modello a distinguere parole foneticamente simili dal contorno di altezza. Le lingue agglutinanti (turco, finlandese, swahili) costruiscono parole lunghe da molti morfemi, che interagiscono con la tokenizzazione. Le scritture da destra a sinistra (arabo, ebraico) e i sistemi di scrittura logografici (cinese, giapponese) spostano la metrica da WER a character error rate e cambiano ciò che conta come sostituzione.

La corrispondenza di dominio audio conta tanto quanto la lingua. Un modello addestrato principalmente su dati di audiolibri letti ad alta voce avrà prestazioni inferiori su conversazione spontanea nella stessa lingua. Per i casi d'uso di trascrizione aziendale (riunioni, interviste, podcast), la scelta del modello dovrebbe essere informata dal fatto che il fornitore faccia fine-tuning su audio conversazionale o di trasmissione piuttosto che solo su monologhi puliti.

Come migliorare l'accuratezza per le lingue di livello inferiore

Esistono passi pratici che riducono significativamente il WER per qualsiasi lingua, sebbene l'impatto sia maggiore quando la baseline è più alta.

Migliorare l'audio prima di trascrivere. Riduzione del rumore, isolamento dello speaker e livelli di registrazione coerenti possono ridurre il WER di 2-5 punti su audio del mondo reale. Questa guida alla qualità audio copre i miglioramenti più rapidi.

Fornire contesto di dominio. Molte API di trascrizione accettano un elenco di termini tecnici, nomi propri o frasi che probabilmente appariranno nell'audio. Questi vocabolari biased riducono gli errori di sostituzione per gergo di settore ed entità nominate del 10-30% quando configurati correttamente.

Scegliere il modello giusto per lingua. Whisper è in testa in alcune lingue, NVIDIA Canary in altre e fornitori specifici per lingua in alcune (in particolare giapponese, coreano e arabo). Se una lingua specifica è critica per il suo flusso di lavoro, testare 2-3 fornitori su un campione rappresentativo vale l'ora investita.

Utilizzare un editor umano per l'ultimo miglio. Per il Livello 3 e inferiori, un editor madrelingua che rivede una trascrizione AI è circa 5-8 volte più veloce della trascrizione da zero, e l'accuratezza finale arriva sopra il 98%.

Piattaforme come Vocova supportano la trascrizione in oltre 100 lingue con rilevamento automatico della lingua, il che rimuove l'attrito di scegliere il modello giusto per lingua. Il rilevamento avviene prima che la trascrizione inizi, quindi non è necessario etichettare i file audio per lingua in anticipo.

Domande frequenti

Quale lingua ha la trascrizione più accurata?

L'inglese ha la trascrizione AI più accurata nel 2026, con i modelli allo stato dell'arte che raggiungono 1,4-2,7% di WER su audio pulito LibriSpeech e circa il 4% di WER sul parlato spontaneo del mondo reale. Spagnolo, mandarino, francese, tedesco, italiano e portoghese seguono da vicino nell'intervallo 3-6% di WER.

Quanto è accurato Whisper tra le lingue?

Whisper large-v3 raggiunge un WER inferiore al 10% su circa 30 lingue sul benchmark FLEURS, includendo tutto il Livello 1 e la maggior parte delle lingue di Livello 2 in questa guida. La sua accuratezza degrada bruscamente sotto quel livello, con alcune lingue a basse risorse che superano il 50% di WER.

Quale WER è considerato "buono"?

Per la maggior parte delle applicazioni aziendali, un WER inferiore al 10% produce una trascrizione che è più veloce da leggere e modificare rispetto all'audio originale. Sotto il 5% è generalmente considerato accuratezza quasi umana. Sopra il 20% richiede una correzione manuale significativa per essere utilizzabile come testo pubblicato.

Perché la mia trascrizione in tedesco è più accurata della mia trascrizione in thailandese?

Il tedesco è una lingua di Livello 1 con decine di migliaia di ore di dati di addestramento, caratteristiche fonetiche condivise con l'inglese (che ha il dataset più grande) e ampia adozione nella trascrizione commerciale. Il thailandese è una lingua tonale, senza spazi con dati di addestramento etichettati significativamente inferiori. Anche i migliori modelli hanno un divario WER di 7-10 punti tra le due.

Posso migliorare l'accuratezza della trascrizione per la mia lingua specifica?

Sì. Miglioramenti della qualità audio, vocabolari personalizzati e dati di addestramento specifici per lo speaker possono tutti ridurre il WER del 5-15% nella maggior parte delle lingue. Per il Livello 3 e inferiori, utilizzare un flusso di lavoro ibrido AI + editor umano produce un'accuratezza finale superiore al 98% a una frazione del costo della trascrizione puramente umana.

I benchmark di trascrizione di FLEURS e Common Voice sono comparabili all'audio del mondo reale?

Non direttamente. L'audio dei benchmark è tipicamente più pulito, letto piuttosto che spontaneo, e registrato con apparecchiature professionali. L'audio del mondo reale (riunioni, telefonate, interviste di strada) produce tipicamente 5-15 punti WER più alti rispetto all'audio del benchmark per la stessa lingua e modello.

Riepilogo

L'accuratezza della trascrizione AI nel 2026 è funzione del livello linguistico, della qualità audio e dell'adattamento modello-task. Le lingue di Livello 1 offrono accuratezza quasi umana su audio pulito; il Livello 3 richiede editing; il Livello 5 è sperimentale. Il divario tra le prestazioni migliori e medie su audio del mondo reale si è ampliato poiché i modelli top sono migliorati più velocemente di quelli di livello medio, rendendo la selezione degli strumenti più rilevante di quanto fosse tre anni fa.

Se sta costruendo o scegliendo una pipeline di trascrizione, la cosa più utile che può fare è testare la sua lingua specifica e il dominio audio su 2-3 campioni rappresentativi prima di impegnarsi. I benchmark sono un punto di partenza, non una decisione.