Vocova
PrezziBlog

Prodotto

  • Prezzi
  • Blog
  • Vedi tutti gli strumenti

Soluzioni

  • Per podcaster
  • Per creator video
  • Interviste multilingue

Azienda

  • Chi siamo
  • FAQ
  • Termini di servizio
  • Informativa sulla privacy
  • Contatti

Trascrizione

  • Audio in testo
  • Video in testo
  • Trascrizione podcast
  • Trascrizione interviste
  • Trascrizione lezioni

Piattaforma

  • Link video in testo
  • Trascrizione YouTube
  • YouTube in SRT
  • Trascrizione Apple Podcasts
  • Trascrizione Zoom
  • Trascrizione Google Meet
  • Trascrizione TikTok
  • TikTok in SRT
  • Trascrizione Loom
  • Trascrizione Bilibili
  • Trascrizione Vimeo
  • Trascrizione Instagram
  • Trascrizione Facebook
  • Trascrizione X (Twitter)
  • Trascrizione SoundCloud
  • Trascrizione Reddit
  • Trascrizione Dailymotion

Lingua

  • Trascrizione giapponese
  • Trascrizione spagnolo
  • Trascrizione in francese
  • Trascrizione tedesca
  • Trascrizione portoghese
  • Trascrizione coreana
  • Trascrizione cinese
  • Trascrizione araba
  • Trascrizione in hindi
  • Trascrizione italiano
  • Trascrizione russo
  • Trascrizione del thai
  • Trascrizione vietnamita
  • Trascrizione turca
  • Trascrizione indonesiano
  • Trascrizione olandese
  • Trascrizione in polacco
  • Trascrizione svedese
  • Trascrizione cantonese
  • Trascrizione in tagalog

Traduzione

  • Traduzione audio
  • Sottotitoli bilingui
  • Traduzione video
  • Dal giapponese all'inglese
  • Dal cinese all'inglese
  • Da spagnolo a inglese
  • Dal coreano all'inglese
  • Da francese a inglese

Formato

  • MP4 in SRT
  • MP4 in TXT
  • Video in PDF
  • Da MP4 a testo
  • Da MP3 a testo
  • WAV in testo
  • Da M4A a testo
  • Da MOV a testo
  • Generatore SRT
  • Generatore VTT
  • Generatore di sottotitoli

Convertitore

  • Convertitore audio
  • Convertitore video
  • MP4 a MP3

Riassumi

  • Riassuntore di podcast
  • Riassuntore YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
PrezziBlog

Prodotto

  • Prezzi
  • Blog
  • Vedi tutti gli strumenti

Soluzioni

  • Per podcaster
  • Per creator video
  • Interviste multilingue

Azienda

  • Chi siamo
  • FAQ
  • Termini di servizio
  • Informativa sulla privacy
  • Contatti

Trascrizione

  • Audio in testo
  • Video in testo
  • Trascrizione podcast
  • Trascrizione interviste
  • Trascrizione lezioni

Piattaforma

  • Link video in testo
  • Trascrizione YouTube
  • YouTube in SRT
  • Trascrizione Apple Podcasts
  • Trascrizione Zoom
  • Trascrizione Google Meet
  • Trascrizione TikTok
  • TikTok in SRT
  • Trascrizione Loom
  • Trascrizione Bilibili
  • Trascrizione Vimeo
  • Trascrizione Instagram
  • Trascrizione Facebook
  • Trascrizione X (Twitter)
  • Trascrizione SoundCloud
  • Trascrizione Reddit
  • Trascrizione Dailymotion

Lingua

  • Trascrizione giapponese
  • Trascrizione spagnolo
  • Trascrizione in francese
  • Trascrizione tedesca
  • Trascrizione portoghese
  • Trascrizione coreana
  • Trascrizione cinese
  • Trascrizione araba
  • Trascrizione in hindi
  • Trascrizione italiano
  • Trascrizione russo
  • Trascrizione del thai
  • Trascrizione vietnamita
  • Trascrizione turca
  • Trascrizione indonesiano
  • Trascrizione olandese
  • Trascrizione in polacco
  • Trascrizione svedese
  • Trascrizione cantonese
  • Trascrizione in tagalog

Traduzione

  • Traduzione audio
  • Sottotitoli bilingui
  • Traduzione video
  • Dal giapponese all'inglese
  • Dal cinese all'inglese
  • Da spagnolo a inglese
  • Dal coreano all'inglese
  • Da francese a inglese

Formato

  • MP4 in SRT
  • MP4 in TXT
  • Video in PDF
  • Da MP4 a testo
  • Da MP3 a testo
  • WAV in testo
  • Da M4A a testo
  • Da MOV a testo
  • Generatore SRT
  • Generatore VTT
  • Generatore di sottotitoli

Convertitore

  • Convertitore audio
  • Convertitore video
  • MP4 a MP3

Riassumi

  • Riassuntore di podcast
  • Riassuntore YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
PrezziBlog
BlogQuanto è accurata la trascrizione AI? Risultati WER per oltre 50 lingue (2026)

Quanto è accurata la trascrizione AI? Risultati WER per oltre 50 lingue (2026)

L'accuratezza della trascrizione AI varia enormemente in base alla lingua. Abbiamo testato Whisper, NVIDIA Canary e altri 5 modelli su oltre 50 lingue. Scopri quali modelli sono usabili per giapponese, arabo, vietnamita e la tua lingua target.

16 apr 2026·14 min di lettura·
accuracywermultilingualbenchmarks

L'accuratezza della trascrizione varia drasticamente a seconda della lingua. Su audio pulito nel 2026, i migliori sistemi di riconoscimento vocale automatico (ASR) raggiungono word error rate inferiori al 5% in inglese, spagnolo e mandarino, tra il 7-12% in lingue a risorse medie come polacco, coreano e vietnamita, e 20-40% o più in molte lingue a basse risorse come amarico, yoruba o singalese. Il divario di accuratezza si riduce al volume di dati di addestramento, alla complessità fonetica e alla diversità dei dialetti che ogni modello ha visto.

Questa guida raccoglie i benchmark WER pubblicati da Whisper, NVIDIA Canary, Google USM e dalla Hugging Face Open ASR Leaderboard, organizzati per livello linguistico. Se sta valutando uno strumento di trascrizione per una lingua specifica, o sta cercando di capire perché il suo audio tedesco viene trascritto in modo impeccabile ma il suo audio thailandese no, i dati qui sotto spiegano il divario.

In sintesi: livelli di accuratezza a colpo d'occhio

LivelloIntervallo WERLingue (rappresentative)Cosa aspettarsi
Livello 12-6% WERInglese, mandarino, spagnolo, francese, tedesco, giapponese, italiano, portogheseAccuratezza quasi umana su audio pulito
Livello 26-12% WERCoreano, olandese, russo, arabo, turco, polacco, catalano, svedeseQualità di produzione, servono modifiche minori
Livello 312-20% WERVietnamita, hindi, thailandese, greco, rumeno, ucraino, ebraico, indonesianoUtilizzabile, aspettarsi una pulizia manuale significativa
Livello 420-40% WERTamil, bengalese, swahili, filippino, malese, urdu, nepaleseQualità bozza, revisione umana richiesta
Livello 5>40% WERAmarico, yoruba, singalese, khmer, lao, birmano, malteseSperimentale, spesso inutilizzabile senza pesante post-editing

Fonti: OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Come si misurano i benchmark WER

Ogni numero in questo post proviene da una delle tre suite di benchmark pubbliche. Comprendere cosa testa ciascuna previene l'errore comune di confrontare un punteggio di laboratorio con le prestazioni nel mondo reale.

LibriSpeech (solo inglese) utilizza registrazioni pulite di audiolibri. È il benchmark più semplice contro cui la maggior parte dei modelli viene eseguita, quindi i suoi numeri rappresentano il limite inferiore di ciò che un modello può fare in condizioni ideali. Il WER inglese allo stato dell'arte su LibriSpeech test-clean è intorno all'1,4-2,7%.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) copre 102 lingue con ~12 ore di parlato per lingua. Utilizza le stesse frasi tra le lingue (traduzioni di contenuti Wikipedia), il che rende significativo il confronto tra lingue. FLEURS è il benchmark multilingue più ampiamente citato.

Common Voice (Mozilla) contiene registrazioni crowdsourced in oltre 100 lingue. È più rumoroso di FLEURS perché gli speaker sono non-professionisti in ambienti vari, quindi il WER su Common Voice è tipicamente 2-5 punti più alto rispetto a FLEURS nella stessa lingua.

L'audio del mondo reale, con accenti, speaker sovrapposti, rumore di fondo e apparecchiature di registrazione imperfette, aggiunge altri 5-15 punti di WER sopra i numeri del benchmark. Un modello che riporta il 5% di WER su FLEURS può produrre il 10-15% su una tipica registrazione Zoom.

Livello 1: accuratezza molto alta (2-6% WER)

Queste lingue hanno i corpus di addestramento più grandi (decine di migliaia di ore di audio etichettato) e la maggiore attenzione da parte degli sviluppatori di modelli. Aspettarsi trascrizioni pronte per la produzione su audio pulito con editing minimo.

LinguaWhisper large-v3 FLEURS WERNVIDIA Canary WER (dove disponibile)Note
Inglese4,2%6,5% (Canary-1B Common Voice)Lingua di riferimento, la maggior parte dei benchmark si concentra qui
Spagnolo3,0%4,6%Particolarmente forte sulle varietà latinoamericane
Cinese mandarino5,7% (CER)--Misurato in character error rate, non WER
Francese4,7%6,0%Il francese europeo domina i dati di addestramento
Tedesco4,5%4,8%Forte sul tedesco standard; i dialetti svizzeri/austriaci degradano
Italiano4,0%4,2%Tra le lingue europee meglio coperte
Portoghese3,9%3,6%Il portoghese brasiliano è la maggioranza nei dati di addestramento
Giapponese4,9% (CER)--Metrica a livello di carattere; la qualità della frase è eccellente

Le lingue di Livello 1 beneficiano della pressione delle applicazioni commerciali: doppiaggio, closed captioning e ricerca hanno guidato la creazione di dataset per decenni. Se sta trascrivendo in una qualsiasi di queste, la scelta del modello conta meno della qualità dell'audio che le fornisce.

Livello 2: alta accuratezza (6-12% WER)

Queste lingue hanno dati di addestramento significativi ma un volume inferiore al Livello 1 o una maggiore complessità fonetica. La maggior parte dei casi d'uso in produzione funziona bene, ma aspettarsi di correggere occasionali nomi propri e termini tecnici sentiti male.

LinguaWhisper large-v3 FLEURS WERNote
Coreano7,0% (CER)Livello carattere; l'accuratezza della frase è generalmente alta
Olandese6,1%Beneficia della vicinanza ai dati di addestramento di tedesco e inglese
Russo8,8%Buono sul russo standard; gli accenti regionali degradano
Arabo9,5% (standard moderno)L'arabo dialettale (egiziano, levantino, del Golfo) è molto più difficile
Turco9,6%La morfologia agglutinante aggiunge complessità
Polacco8,6%Lingua slava ben coperta
Catalano5,1%Supera il proprio numero di parlanti grazie a dataset dedicati
Svedese7,0%Forte per una lingua più piccola; i corpus nordici sono ben curati
Norvegese9,0%Due standard scritti (Bokmål/Nynorsk) complicano la valutazione
Ucraino10,2%Miglioramento significativo post-2022 grazie alla crescita del dataset
Danese9,6%Fonetica difficile, ma ben rappresentato

Per le lingue di Livello 2, la scelta del modello inizia a contare. Whisper large-v3, NVIDIA Canary-1B-v2 e Google USM tendono a scambiarsi la leadership a seconda della lingua specifica, quindi vale la pena controllare confronti specifici sui benchmark prima di standardizzare una pipeline.

Livello 3: accuratezza media (12-20% WER)

Queste lingue sono quelle in cui la trascrizione AI diventa visibilmente imperfetta. Le trascrizioni sono ancora utilizzabili come prima bozza, ma aspettarsi di correggere diversi errori per minuto di audio, specialmente attorno a entità nominate, numeri e particelle discorsive.

LinguaWhisper large-v3 FLEURS WERNote
Vietnamita13,6%Tonale; gli errori di tono sono comuni
Hindi13,8%Forte varianza tra accenti e code-switching con l'inglese
Thailandese13,3% (CER)L'assenza di spazi tra le parole complica la tokenizzazione
Greco13,5%Corpus di addestramento più piccolo di altre lingue europee
Rumeno14,9%In rapido miglioramento con la crescita dei dataset
Ebraico15,9%Scrittura da destra a sinistra, morfologia ricca
Indonesiano13,4%Forte per il suo livello di risorse
Croato17,7%Le caratteristiche condivise con altre lingue slave meridionali aiutano
Serbo15,7%Sono supportati sia il cirillico che il latino
Ceco13,5%Solido nonostante la complessità morfologica
Bulgaro15,6%Lingua slava con livello di risorse moderato

Il code-switching -- dove gli speaker alternano tra due lingue in una singola enunciazione -- tende a colpire le lingue di Livello 3 più duramente del Livello 1 perché è meno probabile che i dati di addestramento includano la specifica coppia linguistica.

Livello 4: accuratezza inferiore (20-40% WER)

Le lingue in questo livello spesso hanno centinaia di milioni di parlanti ma dati di addestramento etichettati limitati. La trascrizione produce una bozza che è più veloce da modificare che da scrivere da zero ma richiede una revisione umana sostanziale.

LinguaWhisper large-v3 FLEURS WERNote
Tamil29,4%Lingua dravidica con morfologia complessa
Bengalese28,8%Ampia base di parlanti ma sottorappresentata nell'addestramento
Telugu32,8%Sfide simili al tamil
Swahili34,2%Lingua franca dell'Africa orientale, dataset in crescita
Filippino (tagalog)22,4%Il forte code-switching con l'inglese è comune nel parlato naturale
Malese21,3%Le caratteristiche condivise con l'indonesiano aiutano
Urdu26,3%Correlato all'hindi ma scritto in alfabeto perso-arabo
Nepalese30,0%Corpus di addestramento piccolo
Punjabi29,1%Il code-switching punjabi-inglese è comune
Kannada33,5%Famiglia dravidica
Marathi30,7%Lingua indo-ariana con risorse moderate

Per le lingue di Livello 4, i flussi di lavoro ibridi in cui l'AI produce la prima bozza e un editor madrelingua la ripulisce sono tipicamente l'opzione con il throughput più alto. La trascrizione puramente umana è ancora più veloce della correzione di un output AI pesantemente confuso in molti casi.

Livello 5: risorse basse e sperimentali (>40% WER)

Queste lingue hanno o dati etichettati molto limitati, una significativa distanza fonetica da qualsiasi lingua su cui il modello è stato addestrato, o entrambi. La trascrizione in queste lingue è utilizzabile per indicizzazione e ricerca di contenuti ma non per testi pubblicabili.

Esempi includono amarico (Etiopia, ~42% WER), yoruba (Nigeria, ~43% WER), singalese (Sri Lanka, ~48% WER), khmer (Cambogia, ~50% WER), lao (Laos, ~52% WER), birmano (~55% WER) e maltese (~45% WER). I numeri variano significativamente tra modelli e benchmark. Il divario si sta chiudendo con la crescita dei dataset della comunità, ma per i casi d'uso in produzione in queste lingue, i fornitori specializzati che hanno investito in dati specifici per la lingua tipicamente superano i modelli generici di 5-15 punti WER.

Cosa determina il divario di accuratezza

Tre fattori spiegano la maggior parte della varianza del WER tra le lingue.

Il volume di dati di addestramento è il singolo predittore più forte. Whisper è stato addestrato su 680.000 ore di audio, ma il 65% di queste era in inglese. Le lingue con risorse più alte ottengono decine di migliaia di ore; le lingue con risorse più basse ne ottengono poche centinaia. Ogni raddoppio dei dati di addestramento dimezza approssimativamente il WER residuo finché non entrano in gioco i rendimenti decrescenti.

La complessità fonetica e morfologica crea effetti soffitto anche con dati abbondanti. Le lingue tonali (mandarino, vietnamita, thailandese, yoruba) costringono il modello a distinguere parole foneticamente simili dal contorno di altezza. Le lingue agglutinanti (turco, finlandese, swahili) costruiscono parole lunghe da molti morfemi, che interagiscono con la tokenizzazione. Le scritture da destra a sinistra (arabo, ebraico) e i sistemi di scrittura logografici (cinese, giapponese) spostano la metrica da WER a character error rate e cambiano ciò che conta come sostituzione.

La corrispondenza di dominio audio conta tanto quanto la lingua. Un modello addestrato principalmente su dati di audiolibri letti ad alta voce avrà prestazioni inferiori su conversazione spontanea nella stessa lingua. Per i casi d'uso di trascrizione aziendale (riunioni, interviste, podcast), la scelta del modello dovrebbe essere informata dal fatto che il fornitore faccia fine-tuning su audio conversazionale o di trasmissione piuttosto che solo su monologhi puliti.

Come migliorare l'accuratezza per le lingue di livello inferiore

Esistono passi pratici che riducono significativamente il WER per qualsiasi lingua, sebbene l'impatto sia maggiore quando la baseline è più alta.

Migliorare l'audio prima di trascrivere. Riduzione del rumore, isolamento dello speaker e livelli di registrazione coerenti possono ridurre il WER di 2-5 punti su audio del mondo reale. Questa guida alla qualità audio copre i miglioramenti più rapidi.

Fornire contesto di dominio. Molte API di trascrizione accettano un elenco di termini tecnici, nomi propri o frasi che probabilmente appariranno nell'audio. Questi vocabolari biased riducono gli errori di sostituzione per gergo di settore ed entità nominate del 10-30% quando configurati correttamente.

Scegliere il modello giusto per lingua. Whisper è in testa in alcune lingue, NVIDIA Canary in altre e fornitori specifici per lingua in alcune (in particolare giapponese, coreano e arabo). Se una lingua specifica è critica per il suo flusso di lavoro, testare 2-3 fornitori su un campione rappresentativo vale l'ora investita.

Utilizzare un editor umano per l'ultimo miglio. Per il Livello 3 e inferiori, un editor madrelingua che rivede una trascrizione AI è circa 5-8 volte più veloce della trascrizione da zero, e l'accuratezza finale arriva sopra il 98%.

Piattaforme come Vocova supportano la trascrizione in oltre 100 lingue con rilevamento automatico della lingua, il che rimuove l'attrito di scegliere il modello giusto per lingua. Il rilevamento avviene prima che la trascrizione inizi, quindi non è necessario etichettare i file audio per lingua in anticipo.

Domande frequenti

Quale lingua ha la trascrizione più accurata?

L'inglese ha la trascrizione AI più accurata nel 2026, con i modelli allo stato dell'arte che raggiungono 1,4-2,7% di WER su audio pulito LibriSpeech e circa il 4% di WER sul parlato spontaneo del mondo reale. Spagnolo, mandarino, francese, tedesco, italiano e portoghese seguono da vicino nell'intervallo 3-6% di WER.

Quanto è accurato Whisper tra le lingue?

Whisper large-v3 raggiunge un WER inferiore al 10% su circa 30 lingue sul benchmark FLEURS, includendo tutto il Livello 1 e la maggior parte delle lingue di Livello 2 in questa guida. La sua accuratezza degrada bruscamente sotto quel livello, con alcune lingue a basse risorse che superano il 50% di WER.

Quale WER è considerato "buono"?

Per la maggior parte delle applicazioni aziendali, un WER inferiore al 10% produce una trascrizione che è più veloce da leggere e modificare rispetto all'audio originale. Sotto il 5% è generalmente considerato accuratezza quasi umana. Sopra il 20% richiede una correzione manuale significativa per essere utilizzabile come testo pubblicato.

Perché la mia trascrizione in tedesco è più accurata della mia trascrizione in thailandese?

Il tedesco è una lingua di Livello 1 con decine di migliaia di ore di dati di addestramento, caratteristiche fonetiche condivise con l'inglese (che ha il dataset più grande) e ampia adozione nella trascrizione commerciale. Il thailandese è una lingua tonale, senza spazi con dati di addestramento etichettati significativamente inferiori. Anche i migliori modelli hanno un divario WER di 7-10 punti tra le due.

Posso migliorare l'accuratezza della trascrizione per la mia lingua specifica?

Sì. Miglioramenti della qualità audio, vocabolari personalizzati e dati di addestramento specifici per lo speaker possono tutti ridurre il WER del 5-15% nella maggior parte delle lingue. Per il Livello 3 e inferiori, utilizzare un flusso di lavoro ibrido AI + editor umano produce un'accuratezza finale superiore al 98% a una frazione del costo della trascrizione puramente umana.

I benchmark di trascrizione di FLEURS e Common Voice sono comparabili all'audio del mondo reale?

Non direttamente. L'audio dei benchmark è tipicamente più pulito, letto piuttosto che spontaneo, e registrato con apparecchiature professionali. L'audio del mondo reale (riunioni, telefonate, interviste di strada) produce tipicamente 5-15 punti WER più alti rispetto all'audio del benchmark per la stessa lingua e modello.

Riepilogo

L'accuratezza della trascrizione AI nel 2026 è funzione del livello linguistico, della qualità audio e dell'adattamento modello-task. Le lingue di Livello 1 offrono accuratezza quasi umana su audio pulito; il Livello 3 richiede editing; il Livello 5 è sperimentale. Il divario tra le prestazioni migliori e medie su audio del mondo reale si è ampliato poiché i modelli top sono migliorati più velocemente di quelli di livello medio, rendendo la selezione degli strumenti più rilevante di quanto fosse tre anni fa.

Se sta costruendo o scegliendo una pipeline di trascrizione, la cosa più utile che può fare è testare la sua lingua specifica e il dominio audio su 2-3 campioni rappresentativi prima di impegnarsi. I benchmark sono un punto di partenza, non una decisione.

Fonti e approfondimenti

  • OpenAI, "Robust Speech Recognition via Large-Scale Weak Supervision" (Whisper paper, 2022)
  • Google Research, "FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
  • Hugging Face Open ASR Leaderboard
  • NVIDIA, scheda del modello Canary-1B-v2
  • Dataset Mozilla Common Voice
  • Vocova sulla trascrizione multilingue

Articoli correlati

Leggi di piu
10 feb 2026·14 min

Cos'è il tasso di errore sulle parole (WER)? La metrica che misura l'accuratezza della trascrizione

Leggi di piu
6 mag 2026·13 min

Come trascrivere audio in più lingue: guida al workflow 2026

Leggi di piu
25 feb 2026·14 min

Come l'IA sta trasformando la comunicazione multilingue

Prodotto

  • Prezzi
  • Blog
  • Vedi tutti gli strumenti

Soluzioni

  • Per podcaster
  • Per creator video
  • Interviste multilingue

Azienda

  • Chi siamo
  • FAQ
  • Termini di servizio
  • Informativa sulla privacy
  • Contatti

Trascrizione

  • Audio in testo
  • Video in testo
  • Trascrizione podcast
  • Trascrizione interviste
  • Trascrizione lezioni

Piattaforma

  • Link video in testo
  • Trascrizione YouTube
  • YouTube in SRT
  • Trascrizione Apple Podcasts
  • Trascrizione Zoom
  • Trascrizione Google Meet
  • Trascrizione TikTok
  • TikTok in SRT
  • Trascrizione Loom
  • Trascrizione Bilibili
  • Trascrizione Vimeo
  • Trascrizione Instagram
  • Trascrizione Facebook
  • Trascrizione X (Twitter)
  • Trascrizione SoundCloud
  • Trascrizione Reddit
  • Trascrizione Dailymotion

Lingua

  • Trascrizione giapponese
  • Trascrizione spagnolo
  • Trascrizione in francese
  • Trascrizione tedesca
  • Trascrizione portoghese
  • Trascrizione coreana
  • Trascrizione cinese
  • Trascrizione araba
  • Trascrizione in hindi
  • Trascrizione italiano
  • Trascrizione russo
  • Trascrizione del thai
  • Trascrizione vietnamita
  • Trascrizione turca
  • Trascrizione indonesiano
  • Trascrizione olandese
  • Trascrizione in polacco
  • Trascrizione svedese
  • Trascrizione cantonese
  • Trascrizione in tagalog

Traduzione

  • Traduzione audio
  • Sottotitoli bilingui
  • Traduzione video
  • Dal giapponese all'inglese
  • Dal cinese all'inglese
  • Da spagnolo a inglese
  • Dal coreano all'inglese
  • Da francese a inglese

Formato

  • MP4 in SRT
  • MP4 in TXT
  • Video in PDF
  • Da MP4 a testo
  • Da MP3 a testo
  • WAV in testo
  • Da M4A a testo
  • Da MOV a testo
  • Generatore SRT
  • Generatore VTT
  • Generatore di sottotitoli

Convertitore

  • Convertitore audio
  • Convertitore video
  • MP4 a MP3

Riassumi

  • Riassuntore di podcast
  • Riassuntore YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt