SRT vs WebVTT nel 2026: quale formato di sottotitoli funziona su YouTube, Vimeo, Netflix

SRT (SubRip Text) e VTT (WebVTT) sono i due formati di file per sottotitoli più ampiamente utilizzati: SRT è lo standard storico con supporto quasi universale nei player video, mentre VTT è il formato moderno nativo per il web, progettato per il video HTML5 con capacità integrate di stile e posizionamento.

La scelta del formato di sottotitoli corretto influisce sulla compatibilità, sulle opzioni di stile e su come i sottotitoli vengono visualizzati sulle diverse piattaforme. Questa guida analizza esattamente come SRT e VTT differiscono, quali piattaforme supportano ciascuno e quando scegliere uno piuttosto che l'altro.

Cos'è SRT?

SRT sta per SubRip Text, un formato di sottotitoli originato alla fine degli anni '90 come parte del software SubRip, uno strumento progettato per estrarre ("rippare") i sottotitoli dai DVD. Nonostante la sua età, SRT rimane il formato di sottotitoli più universalmente supportato nel settore.

Un file SRT è un file di testo semplice con estensione .srt. Ogni voce di sottotitolo è composta da tre parti: un indice numerico sequenziale, una riga di timecode che mostra i tempi di inizio e fine, e una o più righe di testo del sottotitolo. Le voci sono separate da righe vuote.

Ecco la struttura di un file SRT:

1
00:00:01,000 --> 00:00:04,000
Questa è la prima riga di sottotitolo.

2
00:00:05,500 --> 00:00:08,200
Questo è il secondo sottotitolo.
Può occupare più righe.

3
00:00:10,000 --> 00:00:13,750
L'identificazione dello speaker viene fatta
manualmente nel testo stesso.

Caratteristiche principali del formato SRT:

Formato timecode: HH:MM:SS,mmm (ore, minuti, secondi, millisecondi separati da una virgola)
Numerazione sequenziale: Ogni cue è numerato a partire da 1
Solo testo semplice: Nessun supporto nativo per stile, colori o posizionamento
Codifica: Tipicamente UTF-8, anche se i file più vecchi possono usare altre codifiche
Separatore freccia: I tempi di inizio e fine sono separati da -->

La semplicità di SRT è sia il suo punto di forza maggiore che la sua limitazione principale. Qualsiasi editor di testo può creare e modificare file SRT, e virtualmente ogni player video e applicazione di editing può leggerli. Tuttavia, non è possibile controllare dimensione del font, colore, posizionamento o qualsiasi altra proprietà visiva all'interno delle specifiche del formato.

Cos'è VTT?

VTT sta per WebVTT (Web Video Text Tracks), un formato di sottotitoli e didascalie sviluppato dal W3C (World Wide Web Consortium) specificamente per l'uso con gli elementi HTML5 <video> e <track>. La specifica è stata pubblicata per la prima volta nel 2010 ed è diventata una Raccomandazione W3C, rendendolo lo standard ufficiale per i sottotitoli video basati sul web.

Un file VTT è un file di testo semplice con estensione .vtt. Deve iniziare con l'intestazione WEBVTT, opzionalmente seguita da metadati. Ogni cue può includere un identificatore opzionale, una riga di timecode e il testo del sottotitolo.

Ecco la struttura di un file VTT:

WEBVTT
Kind: captions
Language: it

intro
00:00:01.000 --> 00:00:04.000
Questa è la prima riga di sottotitolo.

00:00:05.500 --> 00:00:08.200
Questo è il secondo sottotitolo.
Può occupare più righe.

styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Speaker 1>Questo cue ha il posizionamento
e un tag voce per l'identificazione dello speaker.</v>

Caratteristiche principali del formato VTT:

Intestazione obbligatoria: Ogni file deve iniziare con WEBVTT
Formato timecode: HH:MM:SS.mmm (usa un punto per i millisecondi, non una virgola)
Identificatori cue opzionali: I cue possono avere ID nominati invece di numeri sequenziali
Supporto stile CSS: Supporta lo pseudo-elemento ::cue per lo stile tramite CSS
Posizionamento: Le impostazioni dei cue consentono il controllo di verticale, linea, posizione, dimensione e allineamento
Tag voce: I tag <v Nome Speaker> abilitano l'identificazione dello speaker all'interno del formato
Intestazioni metadati: Coppie chiave-valore dopo l'intestazione WEBVTT per contesto aggiuntivo
Commenti: Supporta blocchi NOTE per annotazioni a livello di file

VTT è stato progettato per affrontare le limitazioni dei formati di sottotitoli più vecchi integrandosi nativamente con le tecnologie web. Il suo supporto per lo stile CSS, i tag voce degli speaker e il posizionamento dei cue lo rendono significativamente più espressivo di SRT per i player video basati sul web.

SRT vs VTT: differenze principali

Sebbene SRT e VTT sembrino simili a prima vista, differiscono in diversi aspetti importanti oltre l'estensione del file.

Caratteristica	SRT	VTT
Estensione file	`.srt`	`.vtt`
Intestazione file	Non richiesta	`WEBVTT` richiesta
Separatore timecode	Virgola (`,`)	Punto (`.`)
Numerazione cue	Numeri sequenziali richiesti	Identificatori nominati opzionali
Stile testo	Non supportato	Stile CSS `::cue`, grassetto, corsivo, sottolineato
Posizionamento	Non supportato	Impostazioni di linea, posizione, dimensione, allineamento
Identificazione speaker	Manuale (basata sul testo)	Tag voce nativi (`<v>`)
Commenti	Non supportati	Blocchi `NOTE` supportati
Metadati	Non supportati	Coppie chiave-valore nell'intestazione
Tag HTML	Limitati (alcuni player supportano `<b>`, `<i>`)	Supporto completo (`<b>`, `<i>`, `<u>`, `<c>`, `<v>`, `<lang>`)
Codifica caratteri	Variabile (UTF-8 raccomandato)	UTF-8 richiesto
Standard web	No	Raccomandazione W3C

La differenza più pratica per la maggior parte degli utenti è compatibilità rispetto a capacità. SRT funziona ovunque ma non fa nulla oltre a mostrare testo temporizzato. VTT funziona nativamente sul web con ricche opzioni di formattazione ma ha un supporto più ristretto negli editor video desktop e nei player multimediali legacy.

Compatibilità con le piattaforme

Sapere quali piattaforme accettano quale formato fa risparmiare tempo ed evita problemi di conversione. Ecco una panoramica del supporto sulle principali piattaforme e strumenti.

Piattaforma / strumento	SRT	VTT	Note
YouTube	Sì	Sì	Accetta entrambi per upload manuale; genera auto SRT
Vimeo	Sì	Sì	Accetta entrambi; raccomanda VTT per lo stile
HTML5 `<video>`	No	Sì	VTT è l'unico formato supportato nativamente
VLC Media Player	Sì	Sì	Supporto completo per entrambi i formati
Adobe Premiere Pro	Sì	No	Import/export SRT; nessun supporto nativo VTT
DaVinci Resolve	Sì	No	SRT preferito per l'importazione
Final Cut Pro	Sì	No	SRT e iTT supportati
Facebook / Instagram	Sì	Sì	SRT preferito per l'upload
TikTok	Sì	No	SRT per upload di closed caption
Netflix	Entrambi (via TTML)	Entrambi (via TTML)	Preferisce TTML/DFXP per la distribuzione
Zoom	Sì	Sì	VTT per registrazioni cloud
Microsoft Teams	Sì	Sì	VTT generato per le trascrizioni delle riunioni
WordPress	No	Sì	Il video HTML5 usa VTT nativamente
Wistia	Sì	Sì	Accetta entrambi per upload di didascalie

Lo schema generale: le piattaforme web e gli strumenti moderni supportano VTT, mentre i software di editing video e i player legacy favoriscono SRT. Se si produce contenuto per la riproduzione web, VTT è la scelta naturale. Se si consegnano file agli editor o si caricano sui social media, SRT è la scommessa più sicura.

Quando usare SRT

Scelga SRT quando un'ampia compatibilità conta più del controllo sulla formattazione.

Flussi di lavoro di editing video. La maggior parte dei software di editing professionale -- Premiere Pro, DaVinci Resolve, Final Cut Pro, Avid Media Composer -- gestisce SRT nativamente. Se i file dei sottotitoli devono muoversi tra diversi editor, SRT evita problemi di conversione.

Upload sui social media. Piattaforme come TikTok e Instagram accettano SRT per sottotitoli incorporati o closed caption. Quando si caricano sottotitoli sulle piattaforme social, SRT è spesso l'unico formato accettato.

Supporto sistemi legacy. Player multimediali più vecchi, set-top box e strumenti di authoring DVD/Blu-ray sono stati costruiti intorno a SRT. Se il pubblico utilizza hardware o software di riproduzione datati, SRT garantisce la compatibilità.

Semplicità e portabilità. I file SRT sono banalmente facili da creare, modificare e debuggare. Non c'è un'intestazione da ricordare, nessuna sintassi speciale, e il formato è autoesplicativo anche per chi lo vede per la prima volta.

Consegna freelance e ai clienti. Quando si consegnano file di sottotitoli a clienti o collaboratori, SRT è il default più sicuro perché non richiede spiegazioni e funziona con qualsiasi strumento utilizzato dal destinatario.

Quando usare VTT

Scelga VTT quando servono funzionalità native per il web, stile o conformità all'accessibilità.

Video web HTML5. Se si incorpora video su un sito web utilizzando l'elemento <video>, VTT è l'unico formato di sottotitoli supportato dal tag <track>. Non è necessario alcun livello di conversione o libreria JavaScript.

Sottotitoli stilizzati. VTT permette di applicare stile CSS ai sottotitoli utilizzando lo pseudo-elemento ::cue. È possibile controllare font, colore, sfondo, opacità e ombra del testo -- tutto attraverso CSS standard.

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffffff;
  font-size: 1.2em;
}

Posizionamento dei sottotitoli. VTT supporta impostazioni dei cue per un posizionamento preciso. Questo è utile per evitare sovrapposizioni con grafiche sullo schermo, nomi degli speaker o terzi inferiori.

00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
Questo sottotitolo appare in alto a sinistra.

Identificazione dello speaker. I tag voce di VTT (<v>) forniscono un modo strutturato per identificare gli speaker, utile per trascrizioni di riunioni, interviste e contenuti con più speaker. I player possono usare questi tag per stilizzare speaker diversi con colori diversi.

Conformità all'accessibilità. Per la conformità WCAG 2.1 sui contenuti web, VTT è il formato raccomandato perché si integra con le API di accessibilità HTML5 e supporta sia i sottotitoli (per spettatori sordi o con difficoltà uditive) che le descrizioni (per spettatori ciechi o ipovedenti).

Come convertire tra SRT e VTT

La conversione tra SRT e VTT è semplice perché i formati sono strutturalmente simili.

Conversione da SRT a VTT

Per convertire manualmente un file SRT in VTT:

Aggiungere WEBVTT come prima riga del file
Aggiungere una riga vuota dopo l'intestazione
Sostituire tutte le virgole nei timecode con punti (00:00:01,000 diventa 00:00:01.000)
Opzionalmente rimuovere i numeri sequenziali dei cue (non sono richiesti in VTT)
Salvare il file con estensione .vtt

Prima (SRT):

1
00:00:01,000 --> 00:00:04,000
Benvenuti alla presentazione.

2
00:00:05,500 --> 00:00:08,200
Oggi tratteremo tre argomenti.

Dopo (VTT):

WEBVTT

00:00:01.000 --> 00:00:04.000
Benvenuti alla presentazione.

00:00:05.500 --> 00:00:08.200
Oggi tratteremo tre argomenti.

Conversione da VTT a SRT

Per convertire un file VTT in SRT:

Rimuovere l'intestazione WEBVTT e tutte le righe di metadati
Sostituire tutti i punti nei timecode con virgole (00:00:01.000 diventa 00:00:01,000)
Aggiungere numeri sequenziali dei cue prima di ogni riga di timecode
Rimuovere qualsiasi funzionalità specifica di VTT (tag voce, posizionamento, classi CSS)
Salvare il file con estensione .srt

Conversione automatizzata

Per conversioni batch o cambi di formato frequenti, strumenti come Vocova gestiscono tutto automaticamente. Quando si generano sottotitoli da audio o video in Vocova, è possibile esportare direttamente sia in SRT che in VTT (insieme a PDF, DOCX, CSV e TXT) senza conversione manuale. Questo è particolarmente utile quando si necessita dello stesso contenuto in più formati per piattaforme diverse.

La maggior parte delle applicazioni di editing video e degli editor di sottotitoli online include anche la conversione dei formati integrata. FFmpeg può convertire tra formati da riga di comando:

ffmpeg -i subtitles.srt subtitles.vtt

Altri formati di sottotitoli da conoscere

SRT e VTT coprono la maggior parte dei casi d'uso, ma esistono diversi altri formati per applicazioni specializzate.

ASS / SSA (Advanced SubStation Alpha)

ASS e il suo predecessore SSA sono formati di sottotitoli popolari nella comunità del fansubbing anime. Supportano stili avanzati tra cui font, colori, animazioni, effetti karaoke e posizionamento preciso sullo schermo. I file ASS sono significativamente più complessi di SRT o VTT e sono utilizzati principalmente con player multimediali come VLC e MPC-HC. La maggior parte delle piattaforme web non accetta file ASS direttamente.

TTML (Timed Text Markup Language)

TTML è un formato di sottotitoli basato su XML mantenuto dal W3C. È utilizzato nei flussi di lavoro professionali di broadcast e streaming, in particolare da Netflix, BBC e altri importanti distributori di contenuti. TTML supporta stili ricchi, posizionamento basato su regioni e più tracce di sottotitoli in un singolo file. La sua struttura XML lo rende verboso ma altamente strutturato.

SCC (Scenarist Closed Captions)

SCC è un formato legacy utilizzato nella televisione broadcast nordamericana. Codifica i dati di closed caption CEA-608 ed è richiesto per il captioning conforme alla FCC negli Stati Uniti. I file SCC non sono leggibili dall'uomo e richiedono software specializzato per la creazione e la modifica. Se si produce contenuto per la televisione broadcast, il fornitore di captioning consegnerà probabilmente file SCC.

SBV (SubViewer)

SBV è un formato di sottotitoli semplice storicamente utilizzato da YouTube per i sottotitoli generati automaticamente. È strutturalmente simile a SRT ma utilizza un formato di timecode diverso. SBV è stato in gran parte soppiantato da SRT e VTT per gli upload su YouTube.

Domande frequenti

Posso caricare file SRT su YouTube?

Sì. YouTube accetta sia file SRT che VTT per gli upload manuali di sottotitoli. È possibile caricarli tramite YouTube Studio nella sezione "Sottotitoli" di qualsiasi video. YouTube genera anche sottotitoli automatici, che possono essere scaricati in formato SRT.

VTT supporta stili e colori?

Sì. VTT supporta lo stile CSS tramite lo pseudo-elemento ::cue, tag inline come ,  e , e stile basato su classi con <c.classname>. È possibile controllare colore del font, colore dello sfondo, dimensione del testo e opacità. Tuttavia, non tutti i player video renderizzano gli stili VTT -- il supporto dipende dall'implementazione del player.

Quale formato è migliore per l'accessibilità?

VTT è il formato raccomandato per la conformità all'accessibilità web. Si integra con le API di accessibilità HTML5, supporta attributi kind (sottotitoli, descrizioni, capitoli) e consente l'identificazione dello speaker tramite tag voce. Per la conformità WCAG 2.1 sui video web, VTT con l'elemento <track> è l'approccio standard.

I file SRT possono contenere formattazione come grassetto o corsivo?

La specifica SRT non include la formattazione. Tuttavia, molti player video interpretano i tag HTML di base (, , ) all'interno dei cue SRT e li renderizzano di conseguenza. Questo comportamento non è garantito su tutti i player, quindi fare affidamento su di esso per formattazione critica è rischioso.

Qual è la dimensione massima dei file di sottotitoli?

Non esiste un limite di dimensione a livello di formato né per SRT né per VTT. I limiti specifici delle piattaforme variano: YouTube consente file di sottotitoli fino a 10 MB, mentre la maggior parte delle piattaforme accetta file ben sotto 1 MB per durate video tipiche. Un video di un'ora produce tipicamente un file di sottotitoli tra 50 e 150 KB.

Come si generano file SRT o VTT da audio o video?

È possibile generare file di sottotitoli trascrivendo il proprio audio o video con uno strumento di riconoscimento vocale automatico. Servizi come Vocova trascrivono audio in oltre 100 lingue con timestamp e etichette degli speaker, poi permettono di esportare direttamente in SRT, VTT e altri formati. Il generatore di sottotitoli di Vocova esporta entrambi i formati automaticamente. Per un confronto degli strumenti di generazione sottotitoli, consulti la nostra guida ai migliori generatori di sottotitoli AI.

Fonti e approfondimenti

W3C WebVTT: The Web Video Text Tracks Format — la specifica WebVTT
Matroska — notes on SubRip/SRT (non esiste una specifica SRT formale)