Formati di file per sottotitoli: guida completa a SRT, WebVTT, ASS, SBV, STL e TTML (2026)
Ogni formato di sottotitoli principale spiegato con specifiche, esempi di codice, compatibilità delle piattaforme e guida alla decisione. SRT, WebVTT, ASS/SSA, SBV, STL e TTML/DFXP a confronto per il 2026.
Un file di sottotitoli è un documento di testo semplice che indica a un player video quale testo mostrare, quando mostrarlo e -- opzionalmente -- come stilizzarlo e posizionarlo. I sette formati che contano nel 2026 sono SRT (baseline universale), WebVTT (nativo per il web, HTML5), ASS/SSA (stile avanzato per anime e karaoke), SBV (formato interno di YouTube), STL (standard broadcast europeo) e TTML/DFXP (standard XML del W3C utilizzato da Netflix e nei flussi di lavoro broadcast). Ognuno ha un compito specifico, e usare quello sbagliato garantisce grattacapi di compatibilità.
Questo riferimento copre la specifica tecnica, un esempio minimo, il supporto delle piattaforme e un albero decisionale in modo che possa scegliere il formato giusto al primo tentativo. Se ha bisogno solo di un confronto a due formati, il post SRT vs VTT è più breve. Questa guida è la mappa completa.
Confronto rapido
| Formato | Estensione | Stile | Posizionamento | Uso principale | Copertura piattaforme |
|---|---|---|---|---|---|
| SRT | .srt | Minimo (corsivo, grassetto, sottolineato) | Nessuno | Riproduzione video universale | Quasi universale |
| WebVTT | .vtt | Basato su CSS | Completo (x,y,align) | Video HTML5, web | Tutti i browser moderni |
| ASS / SSA | .ass, .ssa | Ricco (font, colori, effetti) | Completo | Anime, karaoke, sottotitoli stilizzati | VLC, MPV, Aegisub |
| SBV | .sbv | Nessuno | Nessuno | Upload su YouTube | Solo YouTube Studio |
| STL (EBU) | .stl | Broadcast-safe | Sì | TV broadcast europea | Broadcast professionale |
| TTML / DFXP | .ttml, .dfxp, .xml | XML + CSS | Completo | OTT, broadcast, Netflix | Netflix, flussi SMPTE |
Ogni formato principale è testo semplice leggibile dall'uomo tranne alcune varianti di STL. Uno qualsiasi di essi può essere convertito in un altro, sebbene si perda lo stile quando si passa da formati più ricchi a quelli più semplici.
SRT (SubRip Text)
SRT è il minimo comune denominatore dei formati di sottotitoli. È stato progettato per lo strumento di DVD-ripping SubRip nei primi anni 2000, e la sua semplicità è esattamente il motivo per cui è diventato universale -- praticamente ogni player video, editor video e piattaforma di streaming lo supporta.
Struttura. Un file SRT è una sequenza di cue, ognuno con un indice numerico, un timestamp di inizio e fine separati da --> e una o più righe di testo. I cue sono separati da una riga vuota. I timestamp utilizzano HH:MM:SS,mmm (virgola come separatore decimale).
Esempio minimo:
1
00:00:01,000 --> 00:00:03,500
Benvenuti al video.
2
00:00:04,000 --> 00:00:07,200
I sottotitoli rendono i contenuti accessibili
a un pubblico globale.
Stile. SRT supporta un piccolo sottoinsieme di tag simili a HTML: <i>corsivo</i>, <b>grassetto</b>, <u>sottolineato</u> e <font color="#ff0000">colorato</font>. Il supporto dei tag varia a seconda del player. Qualsiasi cosa oltre questi non è portabile.
Limitazioni. Nessun posizionamento, nessun testo verticale, nessuna animazione, nessun controllo CSS preciso. Unicode è supportato ma alcuni player più vecchi assumono Windows-1252 o Latin-1, quindi salvi come UTF-8 senza BOM per la massima compatibilità.
Quando usarlo. Scelta predefinita per upload su piattaforme video, riproduzione locale e ovunque serva la massima compatibilità.
WebVTT (Web Video Text Tracks)
WebVTT è lo standard W3C per i sottotitoli video HTML5. È stato progettato per essere superficialmente compatibile con SRT aggiungendo le funzionalità di cui il web ha effettivamente bisogno: stile CSS, posizionamento, cue di metadati e marcatori di capitoli.
Struttura. Inizia con un'intestazione WEBVTT, seguita dai cue. I timestamp utilizzano HH:MM:SS.mmm (punto come separatore decimale, non virgola). I cue possono trasportare suggerimenti di stile e posizionamento inline.
Esempio minimo:
WEBVTT
1
00:00:01.000 --> 00:00:03.500
Benvenuti al video.
2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
I sottotitoli rendono i contenuti accessibili
a un pubblico globale.
Stile. Supporta CSS tramite gli pseudo-elementi ::cue e ::cue(selector) in un foglio di stile, o blocchi STYLE direttamente nel file VTT. Ottiene il controllo su colore, sfondo, font, dimensione del font, peso ed effetti ombra.
Posizionamento. Le impostazioni dei cue (line, position, size, align, vertical) controllano dove appare il testo. Questo è il principale vantaggio funzionale rispetto a SRT.
Estensioni. Supporta blocchi NOTE per commenti, blocchi STYLE per CSS incorporato e tracce di capitoli/metadati tramite l'attributo kind sull'elemento HTML <track>.
Quando usarlo. Video HTML5, player web, marcatori di capitoli e ovunque serva controllo a livello CSS sull'aspetto delle didascalie.
ASS / SSA (Advanced SubStation Alpha)
ASS (Advanced SubStation Alpha) e il suo predecessore SSA sono il formato pesante del mondo dei sottotitoli. Originariamente sviluppato per lo strumento di sottotitolazione karaoke e anime SubStation Alpha, ASS fornisce le opzioni di stile più ricche di qualsiasi formato di sottotitoli ampiamente utilizzato.
Struttura. Sezioni simili a INI: [Script Info], [V4+ Styles], [Events]. Gli eventi sono i veri cue di sottotitoli, ognuno con un layer, tempo di inizio/fine, nome stile e testo. Il testo può contenere tag di override inline tra parentesi graffe ({\b1}grassetto{\b0}, {\c&H00FFFF&}giallo, {\pos(100,200)}posizionato).
Esempio minimo:
[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080
[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Benvenuti al video.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}I sottotitoli{\b0} contano.
Stile. Stili nominati definiti una volta e applicati a molti cue. Gli override inline possono animare proprietà (\t(start,end,\fscx120) scala orizzontalmente tra due tempi), ruotare il testo, applicare ombre e contorni, e disegnare grafica vettoriale usando i comandi \p1 ... \p0.
Quando usarlo. Fansub di anime, testi karaoke, didascalie fortemente stilizzate e ogni volta che serve controllo di livello produzione su tipografia e posizionamento. Eccessivo per la maggior parte dei casi d'uso.
Compatibilità. VLC, MPV, mpv.net e la maggior parte dei player della community anime supportano pienamente ASS. I player web generalmente no. YouTube rimuove lo stile ASS all'upload.
SBV (formato YouTube)
SBV è il formato di sottotitoli interno storico di YouTube. È essenzialmente un SRT ridotto senza indici o stile. YouTube Studio accetta ancora SBV insieme a SRT, VTT, TTML e diversi altri formati.
Struttura. Timestamp separati da una virgola, seguiti dal testo del sottotitolo. Cue separati da righe vuote. I timestamp utilizzano H:MM:SS.mmm.
Esempio minimo:
0:00:01.000,0:00:03.500
Benvenuti al video.
0:00:04.000,0:00:07.200
I sottotitoli rendono i contenuti accessibili
a un pubblico globale.
Quando usarlo. Quasi mai, al di fuori del caso ristretto di caricare direttamente su YouTube dove si hanno già esportazioni SBV da uno strumento. Per nuovi flussi di lavoro, usi SRT o VTT -- YouTube accetta entrambi.
STL (formato EBU di scambio dati per sottotitoli)
EBU-STL è il formato binario di scambio sottotitoli dell'European Broadcasting Union, standardizzato in EBU Tech 3264. È il formato dominante nella televisione broadcast europea ed è richiesto da molte emittenti pubbliche per la consegna.
Struttura. Container binario con un'intestazione general subtitle information (GSI) seguita da una sequenza di blocchi text and timing information (TTI), ciascuno di 128 byte. Il blocco GSI codifica metadati come lingua, set di caratteri, frame rate e rapporto d'aspetto. Ogni blocco TTI è un singolo cue con numeri di frame di ingresso/uscita precisi e attributi di stile.
Stile. Supporta attributi di colore e posizionamento in stile teletext, caratteri a doppia altezza e sfondi box. L'output è visivamente vincolato per corrispondere alle capacità tradizionali delle didascalie broadcast.
Quando usarlo. Consegna broadcast alle reti TV europee (BBC, ZDF, France Télévisions, ecc.). Se non si lavora nel broadcast professionale, non toccherà questo formato.
Compatibilità. Il software broadcast professionale (EZTitles, WinCAPS, Subtitle Workshop) gestisce STL. I player video di consumo no.
TTML e DFXP (W3C Timed Text Markup Language)
TTML (Timed Text Markup Language) è il formato XML del W3C che è diventato la spina dorsale della distribuzione professionale OTT (over-the-top) e streaming. DFXP è il profilo di TTML originariamente standardizzato dal W3C, e IMSC (SMPTE-TT) è un profilo più stringente utilizzato da emittenti e Netflix.
Struttura. Documento XML con un elemento radice <tt> contenente <head> (stili, regioni, metadati) e <body> (divisioni contenenti paragrafi, ognuno che rappresenta un cue di sottotitolo con tempi di inizio/fine).
Esempio minimo:
<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="en">
<head>
<styling>
<style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
</styling>
</head>
<body>
<div style="default">
<p begin="00:00:01.000" end="00:00:03.500">Welcome to the video.</p>
<p begin="00:00:04.000" end="00:00:07.200">Subtitles make content accessible<br/>to global audiences.</p>
</div>
</body>
</tt>
Stile. Stile completo simile a CSS inline o tramite definizioni di stile. Supporta regioni per il posizionamento, animazioni tramite elementi <set>, annotazioni ruby per la tipografia est-asiatica e semantica di rich text.
Quando usarlo. Consegna a Netflix, piattaforme OTT, flussi broadcast che richiedono profili SMPTE-TT o IMSC e ovunque serva stile preciso che sopravviva alle pipeline di elaborazione.
Compatibilità. Netflix richiede IMSC 1.1. Amazon Prime, Hulu e Disney+ accettano varianti TTML. Apple TV utilizza iTunes Timed Text (iTT), un profilo di TTML. I player di consumo generalmente preferiscono SRT o VTT.
Matrice di compatibilità delle piattaforme
| Piattaforma | SRT | VTT | ASS/SSA | SBV | STL | TTML/DFXP |
|---|---|---|---|---|---|---|
| YouTube (upload) | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ |
| Vimeo | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Netflix (consegna) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ (IMSC) |
| Amazon Prime (consegna) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
HTML5 <track> | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
| VLC | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| MPV | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Adobe Premiere Pro | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| DaVinci Resolve | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| Final Cut Pro | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ (iTT) |
| TikTok / Instagram Reels | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
"Consegna" significa che la piattaforma accetta quel formato nella sua pipeline di ingest, non che viene riprodotto direttamente nell'app di consumo.
Albero decisionale: quale formato dovrebbe usare?
Risponda a queste domande in ordine. Il primo sì è il suo formato.
- Sta consegnando a Netflix o a un altro servizio OTT importante? Utilizzi TTML / IMSC 1.1. Questo è un requisito rigido, non una preferenza.
- Sta consegnando alla TV broadcast europea? Utilizzi EBU-STL. Controlli le specifiche di consegna dell'emittente specifica per la variante STL esatta.
- Ha bisogno di sottotitoli stilizzati per anime, karaoke o contenuti tipografici pesanti? Utilizzi ASS / SSA. Nessun altro formato offre controllo comparabile.
- Sta incorporando video HTML5 sul web? Utilizzi WebVTT. È il formato nativo per l'elemento
<track>. - Sta caricando su YouTube? Utilizzi SRT (input preferito da YouTube) o VTT. Salti SBV a meno che non abbia un flusso di lavoro legacy.
- Ha bisogno della massima compatibilità tra player sconosciuti? Utilizzi SRT. Nulla è supportato più universalmente.
Per la maggior parte dei creatori di contenuti -- podcaster, YouTuber, creatori di corsi -- la risposta è quasi sempre SRT o WebVTT. I formati esotici sono rilevanti solo quando una specifica piattaforma o cliente li impone.
Conversione tra formati
Tutti e sette i formati sono convertibili, ma ogni conversione perde informazioni in una direzione. Passare da un formato ricco (ASS, TTML) a uno semplice (SRT, SBV) rimuove stile e posizionamento. Andare nella direzione opposta preserva il testo ma non può ricreare lo stile originale.
Strumenti comuni di conversione:
- FFmpeg:
ffmpeg -i input.ass output.srtgestisce la maggior parte delle conversioni di sottotitoli incluso lo strip-to-plain-text. - Subtitle Edit (Windows, gratuito): GUI per la conversione tra ~30 formati di sottotitoli con anteprima visiva.
- Aegisub (multipiattaforma, gratuito): Editor ASS specializzato che importa ed esporta in SRT e VTT.
- Convertitori online: Utili per conversioni una tantum, ma li eviti per contenuti sensibili (gli upload escono dal suo controllo).
La conversione programmatica è semplice per coppie di formati che condividono un modello basato su cue (SRT, VTT, SBV, eventi ASS). I formati XML (TTML/DFXP) necessitano di un parser adeguato a causa di namespace ed elementi annidati.
Codifica caratteri e Unicode
Tutti i formati moderni di sottotitoli supportano UTF-8 e questa è l'unica codifica che dovrebbe usare nel 2026. I file legacy potrebbero essere in Windows-1252, Latin-1, Shift-JIS o GB2312 -- se il suo testo viene visualizzato come ?????? o é invece di é, il file è nella codifica sbagliata. La maggior parte degli editor le consente di salvare nuovamente come UTF-8.
Un singolo errore da tenere d'occhio: non salvi UTF-8 con un byte-order mark (BOM). Il BOM è costituito da tre byte invisibili all'inizio del file che confondono parser SRT più vecchi e alcune pipeline di streaming. In VS Code, utilizzi "Save with Encoding → UTF-8" piuttosto che "UTF-8 with BOM".
Generazione di sottotitoli da audio
I servizi moderni di trascrizione producono direttamente nella maggior parte dei formati di sottotitoli. La pipeline tipica è:
- Caricare o incollare l'audio/video sorgente
- Scegliere i formati di output: SRT, VTT, TXT o DOCX
- Scaricare il file generato e allegarlo al proprio video
Vocova supporta l'esportazione in SRT, VTT, DRCX (Descript), testo semplice e PDF con timestamp, coprendo ogni esigenza pratica per i creatori di contenuti e la maggior parte dei flussi di lavoro professionali. Se ha bisogno di TTML, ASS o STL, l'approccio standard è esportare prima in SRT e poi convertire utilizzando gli strumenti elencati sopra.
Per una guida approfondita sulla generazione di sottotitoli da video, consulti la guida ai generatori di sottotitoli AI.
Domande frequenti
Qual è il formato di sottotitoli più ampiamente utilizzato?
SRT è il formato di sottotitoli più ampiamente utilizzato nel 2026. È supportato essenzialmente da ogni player video, editor video e piattaforma di streaming, e la sua semplicità lo rende l'output predefinito della maggior parte degli strumenti di trascrizione.
Qual è la differenza tra SRT e VTT?
SRT è il formato universale legacy con stile minimo e nessun posizionamento. WebVTT è lo standard HTML5 moderno con stile CSS completo, posizionamento e marcatori di capitoli. WebVTT utilizza i punti nei timestamp (.), mentre SRT utilizza le virgole (,).
YouTube supporta WebVTT?
Sì. YouTube Studio accetta WebVTT, SRT, SBV, TTML, SAMI e diversi altri formati all'upload. SRT è la scelta più comune perché è il più semplice da generare e modificare.
Posso usare i file di sottotitoli per la conformità all'accessibilità?
Sì. Tutti i formati elencati possono fungere da closed caption quando includono l'identificazione dello speaker e suoni non parlati ([musica in riproduzione], [porta che sbatte]). La trascrizione per l'accessibilità copre i requisiti specifici WCAG.
Quale formato richiede Netflix?
Netflix richiede IMSC 1.1, un profilo di TTML. Le specifiche di consegna impongono specifici vincoli di stile, tempistica e metadati che vanno oltre il generico TTML. Netflix pubblica la sua Timed Text Style Guide per i fornitori che devono soddisfare le specifiche.
ASS è ancora utilizzato nel 2026?
Sì, ASS rimane lo standard per i fansub di anime, i sottotitoli in stile karaoke e qualsiasi caso d'uso che necessiti di controllo tipografico oltre quello che offre VTT. Non è stato deprecato e continua a ricevere aggiornamenti dagli strumenti della community.
Come aggiungo lo stile a SRT?
SRT supporta un piccolo insieme di tag HTML inline: <i>, <b>, <u> e <font color="...">. Qualsiasi cosa più avanzata richiede il passaggio a VTT o ASS.
Riepilogo
Il formato di sottotitoli giusto dipende da dove andrà il suo file, non dalle preferenze personali. SRT per compatibilità universale, WebVTT per il web, ASS per tipografia stilizzata, TTML per consegna OTT, STL per broadcast europeo e SBV quasi mai. Unicode tutto come UTF-8 senza BOM, e converta tra formati usando FFmpeg o Subtitle Edit quando una piattaforma richiede un input specifico.
Se sta iniziando un flusso di lavoro di trascrizione, generi prima SRT o VTT -- coprono il 90% delle esigenze dei creatori di contenuti, e ogni altro formato è a una conversione di distanza.
