Formatos de arquivo de legendas: guia completo de SRT, WebVTT, ASS, SBV, STL e TTML (2026)
Todo formato principal de legendas explicado com especificações, amostras de código, compatibilidade de plataforma e guia de decisão. SRT, WebVTT, ASS/SSA, SBV, STL e TTML/DFXP comparados para 2026.
Um arquivo de legendas é um documento em texto simples que diz a um player de vídeo qual texto mostrar, quando mostrá-lo e -- opcionalmente -- como estilizá-lo e posicioná-lo. Os sete formatos que importam em 2026 são SRT (linha de base universal), WebVTT (nativo da web, HTML5), ASS/SSA (estilização avançada para anime e karaokê), SBV (formato interno do YouTube), STL (padrão de broadcast europeu) e TTML/DFXP (padrão W3C baseado em XML usado pela Netflix e fluxos de broadcast). Cada um tem um trabalho específico, e usar o errado garante dores de cabeça com compatibilidade.
Esta referência cobre a especificação técnica, um exemplo mínimo, suporte de plataforma e uma árvore de decisão para que você possa escolher o formato certo da primeira vez. Se você só precisa de uma comparação entre dois formatos, o post SRT vs VTT é mais curto. Este guia é o mapa completo.
Comparação rápida
| Formato | Extensão | Estilização | Posicionamento | Uso principal | Cobertura de plataforma |
|---|---|---|---|---|---|
| SRT | .srt | Mínima (itálico, negrito, sublinhado) | Nenhum | Reprodução universal de vídeo | Quase universal |
| WebVTT | .vtt | Baseada em CSS | Completo (x,y,align) | Vídeo HTML5, web | Todos os navegadores modernos |
| ASS / SSA | .ass, .ssa | Rica (fontes, cores, efeitos) | Completo | Anime, karaokê, legendas estilizadas | VLC, MPV, Aegisub |
| SBV | .sbv | Nenhuma | Nenhum | Uploads no YouTube | Apenas YouTube Studio |
| STL (EBU) | .stl | Segura para broadcast | Sim | TV broadcast europeia | Broadcast profissional |
| TTML / DFXP | .ttml, .dfxp, .xml | XML + CSS | Completo | OTT, broadcast, Netflix | Netflix, fluxos SMPTE |
Todo formato principal é texto simples legível por humanos, exceto algumas variantes do STL. Qualquer um deles pode ser convertido para outro, embora você perca estilização ao ir de formatos mais ricos para mais simples.
SRT (SubRip Text)
SRT é o mínimo denominador comum dos formatos de legendas. Foi projetado para a ferramenta de rip de DVD SubRip no início dos anos 2000, e sua simplicidade é exatamente o motivo pelo qual se tornou universal -- virtualmente todo player de vídeo, editor de vídeo e plataforma de streaming o suporta.
Estrutura. Um arquivo SRT é uma sequência de cues, cada um com um índice numérico, um timestamp de início e fim separados por -->, e uma ou mais linhas de texto. Os cues são separados por uma linha em branco. Timestamps usam HH:MM:SS,mmm (vírgula como separador decimal).
Exemplo mínimo:
1
00:00:01,000 --> 00:00:03,500
Bem-vindo ao vídeo.
2
00:00:04,000 --> 00:00:07,200
Legendas tornam o conteúdo acessível
para públicos globais.
Estilização. O SRT suporta um pequeno subconjunto de tags semelhantes a HTML: <i>itálico</i>, <b>negrito</b>, <u>sublinhado</u> e <font color="#ff0000">colorido</font>. O suporte a tags varia de player para player. Qualquer coisa além disso não é portátil.
Limitações. Sem posicionamento, sem texto vertical, sem animação, sem controle CSS preciso. Unicode é suportado, mas alguns players mais antigos assumem Windows-1252 ou Latin-1, então salve como UTF-8 sem BOM para máxima compatibilidade.
Quando usar. Escolha padrão para uploads em plataformas de vídeo, reprodução local e em qualquer lugar onde você precise de compatibilidade máxima.
WebVTT (Web Video Text Tracks)
WebVTT é o padrão W3C para legendas de vídeo HTML5. Foi projetado para ser compatível com SRT na superfície enquanto adiciona os recursos que a web realmente precisa: estilização CSS, posicionamento, cues de metadados e marcadores de capítulos.
Estrutura. Começa com um cabeçalho WEBVTT, seguido por cues. Timestamps usam HH:MM:SS.mmm (ponto como separador decimal, não vírgula). Cues podem carregar dicas de estilização e posicionamento inline.
Exemplo mínimo:
WEBVTT
1
00:00:01.000 --> 00:00:03.500
Bem-vindo ao vídeo.
2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
Legendas tornam o conteúdo acessível
para públicos globais.
Estilização. Suporta CSS via pseudo-elementos ::cue e ::cue(seletor) em uma folha de estilo, ou blocos STYLE diretamente no arquivo VTT. Você obtém controle sobre cor, fundo, fonte, tamanho da fonte, peso e efeitos de sombra.
Posicionamento. Configurações de cue (line, position, size, align, vertical) controlam onde o texto aparece. Esta é a principal vantagem funcional sobre o SRT.
Extensões. Suporta blocos NOTE para comentários, blocos STYLE para CSS embutido e faixas de capítulo/metadados via o atributo kind no elemento HTML <track>.
Quando usar. Vídeo HTML5, players web, marcadores de capítulo e em qualquer lugar onde você precise de controle em nível de CSS sobre a aparência das legendas.
ASS / SSA (Advanced SubStation Alpha)
ASS (Advanced SubStation Alpha) e seu predecessor SSA são o formato pesado do mundo de legendas. Originalmente desenvolvido para a ferramenta de karaokê e legendagem de anime SubStation Alpha, o ASS oferece as opções de estilização mais ricas de qualquer formato de legendas amplamente usado.
Estrutura. Seções semelhantes a INI: [Script Info], [V4+ Styles], [Events]. Events são os cues de legenda propriamente ditos, cada um com uma camada, tempo de início/fim, nome de estilo e texto. O texto pode conter tags de override inline entre chaves ({\b1}negrito{\b0}, {\c&H00FFFF&}amarelo, {\pos(100,200)}posicionado).
Exemplo mínimo:
[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080
[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Bem-vindo ao vídeo.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}Legendas{\b0} importam.
Estilização. Estilos nomeados definidos uma vez e aplicados a muitos cues. Overrides inline podem animar propriedades (\t(start,end,\fscx120) escala horizontalmente entre dois tempos), rotacionar texto, aplicar sombras e contornos, e desenhar gráficos vetoriais usando comandos \p1 ... \p0.
Quando usar. Fansubs de anime, letras de karaokê, legendas altamente estilizadas e qualquer momento em que você precise de controle de produção sobre tipografia e posicionamento. Exagero para a maioria dos casos de uso.
Compatibilidade. VLC, MPV, mpv.net e a maioria dos players da comunidade de anime suportam ASS completamente. Players web geralmente não suportam. O YouTube remove a estilização ASS no upload.
SBV (formato YouTube)
SBV é o formato histórico de legendas interno do YouTube. É essencialmente um SRT simplificado sem índices ou estilização. O YouTube Studio ainda aceita SBV junto com SRT, VTT, TTML e vários outros formatos.
Estrutura. Timestamps separados por vírgula, seguidos pelo texto da legenda. Cues separados por linhas em branco. Timestamps usam H:MM:SS.mmm.
Exemplo mínimo:
0:00:01.000,0:00:03.500
Bem-vindo ao vídeo.
0:00:04.000,0:00:07.200
Legendas tornam o conteúdo acessível
para públicos globais.
Quando usar. Quase nunca, fora do caso estrito de fazer upload diretamente para o YouTube onde você já tem exportações SBV de uma ferramenta. Para novos fluxos de trabalho, use SRT ou VTT -- o YouTube aceita ambos.
STL (formato de intercâmbio de dados de legendagem EBU)
EBU-STL é o formato de intercâmbio binário de legendas da European Broadcasting Union, padronizado no EBU Tech 3264. É o formato dominante na televisão broadcast europeia e é exigido por muitas emissoras públicas para entrega.
Estrutura. Container binário com um cabeçalho de informação geral de legenda (GSI) seguido por uma sequência de blocos de informação de texto e tempo (TTI), cada um de 128 bytes. O bloco GSI codifica metadados como idioma, conjunto de caracteres, taxa de quadros e proporção. Cada bloco TTI é um único cue com números precisos de frame de entrada/saída e atributos de estilização.
Estilização. Suporta atributos de cor e posicionamento no estilo teletexto, caracteres de altura dupla e fundos de caixa. A saída é visualmente limitada para corresponder às capacidades tradicionais de legendagem de broadcast.
Quando usar. Entrega broadcast para redes de TV europeias (BBC, ZDF, France Télévisions, etc.). Se você não está trabalhando em broadcast profissional, não tocará neste formato.
Compatibilidade. Software profissional de broadcast (EZTitles, WinCAPS, Subtitle Workshop) lida com STL. Players de vídeo de consumo não.
TTML e DFXP (W3C Timed Text Markup Language)
TTML (Timed Text Markup Language) é o formato baseado em XML do W3C que se tornou a espinha dorsal da entrega profissional de OTT (over-the-top) e streaming. DFXP é o perfil de TTML originalmente padronizado pelo W3C, e IMSC (SMPTE-TT) é um perfil mais restrito usado por emissoras e pela Netflix.
Estrutura. Documento XML com um elemento raiz <tt> contendo <head> (estilos, regiões, metadados) e <body> (divisões contendo parágrafos, cada um representando um cue de legenda com tempo de início/fim).
Exemplo mínimo:
<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="en">
<head>
<styling>
<style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
</styling>
</head>
<body>
<div style="default">
<p begin="00:00:01.000" end="00:00:03.500">Bem-vindo ao vídeo.</p>
<p begin="00:00:04.000" end="00:00:07.200">Legendas tornam o conteúdo acessível<br/>para públicos globais.</p>
</div>
</body>
</tt>
Estilização. Estilização completa no estilo CSS inline ou via definições de estilo. Suporta regiões para posicionamento, animações via elementos <set>, anotações ruby para tipografia do leste asiático e semântica de rich text.
Quando usar. Entrega para Netflix, plataformas OTT, fluxos de broadcast que exigem perfis SMPTE-TT ou IMSC, e em qualquer lugar onde você precise de estilização precisa que sobreviva aos pipelines de processamento.
Compatibilidade. A Netflix exige IMSC 1.1. Amazon Prime, Hulu e Disney+ aceitam variantes de TTML. A Apple TV usa iTunes Timed Text (iTT), um perfil de TTML. Players de consumo geralmente preferem SRT ou VTT.
Matriz de compatibilidade de plataformas
| Plataforma | SRT | VTT | ASS/SSA | SBV | STL | TTML/DFXP |
|---|---|---|---|---|---|---|
| YouTube (upload) | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ |
| Vimeo | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Netflix (entrega) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ (IMSC) |
| Amazon Prime (entrega) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
HTML5 <track> | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
| VLC | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| MPV | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Adobe Premiere Pro | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| DaVinci Resolve | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| Final Cut Pro | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ (iTT) |
| TikTok / Instagram Reels | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
"Entrega" significa que a plataforma aceita esse formato em seu pipeline de ingestão, não que ele seja reproduzido diretamente no app do consumidor.
Árvore de decisão: qual formato você deveria usar?
Responda estas na ordem. O primeiro sim é seu formato.
- Você está entregando para a Netflix ou outro grande serviço OTT? Use TTML / IMSC 1.1. Esta é uma exigência absoluta, não uma preferência.
- Você está entregando para TV broadcast europeia? Use EBU-STL. Verifique a especificação de entrega da emissora específica para a variante STL exata.
- Você precisa de legendas estilizadas para anime, karaokê ou conteúdo com tipografia pesada? Use ASS / SSA. Nenhum outro formato oferece controle comparável.
- Você está incorporando em vídeo HTML5 na web? Use WebVTT. É o formato nativo para o elemento
<track>. - Você está fazendo upload no YouTube? Use SRT (entrada preferida do YouTube) ou VTT. Pule SBV a menos que você tenha um fluxo de trabalho legado.
- Você precisa de compatibilidade máxima entre players desconhecidos? Use SRT. Nada é mais universalmente suportado.
Para a maioria dos criadores de conteúdo -- podcasters, YouTubers, criadores de cursos -- a resposta quase sempre é SRT ou WebVTT. Os formatos exóticos são relevantes apenas quando uma plataforma ou cliente específico os exige.
Convertendo entre formatos
Todos os sete formatos são conversíveis, mas cada conversão perde informação em uma direção. Ir de um formato rico (ASS, TTML) para um formato simples (SRT, SBV) remove estilização e posicionamento. Ir no outro sentido preserva o texto mas não pode recriar a estilização de origem.
Ferramentas comuns de conversão:
- FFmpeg:
ffmpeg -i input.ass output.srtlida com a maioria das conversões de legendas incluindo remoção para texto simples. - Subtitle Edit (Windows, gratuito): GUI para converter entre aproximadamente 30 formatos de legendas com pré-visualização visual.
- Aegisub (multiplataforma, gratuito): Editor especializado em ASS que importa e exporta para SRT e VTT.
- Conversores online: Úteis para conversões pontuais, mas evite-os para conteúdo sensível (uploads saem do seu controle).
A conversão programática é direta para pares de formatos que compartilham um modelo baseado em cues (SRT, VTT, SBV, eventos ASS). Formatos XML (TTML/DFXP) precisam de um parser adequado por causa de namespaces e elementos aninhados.
Codificação de caracteres e Unicode
Todos os formatos modernos de legendas suportam UTF-8 e esta é a única codificação que você deve usar em 2026. Arquivos legados podem estar em Windows-1252, Latin-1, Shift-JIS ou GB2312 -- se seu texto é renderizado como ?????? ou é em vez de é, o arquivo está na codificação errada. A maioria dos editores permite que você salve novamente como UTF-8.
Um erro único a observar: não salve UTF-8 com uma byte-order mark (BOM). O BOM é de três bytes invisíveis no início do arquivo que confundem parsers de SRT mais antigos e alguns pipelines de streaming. No VS Code, use "Save with Encoding → UTF-8" em vez de "UTF-8 with BOM".
Gerando legendas a partir de áudio
Serviços modernos de transcrição exportam diretamente para a maioria dos formatos de legendas. O pipeline típico é:
- Envie ou cole o áudio/vídeo de origem
- Escolha o(s) formato(s) de saída: SRT, VTT, TXT ou DOCX
- Baixe o arquivo gerado e anexe ao seu vídeo
O Vocova suporta exportação para SRT, VTT, DRCX (Descript), texto simples e PDF com marcação de tempo, cobrindo toda necessidade prática para criadores de conteúdo e a maioria dos fluxos de trabalho profissionais. Se você precisa de TTML, ASS ou STL, a abordagem padrão é exportar para SRT primeiro e depois converter usando as ferramentas listadas acima.
Para um passo a passo mais profundo sobre geração de legendas a partir de vídeo, veja o guia de geradores de legendas com IA.
Perguntas frequentes
Qual é o formato de legendas mais amplamente usado?
SRT é o formato de legendas mais amplamente usado em 2026. É suportado por essencialmente todo player de vídeo, editor de vídeo e plataforma de streaming, e sua simplicidade o torna a saída padrão da maioria das ferramentas de transcrição.
Qual é a diferença entre SRT e VTT?
SRT é o formato universal legado com estilização mínima e sem posicionamento. WebVTT é o padrão moderno HTML5 com estilização CSS completa, posicionamento e marcadores de capítulo. WebVTT usa pontos em timestamps (.), enquanto SRT usa vírgulas (,).
O YouTube suporta WebVTT?
Sim. O YouTube Studio aceita WebVTT, SRT, SBV, TTML, SAMI e vários outros formatos no upload. SRT é a escolha mais comum por ser o mais simples de gerar e editar.
Posso usar arquivos de legendas para conformidade com acessibilidade?
Sim. Todos os formatos listados podem servir como closed captions quando incluem identificação de falantes e sons não-verbais ([música tocando], [porta batendo]). Transcrição para acessibilidade cobre os requisitos específicos do WCAG.
Qual formato a Netflix exige?
A Netflix exige IMSC 1.1, um perfil de TTML. As especificações de entrega exigem restrições específicas de estilização, tempo e metadados que vão além do TTML genérico. A Netflix publica seu Timed Text Style Guide para fornecedores que precisam atender à especificação.
O ASS ainda é usado em 2026?
Sim, o ASS continua sendo o padrão para fansubs de anime, legendas no estilo karaokê e qualquer caso de uso que precise de controle tipográfico além do que o VTT oferece. Não foi descontinuado e continua recebendo atualizações de ferramentas da comunidade.
Como adiciono estilização ao SRT?
O SRT suporta um pequeno conjunto de tags HTML inline: <i>, <b>, <u> e <font color="...">. Qualquer coisa mais avançada requer mudar para VTT ou ASS.
Resumo
O formato de legendas correto depende de para onde seu arquivo está indo, não de preferência pessoal. SRT para compatibilidade universal, WebVTT para a web, ASS para tipografia estilizada, TTML para entrega OTT, STL para broadcast europeu e SBV quase nunca. Tudo em Unicode como UTF-8 sem BOM, e converta entre formatos usando FFmpeg ou Subtitle Edit quando uma plataforma exigir uma entrada específica.
Se você está iniciando um fluxo de trabalho de transcrição, gere SRT ou VTT primeiro -- eles cobrem 90% das necessidades de criadores de conteúdo, e todo outro formato está a uma conversão de distância.
