SRT vs VTT: comparação e guia de formatos de legendas
SRT vs VTT comparados: conheça as diferenças entre os formatos de legendas SubRip e WebVTT, quais plataformas suportam cada um e quando usar qual formato.
SRT (SubRip Text) e VTT (WebVTT) são os dois formatos de arquivo de legendas mais amplamente usados: SRT é o padrão legado com suporte quase universal em players de vídeo, enquanto VTT é o formato moderno nativo da web projetado para vídeo HTML5 com capacidades integradas de estilização e posicionamento.
Escolher o formato de legendas correto afeta a compatibilidade, as opções de estilização e como suas legendas são renderizadas em diferentes plataformas. Este guia detalha exatamente como SRT e VTT diferem, quais plataformas suportam cada um e quando escolher um em vez do outro.
O que é SRT?
SRT significa SubRip Text, um formato de legendas que se originou no final dos anos 1990 como parte do software SubRip, uma ferramenta projetada para extrair ("ripar") legendas de DVDs. Apesar da sua idade, o SRT continua sendo o formato de legendas mais universalmente suportado na indústria.
Um arquivo SRT é um arquivo de texto simples com extensão .srt. Cada entrada de legenda consiste em três partes: um índice numérico sequencial, uma linha de timecode mostrando tempos de início e fim, e uma ou mais linhas de texto de legenda. As entradas são separadas por linhas em branco.
Aqui está a estrutura de um arquivo SRT:
1
00:00:01,000 --> 00:00:04,000
Esta é a primeira linha de legenda.
2
00:00:05,500 --> 00:00:08,200
Esta é a segunda legenda.
Ela pode ter múltiplas linhas.
3
00:00:10,000 --> 00:00:13,750
A identificação do falante é feita
manualmente no próprio texto.
Características principais do formato SRT:
- Formato de timecode:
HH:MM:SS,mmm(horas, minutos, segundos, milissegundos separados por vírgula) - Numeração sequencial: Cada cue é numerado começando de 1
- Apenas texto simples: Sem suporte nativo para estilização, cores ou posicionamento
- Codificação: Tipicamente UTF-8, embora arquivos mais antigos possam usar outras codificações
- Separador de seta: Tempos de início e fim são separados por
-->
A simplicidade do SRT é tanto sua maior força quanto sua principal limitação. Qualquer editor de texto pode criar e modificar arquivos SRT, e virtualmente todo player de vídeo e aplicativo de edição consegue lê-los. No entanto, você não pode controlar tamanho da fonte, cor, posicionamento ou qualquer outra propriedade visual dentro da especificação do formato em si.
O que é VTT?
VTT significa WebVTT (Web Video Text Tracks), um formato de legendas desenvolvido pelo W3C (World Wide Web Consortium) especificamente para uso com os elementos HTML5 <video> e <track>. A especificação foi publicada pela primeira vez em 2010 e se tornou uma W3C Recommendation, tornando-o o padrão oficial para legendas de vídeo baseadas na web.
Um arquivo VTT é um arquivo de texto simples com extensão .vtt. Ele deve começar com o cabeçalho WEBVTT, opcionalmente seguido por metadados. Cada cue pode incluir um identificador opcional, uma linha de timecode e o texto da legenda.
Aqui está a estrutura de um arquivo VTT:
WEBVTT
Kind: captions
Language: pt
intro
00:00:01.000 --> 00:00:04.000
Esta é a primeira linha de legenda.
00:00:05.500 --> 00:00:08.200
Esta é a segunda legenda.
Ela pode ter múltiplas linhas.
styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Falante 1>Este cue tem posicionamento
e uma tag de voz para identificação do falante.</v>
Características principais do formato VTT:
- Cabeçalho obrigatório: Todo arquivo deve começar com
WEBVTT - Formato de timecode:
HH:MM:SS.mmm(usa ponto para milissegundos, não vírgula) - Identificadores de cue opcionais: Cues podem ter IDs nomeados em vez de números sequenciais
- Suporte a estilização CSS: Suporta pseudo-elemento
::cuepara estilização via CSS - Posicionamento: Configurações de cue permitem controle de vertical, linha, posição, tamanho e alinhamento
- Tags de voz: Tags
<v Nome do Falante>permitem identificação de falantes dentro do formato - Cabeçalhos de metadados: Pares chave-valor após o cabeçalho
WEBVTTpara contexto adicional - Comentários: Suporta blocos
NOTEpara anotações no nível do arquivo
O VTT foi projetado para resolver as limitações de formatos de legendas mais antigos enquanto se integra nativamente com tecnologias web. Seu suporte para estilização CSS, tags de voz de falantes e posicionamento de cues o torna significativamente mais expressivo que o SRT para players de vídeo baseados na web.
SRT vs VTT: diferenças principais
Embora SRT e VTT pareçam similares à primeira vista, eles diferem de várias maneiras importantes além da extensão do arquivo.
| Recurso | SRT | VTT |
|---|---|---|
| Extensão do arquivo | .srt |
.vtt |
| Cabeçalho do arquivo | Nenhum obrigatório | WEBVTT obrigatório |
| Separador de timecode | Vírgula (,) |
Ponto (.) |
| Numeração de cues | Números sequenciais obrigatórios | Identificadores nomeados opcionais |
| Estilização de texto | Não suportada | Estilização CSS ::cue, negrito, itálico, sublinhado |
| Posicionamento | Não suportado | Configurações de linha, posição, tamanho, alinhamento |
| Identificação de falantes | Manual (baseada em texto) | Tags de voz nativas (<v>) |
| Comentários | Não suportados | Blocos NOTE suportados |
| Metadados | Não suportados | Pares chave-valor no cabeçalho |
| Tags HTML | Limitadas (alguns players suportam <b>, <i>) |
Suporte completo (<b>, <i>, <u>, <c>, <v>, <lang>) |
| Codificação de caracteres | Varia (UTF-8 recomendado) | UTF-8 obrigatório |
| Padrão web | Não | W3C Recommendation |
A diferença mais prática para a maioria dos usuários é compatibilidade versus capacidade. O SRT funciona em qualquer lugar, mas não faz nada além de exibir texto cronometrado. O VTT funciona nativamente na web com opções ricas de formatação, mas tem suporte mais restrito em editores de vídeo desktop e players de mídia legados.
Compatibilidade com plataformas
Saber quais plataformas aceitam qual formato economiza tempo e evita dores de cabeça com conversão. Aqui está uma análise do suporte nas principais plataformas e ferramentas.
| Plataforma / ferramenta | SRT | VTT | Notas |
|---|---|---|---|
| YouTube | Sim | Sim | Aceita ambos para upload manual; gera SRT automaticamente |
| Vimeo | Sim | Sim | Aceita ambos; recomenda VTT para estilização |
HTML5 <video> |
Não | Sim | VTT é o único formato suportado nativamente |
| VLC Media Player | Sim | Sim | Suporte completo para ambos os formatos |
| Adobe Premiere Pro | Sim | Não | Importação/exportação de SRT; sem suporte nativo a VTT |
| DaVinci Resolve | Sim | Não | SRT preferido para importação |
| Final Cut Pro | Sim | Não | SRT e iTT suportados |
| Facebook / Instagram | Sim | Sim | SRT preferido para upload |
| TikTok | Sim | Não | SRT para upload de legendas fechadas |
| Netflix | Ambos (via TTML) | Ambos (via TTML) | Prefere TTML/DFXP para entrega |
| Zoom | Sim | Sim | VTT para gravações em nuvem |
| Microsoft Teams | Sim | Sim | VTT gerado para transcrições de reuniões |
| WordPress | Não | Sim | Vídeo HTML5 usa VTT nativamente |
| Wistia | Sim | Sim | Aceita ambos para upload de legendas |
O padrão geral: plataformas web e ferramentas modernas suportam VTT, enquanto software de edição de vídeo e players legados favorecem SRT. Se você está produzindo conteúdo para reprodução na web, o VTT é a escolha natural. Se está entregando arquivos para editores ou fazendo upload para redes sociais, o SRT é a aposta mais segura.
Quando usar SRT
Escolha SRT quando a compatibilidade ampla importa mais que o controle de formatação.
Fluxos de trabalho de edição de vídeo. A maioria dos softwares de edição profissional -- Premiere Pro, DaVinci Resolve, Final Cut Pro, Avid Media Composer -- lida com SRT nativamente. Se seus arquivos de legendas precisam transitar entre editores, o SRT evita problemas de conversão.
Uploads para redes sociais. Plataformas como TikTok e Instagram aceitam SRT para legendas incorporadas ou fechadas. Ao fazer upload de legendas para plataformas sociais, o SRT é frequentemente o único formato aceito.
Suporte a sistemas legados. Players de mídia mais antigos, set-top boxes e ferramentas de autoria de DVD/Blu-ray foram construídos em torno do SRT. Se seu público usa hardware ou software de reprodução mais antigo, o SRT garante compatibilidade.
Simplicidade e portabilidade. Arquivos SRT são trivialmente fáceis de criar, editar e depurar. Não há cabeçalho para lembrar, sem sintaxe especial, e o formato é autoexplicativo mesmo para alguém vendo-o pela primeira vez.
Entregas freelance e para clientes. Ao entregar arquivos de legendas para clientes ou colaboradores, o SRT é o padrão mais seguro porque não requer explicação e funciona com qualquer ferramenta que o destinatário use.
Quando usar VTT
Escolha VTT quando você precisa de recursos nativos da web, estilização ou conformidade com acessibilidade.
Vídeo web HTML5. Se você está incorporando vídeo em um site usando o elemento <video>, o VTT é o único formato de legendas suportado pela tag <track>. Nenhuma camada de conversão ou biblioteca JavaScript é necessária.
Legendas estilizadas. O VTT permite aplicar estilização CSS às legendas usando o pseudo-elemento ::cue. Você pode controlar fonte, cor, fundo, opacidade e sombra de texto -- tudo através de CSS padrão.
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffffff;
font-size: 1.2em;
}
Posicionamento de legendas. O VTT suporta configurações de cue para posicionamento preciso. Isso é útil para evitar gráficos na tela, nomes de falantes ou overlays no terço inferior.
00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
Esta legenda aparece no canto superior esquerdo.
Identificação de falantes. As tags de voz do VTT (<v>) fornecem uma maneira estruturada de identificar falantes, o que é útil para transcrições de reuniões, entrevistas e conteúdo com múltiplos falantes. Players podem usar essas tags para estilizar diferentes falantes com cores diferentes.
Conformidade com acessibilidade. Para conformidade com WCAG 2.1 em conteúdo web, o VTT é o formato recomendado porque se integra com APIs de acessibilidade HTML5 e suporta tanto legendas (para espectadores surdos/com deficiência auditiva) quanto descrições (para espectadores cegos/com baixa visão).
Como converter entre SRT e VTT
A conversão entre SRT e VTT é direta porque os formatos são estruturalmente similares.
Conversão de SRT para VTT
Para converter um arquivo SRT para VTT manualmente:
- Adicione
WEBVTTcomo a primeira linha do arquivo - Adicione uma linha em branco após o cabeçalho
- Substitua todas as vírgulas nos timecodes por pontos (
00:00:01,000se torna00:00:01.000) - Opcionalmente remova os números sequenciais de cues (eles não são obrigatórios em VTT)
- Salve o arquivo com extensão
.vtt
Antes (SRT):
1
00:00:01,000 --> 00:00:04,000
Bem-vindo à apresentação.
2
00:00:05,500 --> 00:00:08,200
Hoje vamos cobrir três tópicos.
Depois (VTT):
WEBVTT
00:00:01.000 --> 00:00:04.000
Bem-vindo à apresentação.
00:00:05.500 --> 00:00:08.200
Hoje vamos cobrir três tópicos.
Conversão de VTT para SRT
Para converter um arquivo VTT para SRT:
- Remova o cabeçalho
WEBVTTe quaisquer linhas de metadados - Substitua todos os pontos nos timecodes por vírgulas (
00:00:01.000se torna00:00:01,000) - Adicione números sequenciais de cue antes de cada linha de timecode
- Remova quaisquer recursos específicos do VTT (tags de voz, posicionamento, classes CSS)
- Salve o arquivo com extensão
.srt
Conversão automatizada
Para conversões em lote ou troca frequente de formato, ferramentas como o Vocova fazem isso automaticamente. Quando você gera legendas a partir de áudio ou vídeo no Vocova, pode exportar diretamente em SRT e VTT (junto com PDF, DOCX, CSV e TXT) sem conversão manual. Isso é particularmente útil quando você precisa do mesmo conteúdo em múltiplos formatos para diferentes plataformas.
A maioria dos aplicativos de edição de vídeo e editores de legendas online também inclui conversão de formato integrada. O FFmpeg pode converter entre formatos na linha de comando:
ffmpeg -i legendas.srt legendas.vtt
Outros formatos de legendas para conhecer
SRT e VTT cobrem a maioria dos casos de uso, mas vários outros formatos existem para aplicações especializadas.
ASS / SSA (Advanced SubStation Alpha)
ASS e seu predecessor SSA são formatos de legendas populares na comunidade de fansubs de anime. Eles suportam estilização avançada incluindo fontes, cores, animações, efeitos de karaokê e posicionamento preciso na tela. Arquivos ASS são significativamente mais complexos que SRT ou VTT e são usados principalmente com players de mídia como VLC e MPC-HC. A maioria das plataformas web não aceita arquivos ASS diretamente.
TTML (Timed Text Markup Language)
TTML é um formato de legendas baseado em XML mantido pelo W3C. Ele é usado em fluxos de trabalho profissionais de broadcast e streaming, particularmente pela Netflix, BBC e outros grandes distribuidores de conteúdo. O TTML suporta estilização rica, posicionamento baseado em regiões e múltiplas faixas de legendas em um único arquivo. Sua estrutura XML o torna verboso, mas altamente estruturado.
SCC (Scenarist Closed Captions)
SCC é um formato legado usado na televisão broadcast norte-americana. Ele codifica dados de legendas fechadas CEA-608 e é necessário para legendagem em conformidade com a FCC nos Estados Unidos. Arquivos SCC não são legíveis por humanos e requerem software especializado para criar e editar. Se você está produzindo conteúdo para TV broadcast, seu fornecedor de legendagem provavelmente entregará arquivos SCC.
SBV (SubViewer)
SBV é um formato simples de legendas historicamente usado pelo YouTube para legendas geradas automaticamente. Ele é estruturalmente similar ao SRT, mas usa um formato de timecode diferente. O SBV foi amplamente substituído por SRT e VTT para uploads no YouTube.
Perguntas frequentes
Posso fazer upload de arquivos SRT no YouTube?
Sim. O YouTube aceita tanto arquivos SRT quanto VTT para uploads manuais de legendas. Você pode enviá-los pelo YouTube Studio na seção "Legendas" de qualquer vídeo. O YouTube também gera legendas automaticamente, que podem ser baixadas em formato SRT.
O VTT suporta estilização e cores?
Sim. O VTT suporta estilização CSS através do pseudo-elemento ::cue, tags inline como <b>, <i> e <u>, e estilização baseada em classes com <c.nomeclasse>. Você pode controlar cor da fonte, cor de fundo, tamanho do texto e opacidade. No entanto, nem todos os players de vídeo renderizam estilos VTT -- o suporte depende da implementação do player.
Qual formato é melhor para acessibilidade?
O VTT é o formato recomendado para conformidade com acessibilidade web. Ele se integra com APIs de acessibilidade HTML5, suporta atributos kind (legendas, descrições, capítulos) e permite identificação de falantes via tags de voz. Para conformidade com WCAG 2.1 em vídeo web, o VTT com o elemento <track> é a abordagem padrão.
Arquivos SRT podem conter formatação como negrito ou itálico?
A especificação do SRT não inclui formatação. No entanto, muitos players de vídeo interpretam tags HTML básicas (<b>, <i>, <u>) dentro de cues SRT e as renderizam adequadamente. Esse comportamento não é garantido em todos os players, então confiar nele para formatação crítica é arriscado.
Qual é o tamanho máximo de arquivo para arquivos de legendas?
Não há limite de tamanho de arquivo no nível do formato para SRT ou VTT. Limites específicos de plataforma variam: o YouTube permite arquivos de legendas de até 10 MB, enquanto a maioria das plataformas aceita arquivos bem abaixo de 1 MB para durações típicas de vídeo. Um vídeo de uma hora normalmente produz um arquivo de legendas entre 50-150 KB.
Como gero arquivos SRT ou VTT a partir de áudio ou vídeo?
Você pode gerar arquivos de legendas transcrevendo seu áudio ou vídeo com uma ferramenta de reconhecimento automático de fala. Serviços como o Vocova transcrevem áudio em mais de 100 idiomas com marcações de tempo e identificação de falantes, depois permitem exportar diretamente para SRT, VTT e outros formatos. Para uma comparação de ferramentas de geração de legendas, veja nosso guia sobre os melhores geradores de legendas com IA.