SRT vs VTT: comparación y guía de formatos de subtítulos
SRT vs VTT comparados: conozca las diferencias entre los formatos de subtítulos SubRip y WebVTT, qué plataformas admiten cada uno y cuándo usar cada formato.
SRT (SubRip Text) y VTT (WebVTT) son los dos formatos de archivos de subtítulos más utilizados: SRT es el estándar heredado con soporte casi universal en reproductores de video, mientras que VTT es el formato moderno nativo de la web diseñado para video HTML5 con capacidades integradas de estilo y posicionamiento.
Elegir el formato de subtítulos correcto afecta la compatibilidad, las opciones de estilo y cómo se muestran sus subtítulos en las distintas plataformas. Esta guía desglosa exactamente cómo difieren SRT y VTT, qué plataformas admiten cada uno y cuándo elegir uno u otro.
¿Qué es SRT?
SRT significa SubRip Text, un formato de subtítulos que se originó a finales de la década de 1990 como parte del software SubRip, una herramienta diseñada para extraer ("ripear") subtítulos de DVDs. A pesar de su antigüedad, SRT sigue siendo el formato de subtítulos con soporte más universal en la industria.
Un archivo SRT es un archivo de texto plano con extensión .srt. Cada entrada de subtítulo consta de tres partes: un índice numérico secuencial, una línea de código de tiempo que muestra tiempos de inicio y fin, y una o más líneas de texto de subtítulo. Las entradas están separadas por líneas en blanco.
Esta es la estructura de un archivo SRT:
1
00:00:01,000 --> 00:00:04,000
Esta es la primera línea de subtítulo.
2
00:00:05,500 --> 00:00:08,200
Este es el segundo subtítulo.
Puede abarcar varias líneas.
3
00:00:10,000 --> 00:00:13,750
La identificación del hablante se hace
manualmente en el propio texto.
Características clave del formato SRT:
- Formato de código de tiempo:
HH:MM:SS,mmm(horas, minutos, segundos, milisegundos separados por una coma) - Numeración secuencial: Cada cue se numera empezando desde 1
- Solo texto plano: Sin soporte nativo para estilos, colores o posicionamiento
- Codificación: Típicamente UTF-8, aunque archivos más antiguos pueden usar otras codificaciones
- Separador de flecha: Los tiempos de inicio y fin están separados por
-->
La simplicidad del SRT es tanto su mayor fortaleza como su principal limitación. Cualquier editor de texto puede crear y modificar archivos SRT, y virtualmente cualquier reproductor de video y aplicación de edición puede leerlos. Sin embargo, no se puede controlar el tamaño de fuente, color, ubicación ni ninguna otra propiedad visual dentro de la especificación del formato en sí.
¿Qué es VTT?
VTT significa WebVTT (Web Video Text Tracks), un formato de subtítulos y leyendas desarrollado por el W3C (World Wide Web Consortium) específicamente para su uso con los elementos HTML5 <video> y <track>. La especificación se publicó por primera vez en 2010 y se convirtió en una Recomendación del W3C, haciéndolo el estándar oficial para leyendas de video basadas en la web.
Un archivo VTT es un archivo de texto plano con extensión .vtt. Debe comenzar con el encabezado WEBVTT, opcionalmente seguido de metadatos. Cada cue puede incluir un identificador opcional, una línea de código de tiempo y el texto del subtítulo.
Esta es la estructura de un archivo VTT:
WEBVTT
Kind: captions
Language: en
intro
00:00:01.000 --> 00:00:04.000
Esta es la primera línea de subtítulo.
00:00:05.500 --> 00:00:08.200
Este es el segundo subtítulo.
Puede abarcar varias líneas.
styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Hablante 1>Este cue tiene posicionamiento
y una etiqueta de voz para identificación del hablante.</v>
Características clave del formato VTT:
- Encabezado obligatorio: Cada archivo debe comenzar con
WEBVTT - Formato de código de tiempo:
HH:MM:SS.mmm(usa un punto para milisegundos, no una coma) - Identificadores de cue opcionales: Los cues pueden tener IDs con nombre en lugar de números secuenciales
- Soporte de estilos CSS: Admite el pseudo-elemento
::cuepara estilos vía CSS - Posicionamiento: Los ajustes de cue permiten control vertical, de línea, posición, tamaño y alineación
- Etiquetas de voz: Las etiquetas
<v Nombre del Hablante>permiten la identificación del hablante dentro del formato - Encabezados de metadatos: Pares clave-valor después del encabezado
WEBVTTpara contexto adicional - Comentarios: Admite bloques
NOTEpara anotaciones a nivel de archivo
VTT fue diseñado para abordar las limitaciones de los formatos de subtítulos más antiguos mientras se integraba de forma nativa con tecnologías web. Su soporte para estilos CSS, etiquetas de voz de hablante y posicionamiento de cue lo hace significativamente más expresivo que SRT para reproductores de video basados en la web.
SRT vs VTT: diferencias clave
Mientras que SRT y VTT parecen similares a primera vista, difieren en varias formas importantes más allá de la extensión del archivo.
| Característica | SRT | VTT |
|---|---|---|
| Extensión de archivo | .srt |
.vtt |
| Encabezado de archivo | No requerido | WEBVTT requerido |
| Separador de código de tiempo | Coma (,) |
Punto (.) |
| Numeración de cues | Números secuenciales requeridos | Identificadores con nombre opcionales |
| Estilos de texto | No admitido | Estilos CSS ::cue, negrita, cursiva, subrayado |
| Posicionamiento | No admitido | Ajustes de línea, posición, tamaño, alineación |
| Identificación de hablante | Manual (basada en texto) | Etiquetas de voz nativas (<v>) |
| Comentarios | No admitidos | Bloques NOTE admitidos |
| Metadatos | No admitidos | Pares clave-valor en encabezado |
| Etiquetas HTML | Limitadas (algunos reproductores admiten <b>, <i>) |
Soporte completo (<b>, <i>, <u>, <c>, <v>, <lang>) |
| Codificación de caracteres | Varía (UTF-8 recomendado) | UTF-8 requerido |
| Estándar web | No | Recomendación del W3C |
La diferencia más práctica para la mayoría de los usuarios es compatibilidad versus capacidad. SRT funciona en todas partes pero no hace nada más allá de mostrar texto temporizado. VTT funciona de forma nativa en la web con ricas opciones de formato pero tiene soporte más limitado en editores de video de escritorio y reproductores multimedia heredados.
Compatibilidad de plataformas
Saber qué plataformas aceptan cada formato ahorra tiempo y evita dolores de cabeza por conversión. Aquí hay un desglose del soporte en las principales plataformas y herramientas.
| Plataforma / herramienta | SRT | VTT | Notas |
|---|---|---|---|
| YouTube | Sí | Sí | Acepta ambos para carga manual; genera SRT automáticamente |
| Vimeo | Sí | Sí | Acepta ambos; recomienda VTT para estilos |
HTML5 <video> |
No | Sí | VTT es el único formato admitido de forma nativa |
| VLC Media Player | Sí | Sí | Soporte completo para ambos formatos |
| Adobe Premiere Pro | Sí | No | Importación/exportación SRT; sin soporte nativo VTT |
| DaVinci Resolve | Sí | No | SRT preferido para importación |
| Final Cut Pro | Sí | No | SRT e iTT admitidos |
| Facebook / Instagram | Sí | Sí | SRT preferido para carga |
| TikTok | Sí | No | SRT para carga de subtítulos cerrados |
| Netflix | Ambos (vía TTML) | Ambos (vía TTML) | Prefiere TTML/DFXP para entrega |
| Zoom | Sí | Sí | VTT para grabaciones en la nube |
| Microsoft Teams | Sí | Sí | VTT generado para transcripciones de reuniones |
| WordPress | No | Sí | Video HTML5 usa VTT de forma nativa |
| Wistia | Sí | Sí | Acepta ambos para carga de leyendas |
El patrón general: las plataformas web y herramientas modernas admiten VTT, mientras que los software de edición de video y reproductores heredados favorecen SRT. Si está produciendo contenido para reproducción web, VTT es la opción natural. Si está entregando archivos a editores o subiendo a redes sociales, SRT es la apuesta más segura.
Cuándo usar SRT
Elija SRT cuando la amplia compatibilidad importa más que el control de formato.
Flujos de trabajo de edición de video. La mayoría del software de edición profesional -- Premiere Pro, DaVinci Resolve, Final Cut Pro, Avid Media Composer -- maneja SRT de forma nativa. Si sus archivos de subtítulos necesitan moverse entre editores, SRT evita problemas de conversión.
Cargas en redes sociales. Plataformas como TikTok e Instagram aceptan SRT para subtítulos incorporados o cerrados. Al subir leyendas a plataformas sociales, SRT es a menudo el único formato aceptado.
Soporte de sistemas heredados. Los reproductores multimedia antiguos, decodificadores y herramientas de autoría de DVD/Blu-ray fueron construidos alrededor de SRT. Si su audiencia usa hardware o software de reproducción antiguos, SRT garantiza compatibilidad.
Simplicidad y portabilidad. Los archivos SRT son trivialmente fáciles de crear, editar y depurar. No hay encabezado que recordar, no hay sintaxis especial, y el formato se explica por sí mismo incluso para alguien que lo ve por primera vez.
Entrega a freelancers y clientes. Al entregar archivos de subtítulos a clientes o colaboradores, SRT es la opción predeterminada más segura porque no requiere explicación y funciona con cualquier herramienta que use el destinatario.
Cuándo usar VTT
Elija VTT cuando necesite funciones nativas de la web, estilos o cumplimiento de accesibilidad.
Video web HTML5. Si está incrustando video en un sitio web usando el elemento <video>, VTT es el único formato de subtítulos admitido por la etiqueta <track>. No se necesita capa de conversión ni biblioteca JavaScript.
Subtítulos con estilos. VTT le permite aplicar estilos CSS a las leyendas usando el pseudo-elemento ::cue. Puede controlar fuente, color, fondo, opacidad y sombra de texto, todo a través de CSS estándar.
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffffff;
font-size: 1.2em;
}
Posicionamiento de leyendas. VTT admite ajustes de cue para ubicación precisa. Esto es útil para evitar gráficos en pantalla, nombres de hablantes o superposiciones de tercios inferiores.
00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
Esta leyenda aparece en la parte superior izquierda.
Identificación de hablantes. Las etiquetas de voz de VTT (<v>) proporcionan una forma estructurada de identificar hablantes, lo cual es útil para transcripciones de reuniones, entrevistas y contenido con múltiples hablantes. Los reproductores pueden usar estas etiquetas para dar estilo a diferentes hablantes con diferentes colores.
Cumplimiento de accesibilidad. Para el cumplimiento de WCAG 2.1 en contenido web, VTT es el formato recomendado porque se integra con las API de accesibilidad HTML5 y admite tanto leyendas (para espectadores sordos o con problemas de audición) como descripciones (para espectadores ciegos o con baja visión).
Cómo convertir entre SRT y VTT
La conversión entre SRT y VTT es sencilla porque los formatos son estructuralmente similares.
Conversión de SRT a VTT
Para convertir un archivo SRT a VTT manualmente:
- Agregue
WEBVTTcomo la primera línea del archivo - Agregue una línea en blanco después del encabezado
- Reemplace todas las comas en los códigos de tiempo con puntos (
00:00:01,000se convierte en00:00:01.000) - Opcionalmente elimine los números de cue secuenciales (no son requeridos en VTT)
- Guarde el archivo con extensión
.vtt
Antes (SRT):
1
00:00:01,000 --> 00:00:04,000
Bienvenidos a la presentación.
2
00:00:05,500 --> 00:00:08,200
Hoy cubriremos tres temas.
Después (VTT):
WEBVTT
00:00:01.000 --> 00:00:04.000
Bienvenidos a la presentación.
00:00:05.500 --> 00:00:08.200
Hoy cubriremos tres temas.
Conversión de VTT a SRT
Para convertir un archivo VTT a SRT:
- Elimine el encabezado
WEBVTTy cualquier línea de metadatos - Reemplace todos los puntos en los códigos de tiempo con comas (
00:00:01.000se convierte en00:00:01,000) - Agregue números de cue secuenciales antes de cada línea de código de tiempo
- Elimine cualquier función específica de VTT (etiquetas de voz, posicionamiento, clases CSS)
- Guarde el archivo con extensión
.srt
Conversión automatizada
Para conversiones por lotes o cambio frecuente de formato, herramientas como Vocova manejan esto automáticamente. Cuando genera subtítulos a partir de audio o video en Vocova, puede exportar directamente a SRT y VTT (junto con PDF, DOCX, CSV y TXT) sin conversión manual. Esto es particularmente útil cuando necesita el mismo contenido en múltiples formatos para diferentes plataformas.
La mayoría de las aplicaciones de edición de video y editores de subtítulos en línea también incluyen conversión de formato integrada. FFmpeg puede convertir entre formatos en la línea de comandos:
ffmpeg -i subtitles.srt subtitles.vtt
Otros formatos de subtítulos que debe conocer
SRT y VTT cubren la mayoría de los casos de uso, pero existen varios otros formatos para aplicaciones especializadas.
ASS / SSA (Advanced SubStation Alpha)
ASS y su predecesor SSA son formatos de subtítulos populares en la comunidad de fansubbing de anime. Admiten estilos avanzados incluyendo fuentes, colores, animaciones, efectos de karaoke y posicionamiento preciso en pantalla. Los archivos ASS son significativamente más complejos que SRT o VTT y se usan principalmente con reproductores multimedia como VLC y MPC-HC. La mayoría de las plataformas web no aceptan archivos ASS directamente.
TTML (Timed Text Markup Language)
TTML es un formato de subtítulos basado en XML mantenido por el W3C. Se usa en flujos de trabajo profesionales de transmisión y streaming, particularmente por Netflix, BBC y otros distribuidores de contenido importantes. TTML admite estilos enriquecidos, posicionamiento basado en regiones y múltiples pistas de subtítulos en un solo archivo. Su estructura XML lo hace verboso pero altamente estructurado.
SCC (Scenarist Closed Captions)
SCC es un formato heredado usado en la televisión de transmisión norteamericana. Codifica datos de subtítulos cerrados CEA-608 y es requerido para el subtitulado conforme a la FCC en Estados Unidos. Los archivos SCC no son legibles por humanos y requieren software especializado para crear y editar. Si está produciendo contenido para TV de transmisión, su proveedor de subtitulado probablemente entregará archivos SCC.
SBV (SubViewer)
SBV es un formato de subtítulos simple usado históricamente por YouTube para subtítulos generados automáticamente. Es estructuralmente similar a SRT pero usa un formato de código de tiempo diferente. SBV ha sido en gran medida reemplazado por SRT y VTT para cargas en YouTube.
Preguntas frecuentes
¿Puedo subir archivos SRT a YouTube?
Sí. YouTube acepta archivos SRT y VTT para cargas manuales de subtítulos. Puede subirlos a través de YouTube Studio en la sección "Subtítulos" de cualquier video. YouTube también genera subtítulos automáticamente, que se pueden descargar en formato SRT.
¿VTT admite estilos y colores?
Sí. VTT admite estilos CSS a través del pseudo-elemento ::cue, etiquetas en línea como <b>, <i> y <u>, y estilos basados en clases con <c.nombreclase>. Puede controlar color de fuente, color de fondo, tamaño de texto y opacidad. Sin embargo, no todos los reproductores de video renderizan los estilos VTT; el soporte depende de la implementación del reproductor.
¿Qué formato es mejor para accesibilidad?
VTT es el formato recomendado para el cumplimiento de accesibilidad web. Se integra con las API de accesibilidad HTML5, admite atributos kind (captions, descriptions, chapters) y permite la identificación de hablantes vía etiquetas de voz. Para el cumplimiento de WCAG 2.1 en video web, VTT con el elemento <track> es el enfoque estándar.
¿Los archivos SRT pueden contener formato como negrita o cursiva?
La especificación SRT no incluye formato. Sin embargo, muchos reproductores de video interpretan etiquetas HTML básicas (<b>, <i>, <u>) dentro de los cues SRT y las renderizan correspondientemente. Este comportamiento no está garantizado en todos los reproductores, por lo que depender de él para formato crítico es arriesgado.
¿Cuál es el tamaño máximo de archivo para archivos de subtítulos?
No hay límite de tamaño de archivo a nivel de formato para SRT ni VTT. Los límites específicos de plataforma varían: YouTube permite archivos de subtítulos de hasta 10 MB, mientras que la mayoría de las plataformas aceptan archivos muy por debajo de 1 MB para duraciones de video típicas. Un video de una hora normalmente produce un archivo de subtítulos de entre 50 y 150 KB.
¿Cómo genero archivos SRT o VTT a partir de audio o video?
Puede generar archivos de subtítulos transcribiendo su audio o video con una herramienta de reconocimiento automático de voz. Servicios como Vocova transcriben audio en más de 100 idiomas con marcas de tiempo y etiquetas de hablante, y luego le permiten exportar directamente a SRT, VTT y otros formatos. Para una comparación de herramientas de generación de subtítulos, consulte nuestra guía de los mejores generadores de subtítulos con IA.