SRT vs VTT : comparaison et guide des formats de sous-titres
SRT vs VTT comparés : découvrez les différences entre les formats de sous-titres SubRip et WebVTT, quelles plateformes prennent en charge chacun, et quand utiliser lequel.
SRT (SubRip Text) et VTT (WebVTT) sont les deux formats de fichiers de sous-titres les plus utilisés : SRT est le standard historique avec une compatibilité quasi universelle des lecteurs vidéo, tandis que VTT est le format moderne natif du web conçu pour la vidéo HTML5 avec des capacités intégrées de stylisation et de positionnement.
Choisir le bon format de sous-titres affecte la compatibilité, les options de stylisation et le rendu de vos sous-titres sur les différentes plateformes. Ce guide détaille exactement en quoi SRT et VTT diffèrent, quelles plateformes prennent en charge chacun, et quand choisir l'un plutôt que l'autre.
Qu'est-ce que le SRT ?
SRT signifie SubRip Text, un format de sous-titres né à la fin des années 1990 dans le cadre du logiciel SubRip, un outil conçu pour extraire (« ripper ») les sous-titres des DVD. Malgré son âge, le SRT reste le format de sous-titres le plus universellement pris en charge dans l'industrie.
Un fichier SRT est un fichier texte brut avec une extension .srt. Chaque entrée de sous-titre se compose de trois parties : un index numérique séquentiel, une ligne de code temporel indiquant les heures de début et de fin, et une ou plusieurs lignes de texte de sous-titre. Les entrées sont séparées par des lignes vides.
Voici la structure d'un fichier SRT :
1
00:00:01,000 --> 00:00:04,000
Ceci est la première ligne de sous-titre.
2
00:00:05,500 --> 00:00:08,200
Ceci est le deuxième sous-titre.
Il peut s'étendre sur plusieurs lignes.
3
00:00:10,000 --> 00:00:13,750
L'identification du locuteur se fait
manuellement dans le texte lui-même.
Caractéristiques clés du format SRT :
- Format de code temporel :
HH:MM:SS,mmm(heures, minutes, secondes, millisecondes séparées par une virgule) - Numérotation séquentielle : chaque réplique est numérotée à partir de 1
- Texte brut uniquement : pas de prise en charge native de la stylisation, des couleurs ou du positionnement
- Encodage : généralement UTF-8, bien que les fichiers plus anciens puissent utiliser d'autres encodages
- Séparateur fléché : les heures de début et de fin sont séparées par
-->
La simplicité du SRT est à la fois sa plus grande force et sa principale limitation. N'importe quel éditeur de texte peut créer et modifier des fichiers SRT, et pratiquement tous les lecteurs vidéo et applications de montage peuvent les lire. Cependant, vous ne pouvez pas contrôler la taille de police, la couleur, le placement ou toute autre propriété visuelle dans la spécification du format elle-même.
Qu'est-ce que le VTT ?
VTT signifie WebVTT (Web Video Text Tracks), un format de sous-titres et de sous-titrage codé développé par le W3C (World Wide Web Consortium) spécifiquement pour une utilisation avec les éléments HTML5 <video> et <track>. La spécification a été publiée pour la première fois en 2010 et est devenue une recommandation du W3C, en faisant le standard officiel pour le sous-titrage vidéo sur le web.
Un fichier VTT est un fichier texte brut avec une extension .vtt. Il doit commencer par l'en-tête WEBVTT, éventuellement suivi de métadonnées. Chaque réplique peut inclure un identifiant optionnel, une ligne de code temporel et le texte du sous-titre.
Voici la structure d'un fichier VTT :
WEBVTT
Kind: captions
Language: fr
intro
00:00:01.000 --> 00:00:04.000
Ceci est la première ligne de sous-titre.
00:00:05.500 --> 00:00:08.200
Ceci est le deuxième sous-titre.
Il peut s'étendre sur plusieurs lignes.
styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Locuteur 1>Cette réplique a un positionnement
et une balise de voix pour l'identification du locuteur.</v>
Caractéristiques clés du format VTT :
- En-tête obligatoire : chaque fichier doit commencer par
WEBVTT - Format de code temporel :
HH:MM:SS.mmm(utilise un point pour les millisecondes, pas une virgule) - Identifiants de réplique optionnels : les répliques peuvent avoir des ID nommés au lieu de numéros séquentiels
- Prise en charge de la stylisation CSS : prend en charge le pseudo-élément
::cuepour la stylisation via CSS - Positionnement : les paramètres de réplique permettent le contrôle vertical, de ligne, de position, de taille et d'alignement
- Balises de voix : les balises
<v Nom du Locuteur>permettent l'identification du locuteur au sein du format - En-têtes de métadonnées : paires clé-valeur après l'en-tête
WEBVTTpour du contexte supplémentaire - Commentaires : prend en charge les blocs
NOTEpour les annotations au niveau du fichier
Le VTT a été conçu pour répondre aux limitations des formats de sous-titres plus anciens tout en s'intégrant nativement aux technologies web. Sa prise en charge de la stylisation CSS, des balises de voix pour les locuteurs et du positionnement des répliques le rend nettement plus expressif que le SRT pour les lecteurs vidéo web.
SRT vs VTT : différences clés
Bien que SRT et VTT se ressemblent à première vue, ils diffèrent de plusieurs manières importantes au-delà de l'extension de fichier.
| Fonctionnalité | SRT | VTT |
|---|---|---|
| Extension de fichier | .srt |
.vtt |
| En-tête de fichier | Non requis | WEBVTT requis |
| Séparateur de code temporel | Virgule (,) |
Point (.) |
| Numérotation des répliques | Numéros séquentiels requis | Identifiants nommés optionnels |
| Stylisation du texte | Non prise en charge | Stylisation CSS ::cue, gras, italique, souligné |
| Positionnement | Non pris en charge | Paramètres de ligne, position, taille, alignement |
| Identification du locuteur | Manuelle (dans le texte) | Balises de voix natives (<v>) |
| Commentaires | Non pris en charge | Blocs NOTE pris en charge |
| Métadonnées | Non prises en charge | Paires clé-valeur en en-tête |
| Balises HTML | Limitées (certains lecteurs prennent en charge <b>, <i>) |
Prise en charge complète (<b>, <i>, <u>, <c>, <v>, <lang>) |
| Encodage de caractères | Variable (UTF-8 recommandé) | UTF-8 requis |
| Standard web | Non | Recommandation W3C |
La différence la plus pratique pour la plupart des utilisateurs est celle entre compatibilité et fonctionnalité. Le SRT fonctionne partout mais ne fait rien au-delà de l'affichage de texte horodaté. Le VTT fonctionne nativement sur le web avec des options de formatage riches mais a une prise en charge plus limitée dans les logiciels de montage vidéo de bureau et les lecteurs multimédias anciens.
Compatibilité des plateformes
Savoir quelles plateformes acceptent quel format permet de gagner du temps et d'éviter les tracas de conversion. Voici un aperçu de la prise en charge sur les principales plateformes et outils.
| Plateforme / outil | SRT | VTT | Notes |
|---|---|---|---|
| YouTube | Oui | Oui | Accepte les deux pour le téléversement manuel ; génère automatiquement en SRT |
| Vimeo | Oui | Oui | Accepte les deux ; recommande VTT pour la stylisation |
HTML5 <video> |
Non | Oui | VTT est le seul format nativement pris en charge |
| VLC Media Player | Oui | Oui | Prise en charge complète des deux formats |
| Adobe Premiere Pro | Oui | Non | Import/export SRT ; pas de prise en charge native du VTT |
| DaVinci Resolve | Oui | Non | SRT préféré pour l'importation |
| Final Cut Pro | Oui | Non | SRT et iTT pris en charge |
| Facebook / Instagram | Oui | Oui | SRT préféré pour le téléversement |
| TikTok | Oui | Non | SRT pour le téléversement de sous-titres codés |
| Netflix | Les deux (via TTML) | Les deux (via TTML) | Préfère TTML/DFXP pour la livraison |
| Zoom | Oui | Oui | VTT pour les enregistrements cloud |
| Microsoft Teams | Oui | Oui | VTT généré pour les transcriptions de réunion |
| WordPress | Non | Oui | La vidéo HTML5 utilise nativement le VTT |
| Wistia | Oui | Oui | Accepte les deux pour le téléversement de sous-titres |
Le schéma général : les plateformes web et les outils modernes prennent en charge le VTT, tandis que les logiciels de montage vidéo et les lecteurs anciens privilégient le SRT. Si vous produisez du contenu pour la lecture web, le VTT est le choix naturel. Si vous livrez des fichiers à des monteurs ou téléversez sur les réseaux sociaux, le SRT est le choix le plus sûr.
Quand utiliser le SRT
Choisissez le SRT lorsque la compatibilité large est plus importante que le contrôle du formatage.
Flux de travail de montage vidéo. La plupart des logiciels de montage professionnels -- Premiere Pro, DaVinci Resolve, Final Cut Pro, Avid Media Composer -- gèrent nativement le SRT. Si vos fichiers de sous-titres doivent circuler entre monteurs, le SRT évite les problèmes de conversion.
Téléversements sur les réseaux sociaux. Des plateformes comme TikTok et Instagram acceptent le SRT pour les sous-titres incrustés ou codés. Lors du téléversement de sous-titres sur les plateformes sociales, le SRT est souvent le seul format accepté.
Prise en charge des systèmes anciens. Les lecteurs multimédias plus anciens, les décodeurs et les outils d'authoring DVD/Blu-ray ont été construits autour du SRT. Si votre audience utilise du matériel ou des logiciels de lecture plus anciens, le SRT garantit la compatibilité.
Simplicité et portabilité. Les fichiers SRT sont extrêmement faciles à créer, modifier et déboguer. Il n'y a pas d'en-tête à retenir, pas de syntaxe spéciale, et le format est auto-explicatif même pour quelqu'un le voyant pour la première fois.
Livraison freelance et client. Lors de la livraison de fichiers de sous-titres à des clients ou des collaborateurs, le SRT est le choix par défaut le plus sûr car il ne nécessite aucune explication et fonctionne avec n'importe quel outil utilisé par le destinataire.
Quand utiliser le VTT
Choisissez le VTT lorsque vous avez besoin de fonctionnalités natives du web, de stylisation ou de conformité en matière d'accessibilité.
Vidéo web HTML5. Si vous intégrez une vidéo sur un site web en utilisant l'élément <video>, le VTT est le seul format de sous-titres pris en charge par la balise <track>. Aucune couche de conversion ou bibliothèque JavaScript n'est nécessaire.
Sous-titres stylisés. Le VTT vous permet d'appliquer une stylisation CSS aux sous-titres en utilisant le pseudo-élément ::cue. Vous pouvez contrôler la police, la couleur, l'arrière-plan, l'opacité et l'ombre du texte -- le tout via du CSS standard.
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffffff;
font-size: 1.2em;
}
Positionnement des sous-titres. Le VTT prend en charge les paramètres de réplique pour un placement précis. C'est utile pour éviter les graphiques à l'écran, les noms des intervenants ou les bandeaux en bas d'écran.
00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
Ce sous-titre apparaît en haut à gauche.
Identification du locuteur. Les balises de voix du VTT (<v>) fournissent un moyen structuré d'identifier les locuteurs, ce qui est utile pour les transcriptions de réunion, les interviews et le contenu multi-locuteurs. Les lecteurs peuvent utiliser ces balises pour styliser différents locuteurs avec différentes couleurs.
Conformité en matière d'accessibilité. Pour la conformité WCAG 2.1 sur le contenu web, le VTT est le format recommandé car il s'intègre aux API d'accessibilité HTML5 et prend en charge à la fois les sous-titres (pour les spectateurs sourds ou malentendants) et les descriptions (pour les spectateurs aveugles ou malvoyants).
Comment convertir entre SRT et VTT
La conversion entre SRT et VTT est simple car les formats sont structurellement similaires.
Conversion SRT vers VTT
Pour convertir manuellement un fichier SRT en VTT :
- Ajoutez
WEBVTTcomme première ligne du fichier - Ajoutez une ligne vide après l'en-tête
- Remplacez toutes les virgules dans les codes temporels par des points (
00:00:01,000devient00:00:01.000) - Supprimez éventuellement les numéros de réplique séquentiels (ils ne sont pas requis en VTT)
- Enregistrez le fichier avec une extension
.vtt
Avant (SRT) :
1
00:00:01,000 --> 00:00:04,000
Bienvenue dans la présentation.
2
00:00:05,500 --> 00:00:08,200
Aujourd'hui nous aborderons trois sujets.
Après (VTT) :
WEBVTT
00:00:01.000 --> 00:00:04.000
Bienvenue dans la présentation.
00:00:05.500 --> 00:00:08.200
Aujourd'hui nous aborderons trois sujets.
Conversion VTT vers SRT
Pour convertir un fichier VTT en SRT :
- Supprimez l'en-tête
WEBVTTet toutes les lignes de métadonnées - Remplacez tous les points dans les codes temporels par des virgules (
00:00:01.000devient00:00:01,000) - Ajoutez des numéros de réplique séquentiels avant chaque ligne de code temporel
- Supprimez toutes les fonctionnalités spécifiques au VTT (balises de voix, positionnement, classes CSS)
- Enregistrez le fichier avec une extension
.srt
Conversion automatisée
Pour les conversions par lots ou les changements de format fréquents, des outils comme Vocova gèrent cela automatiquement. Lorsque vous générez des sous-titres à partir d'audio ou de vidéo dans Vocova, vous pouvez exporter directement en SRT et VTT (ainsi qu'en PDF, DOCX, CSV et TXT) sans conversion manuelle. C'est particulièrement utile lorsque vous avez besoin du même contenu dans plusieurs formats pour différentes plateformes.
La plupart des applications de montage vidéo et des éditeurs de sous-titres en ligne incluent également une conversion de format intégrée. FFmpeg peut convertir entre les formats en ligne de commande :
ffmpeg -i subtitles.srt subtitles.vtt
Autres formats de sous-titres à connaître
SRT et VTT couvrent la majorité des cas d'usage, mais plusieurs autres formats existent pour des applications spécialisées.
ASS / SSA (Advanced SubStation Alpha)
ASS et son prédécesseur SSA sont des formats de sous-titres populaires dans la communauté du fansub d'anime. Ils prennent en charge une stylisation avancée incluant les polices, les couleurs, les animations, les effets karaoké et un positionnement précis à l'écran. Les fichiers ASS sont nettement plus complexes que les SRT ou VTT et sont principalement utilisés avec des lecteurs multimédias comme VLC et MPC-HC. La plupart des plateformes web n'acceptent pas les fichiers ASS directement.
TTML (Timed Text Markup Language)
TTML est un format de sous-titres basé sur XML maintenu par le W3C. Il est utilisé dans les flux de travail professionnels de diffusion et de streaming, en particulier par Netflix, la BBC et d'autres grands distributeurs de contenu. TTML prend en charge une stylisation riche, un positionnement basé sur les régions et plusieurs pistes de sous-titres dans un seul fichier. Sa structure XML le rend verbeux mais très structuré.
SCC (Scenarist Closed Captions)
SCC est un format hérité utilisé dans la télévision diffusée nord-américaine. Il encode les données de sous-titres codés CEA-608 et est requis pour le sous-titrage conforme à la FCC aux États-Unis. Les fichiers SCC ne sont pas lisibles par l'humain et nécessitent des logiciels spécialisés pour être créés et édités. Si vous produisez du contenu pour la télévision diffusée, votre fournisseur de sous-titrage livrera probablement des fichiers SCC.
SBV (SubViewer)
SBV est un format de sous-titres simple historiquement utilisé par YouTube pour les sous-titres générés automatiquement. Il est structurellement similaire au SRT mais utilise un format de code temporel différent. Le SBV a été largement remplacé par le SRT et le VTT pour les téléversements YouTube.
Questions fréquemment posées
Puis-je téléverser des fichiers SRT sur YouTube ?
Oui. YouTube accepte les fichiers SRT et VTT pour les téléversements manuels de sous-titres. Vous pouvez les téléverser via YouTube Studio dans la section « Sous-titres » de n'importe quelle vidéo. YouTube génère aussi automatiquement des sous-titres, qui peuvent être téléchargés au format SRT.
Le VTT prend-il en charge la stylisation et les couleurs ?
Oui. Le VTT prend en charge la stylisation CSS via le pseudo-élément ::cue, les balises en ligne comme <b>, <i> et <u>, et la stylisation basée sur les classes avec <c.classname>. Vous pouvez contrôler la couleur de police, la couleur d'arrière-plan, la taille du texte et l'opacité. Cependant, tous les lecteurs vidéo ne rendent pas les styles VTT -- la prise en charge dépend de l'implémentation du lecteur.
Quel format est meilleur pour l'accessibilité ?
Le VTT est le format recommandé pour la conformité en matière d'accessibilité web. Il s'intègre aux API d'accessibilité HTML5, prend en charge les attributs kind (sous-titres, descriptions, chapitres) et permet l'identification du locuteur via les balises de voix. Pour la conformité WCAG 2.1 sur la vidéo web, le VTT avec l'élément <track> est l'approche standard.
Les fichiers SRT peuvent-ils contenir du formatage comme le gras ou l'italique ?
La spécification SRT n'inclut pas le formatage. Cependant, de nombreux lecteurs vidéo interprètent les balises HTML basiques (<b>, <i>, <u>) dans les répliques SRT et les rendent en conséquence. Ce comportement n'est pas garanti sur tous les lecteurs, donc s'appuyer dessus pour un formatage critique est risqué.
Quelle est la taille maximale des fichiers de sous-titres ?
Il n'y a pas de limite de taille au niveau du format pour SRT ou VTT. Les limites spécifiques aux plateformes varient : YouTube autorise les fichiers de sous-titres jusqu'à 10 Mo, tandis que la plupart des plateformes acceptent des fichiers bien en dessous de 1 Mo pour les durées vidéo typiques. Une vidéo d'une heure produit généralement un fichier de sous-titres entre 50 et 150 Ko.
Comment générer des fichiers SRT ou VTT à partir d'audio ou de vidéo ?
Vous pouvez générer des fichiers de sous-titres en transcrivant votre audio ou vidéo avec un outil de reconnaissance automatique de la parole. Des services comme Vocova transcrivent l'audio dans plus de 100 langues avec horodatages et identification des locuteurs, puis vous permettent d'exporter directement en SRT, VTT et d'autres formats. Pour une comparaison des outils de génération de sous-titres, consultez notre guide des meilleurs générateurs de sous-titres IA.