Formats de fichiers de sous-titres expliqués : SRT, WebVTT, ASS, TTML comparés (2026)

Un fichier de sous-titres est un document en texte brut qui indique à un lecteur vidéo quel texte afficher, quand l'afficher et -- éventuellement -- comment le styliser et le positionner. Les sept formats qui comptent en 2026 sont SRT (base universelle), WebVTT (natif du web, HTML5), ASS/SSA (stylisation avancée pour anime et karaoké), SBV (format interne de YouTube), STL (standard de diffusion européen) et TTML/DFXP (standard XML du W3C utilisé par Netflix et les flux de travail de diffusion). Chacun a un rôle spécifique, et utiliser le mauvais garantit des maux de tête de compatibilité.

Cette référence couvre la spécification technique, un exemple minimal, la prise en charge des plateformes et un arbre de décision pour choisir le bon format du premier coup. Si vous n'avez besoin que d'une comparaison à deux formats, l'article SRT vs VTT est plus court. Ce guide-ci constitue la carte complète.

Comparaison rapide

Format	Extension	Stylisation	Positionnement	Usage principal	Couverture des plateformes
SRT	`.srt`	Minimale (italique, gras, souligné)	Aucun	Lecture vidéo universelle	Quasi universelle
WebVTT	`.vtt`	Basée sur CSS	Complet (x, y, alignement)	Vidéo HTML5, web	Tous les navigateurs modernes
ASS / SSA	`.ass`, `.ssa`	Riche (polices, couleurs, effets)	Complet	Anime, karaoké, sous-titres stylisés	VLC, MPV, Aegisub
SBV	`.sbv`	Aucune	Aucun	Téléversements YouTube	YouTube Studio uniquement
STL (EBU)	`.stl`	Sécurisée pour la diffusion	Oui	Diffusion TV européenne	Diffusion professionnelle
TTML / DFXP	`.ttml`, `.dfxp`, `.xml`	XML + CSS	Complet	OTT, diffusion, Netflix	Netflix, flux SMPTE

Tous les principaux formats sont des textes bruts lisibles par l'humain, à l'exception de certaines variantes de STL. N'importe lequel peut être converti en un autre, même si l'on perd la stylisation en passant d'un format plus riche à un plus simple.

SRT (SubRip Text)

Le SRT est le plus petit dénominateur commun des formats de sous-titres. Il a été conçu pour l'outil de ripping DVD SubRip vers 2000, et sa simplicité est précisément ce qui l'a rendu universel -- pratiquement tous les lecteurs vidéo, monteurs vidéo et plateformes de streaming le prennent en charge.

Structure. Un fichier SRT est une séquence de répliques, chacune avec un index numérique, un horodatage de début et de fin séparés par -->, et une ou plusieurs lignes de texte. Les répliques sont séparées par une ligne vide. Les horodatages utilisent HH:MM:SS,mmm (virgule comme séparateur décimal).

Exemple minimal :

1
00:00:01,000 --> 00:00:03,500
Bienvenue dans la vidéo.

2
00:00:04,000 --> 00:00:07,200
Les sous-titres rendent le contenu accessible
à des audiences mondiales.

Stylisation. Le SRT prend en charge un minuscule sous-ensemble de balises semblables à HTML : italique, gras, souligné et coloré. La prise en charge des balises varie selon le lecteur. Tout ce qui va au-delà n'est pas portable.

Limitations. Pas de positionnement, pas de texte vertical, pas d'animation, pas de contrôle CSS précis. L'Unicode est pris en charge mais certains lecteurs plus anciens supposent du Windows-1252 ou du Latin-1, enregistrez donc en UTF-8 sans BOM pour la plus large compatibilité.

Quand l'utiliser. Choix par défaut pour les téléversements vers les plateformes vidéo, la lecture locale et partout où vous avez besoin d'une compatibilité maximale.

WebVTT (Web Video Text Tracks)

WebVTT est le standard W3C pour les sous-titres de vidéo HTML5. Il a été conçu pour être compatible en surface avec SRT tout en ajoutant les fonctionnalités dont le web a réellement besoin : stylisation CSS, positionnement, répliques de métadonnées et marqueurs de chapitres.

Structure. Commence par un en-tête WEBVTT, suivi des répliques. Les horodatages utilisent HH:MM:SS.mmm (point comme séparateur décimal, pas la virgule). Les répliques peuvent porter des indications de stylisation et de positionnement en ligne.

Exemple minimal :

WEBVTT

1
00:00:01.000 --> 00:00:03.500
Bienvenue dans la vidéo.

2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
Les sous-titres rendent le contenu accessible
à des audiences mondiales.

Stylisation. Prend en charge le CSS via les pseudo-éléments ::cue et ::cue(selector) dans une feuille de style, ou des blocs STYLE directement dans le fichier VTT. Vous obtenez le contrôle de la couleur, de l'arrière-plan, de la police, de la taille de police, du poids et des effets d'ombre.

Positionnement. Les paramètres de réplique (line, position, size, align, vertical) contrôlent l'endroit où le texte apparaît. C'est le principal avantage fonctionnel par rapport au SRT.

Extensions. Prend en charge les blocs NOTE pour les commentaires, les blocs STYLE pour le CSS intégré, et les pistes de chapitre/métadonnées via l'attribut kind sur l'élément HTML <track>.

Quand l'utiliser. Vidéo HTML5, lecteurs web, marqueurs de chapitre et partout où vous avez besoin d'un contrôle au niveau CSS de l'apparence des sous-titres.

ASS / SSA (Advanced SubStation Alpha)

ASS (Advanced SubStation Alpha) et son prédécesseur SSA sont le format poids lourd du monde des sous-titres. Développé à l'origine pour l'outil de karaoké et de sous-titrage d'anime SubStation Alpha, ASS offre les options de stylisation les plus riches de tout format de sous-titres largement utilisé.

Structure. Sections de type INI : [Script Info], [V4+ Styles], [Events]. Les événements sont les répliques de sous-titres réelles, chacune avec une couche, une heure de début/fin, un nom de style et un texte. Le texte peut contenir des balises de substitution en ligne entre accolades ({\b1}gras{\b0}, {\c&H00FFFF&}jaune, {\pos(100,200)}positionné).

Exemple minimal :

[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Welcome to the video.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}Subtitles{\b0} matter.

Stylisation. Des styles nommés définis une fois et appliqués à de nombreuses répliques. Les substitutions en ligne peuvent animer des propriétés (\t(start,end,\fscx120) met à l'échelle horizontalement entre deux instants), faire pivoter du texte, appliquer ombres et contours, et dessiner des graphiques vectoriels à l'aide des commandes \p1 ... \p0.

Quand l'utiliser. Fansubs d'anime, paroles de karaoké, sous-titres fortement stylisés, et chaque fois que vous avez besoin d'un contrôle de qualité production sur la typographie et le positionnement. Démesuré pour la plupart des cas d'usage.

Compatibilité. VLC, MPV, mpv.net et la plupart des lecteurs de la communauté anime prennent en charge ASS intégralement. Les lecteurs web ne le font généralement pas. YouTube retire la stylisation ASS au téléversement.

SBV (format YouTube)

SBV est l'ancien format de sous-titres interne de YouTube. C'est essentiellement un SRT allégé sans indices ni stylisation. YouTube Studio accepte toujours SBV aux côtés de SRT, VTT, TTML et de plusieurs autres formats.

Structure. Horodatages séparés par une virgule, suivis du texte du sous-titre. Répliques séparées par des lignes vides. Les horodatages utilisent H:MM:SS.mmm.

Exemple minimal :

0:00:01.000,0:00:03.500
Bienvenue dans la vidéo.

0:00:04.000,0:00:07.200
Les sous-titres rendent le contenu accessible
à des audiences mondiales.

Quand l'utiliser. Presque jamais, en dehors du cas étroit du téléversement direct sur YouTube lorsque vous disposez déjà d'exports SBV provenant d'un outil. Pour les nouveaux flux de travail, utilisez SRT ou VTT -- YouTube accepte les deux.

STL (format d'échange de données de sous-titrage EBU)

EBU-STL est le format binaire d'échange de sous-titres de l'Union européenne de radio-télévision, normalisé dans EBU Tech 3264. C'est le format dominant dans la télévision diffusée européenne et il est exigé par de nombreux diffuseurs publics pour la livraison.

Structure. Conteneur binaire avec un en-tête d'informations générales sur les sous-titres (GSI) suivi d'une séquence de blocs d'informations de texte et de synchronisation (TTI), chacun de 128 octets. Le bloc GSI encode des métadonnées comme la langue, le jeu de caractères, la cadence d'images et le rapport d'aspect. Chaque sous-titre est porté par un ou plusieurs blocs TTI — les sous-titres longs s'étendent sur plusieurs blocs via des blocs d'extension — avec des numéros précis d'images d'entrée/sortie et des attributs de stylisation.

Stylisation. Prend en charge les attributs de couleur et de positionnement de style télétexte, les caractères double hauteur et les arrière-plans en encadré. La sortie est visuellement contrainte afin de correspondre aux capacités traditionnelles de sous-titrage de diffusion.

Quand l'utiliser. Livraison de diffusion aux réseaux TV européens (BBC, ZDF, France Télévisions, etc.). Si vous ne travaillez pas dans la diffusion professionnelle, vous ne toucherez pas à ce format.

Compatibilité. Les logiciels de diffusion professionnels (EZTitles, WinCAPS, Subtitle Workshop) gèrent STL. Les lecteurs vidéo grand public ne le font pas.

TTML et DFXP (W3C Timed Text Markup Language)

TTML (Timed Text Markup Language) est le format basé sur XML du W3C qui est devenu l'épine dorsale de la livraison OTT (over-the-top) professionnelle et du streaming. DFXP est le profil de TTML initialement normalisé par le W3C, et IMSC est un profil TTML plus strict et interopérable utilisé par les diffuseurs et Netflix. (SMPTE-TT est un profil distinct, défini par la SMPTE et basé sur TTML : il est lié à IMSC, mais ce n'est pas la même spécification.)

Structure. Document XML avec un élément racine <tt> contenant <head> (styles, régions, métadonnées) et <body> (divisions contenant des paragraphes, chacun représentant une réplique de sous-titre avec une synchronisation de début/fin).

Exemple minimal :

<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="en">
  <head>
    <styling>
      <style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
    </styling>
  </head>
  <body>
    <div style="default">
      <p begin="00:00:01.000" end="00:00:03.500">Welcome to the video.</p>
      <p begin="00:00:04.000" end="00:00:07.200">Subtitles make content accessible<br/>to global audiences.</p>
    </div>
  </body>
</tt>

Stylisation. Stylisation complète de type CSS en ligne ou via des définitions de style. Prend en charge les régions pour le positionnement, les animations via les éléments <set>, les annotations ruby pour la typographie est-asiatique, et une sémantique de texte riche.

Quand l'utiliser. Livraison Netflix, plateformes OTT, flux de travail de diffusion qui exigent les profils SMPTE-TT ou IMSC, et partout où vous avez besoin d'une stylisation précise qui survit aux pipelines de traitement.

Compatibilité. Netflix exige IMSC 1.1. Amazon Prime, Hulu et Disney+ acceptent les variantes TTML. Apple TV utilise iTunes Timed Text (iTT), un profil de TTML. Les lecteurs grand public préfèrent généralement SRT ou VTT.

Matrice de compatibilité des plateformes

Plateforme	SRT	VTT	ASS/SSA	SBV	STL	TTML/DFXP
YouTube (téléversement)	✅	✅	❌	✅	❌	✅
Vimeo	✅	✅	❌	❌	❌	❌
Netflix (livraison)	❌	❌	❌	❌	❌	✅ (IMSC)
Amazon Prime (livraison)	❌	❌	❌	❌	❌	✅
HTML5 `<track>`	❌	✅	❌	❌	❌	❌
VLC	✅	✅	✅	✅	❌	✅
MPV	✅	✅	✅	✅	❌	✅
Adobe Premiere Pro	✅	✅	❌	❌	✅	✅
DaVinci Resolve	✅	✅	❌	❌	✅	✅
Final Cut Pro	✅	✅	❌	❌	❌	✅ (iTT)
TikTok / Instagram Reels	✅	❌	❌	❌	❌	❌

« Livraison » signifie que la plateforme accepte ce format dans son pipeline d'ingestion, et non qu'elle le lit directement dans l'application grand public.

Arbre de décision : quel format devez-vous utiliser ?

Répondez à ces questions dans l'ordre. Le premier oui détermine votre format.

Livrez-vous à Netflix ou à un autre grand service OTT ? Utilisez TTML / IMSC 1.1. C'est une exigence stricte, pas une préférence.
Livrez-vous à la TV de diffusion européenne ? Utilisez EBU-STL. Vérifiez la spécification de livraison du diffuseur spécifique pour la variante STL exacte.
Avez-vous besoin de sous-titres stylisés pour l'anime, le karaoké ou un contenu typographiquement chargé ? Utilisez ASS / SSA. Aucun autre format n'offre un contrôle comparable.
Intégrez-vous dans une vidéo HTML5 sur le web ? Utilisez WebVTT. C'est le format natif de l'élément <track>.
Téléversez-vous sur YouTube ? Utilisez SRT (entrée préférée de YouTube) ou VTT. Évitez SBV sauf si vous avez un flux de travail hérité.
Avez-vous besoin d'une compatibilité maximale sur des lecteurs inconnus ? Utilisez SRT. Rien n'est plus universellement pris en charge.

Pour la plupart des créateurs de contenu -- podcasteurs, YouTubeurs, créateurs de cours -- la réponse est presque toujours SRT ou WebVTT. Les formats exotiques ne sont pertinents que lorsqu'une plateforme ou un client spécifique les impose.

Conversion entre formats

Les sept formats sont convertibles, mais chaque conversion perd de l'information dans un sens. Passer d'un format riche (ASS, TTML) à un format simple (SRT, SBV) retire la stylisation et le positionnement. Dans l'autre sens, le texte est préservé mais la stylisation source ne peut pas être recréée.

Outils de conversion courants :

FFmpeg : ffmpeg -i input.ass output.srt gère la plupart des conversions de sous-titres, y compris le passage en texte brut.
Subtitle Edit (Windows, gratuit) : interface graphique pour convertir entre environ 30 formats de sous-titres avec aperçu visuel.
Aegisub (multi-plateformes, gratuit) : éditeur ASS spécialisé qui importe et exporte vers SRT et VTT.
Convertisseurs en ligne : utiles pour des conversions ponctuelles, mais évitez-les pour du contenu sensible (les téléversements quittent votre contrôle).

La conversion programmatique est simple pour les paires de formats qui partagent un modèle basé sur les répliques (SRT, VTT, SBV, événements ASS). Les formats XML (TTML/DFXP) nécessitent un véritable parseur en raison des espaces de noms et des éléments imbriqués.

Encodage des caractères et Unicode

Tous les formats de sous-titres modernes prennent en charge UTF-8 et c'est le seul encodage que vous devriez utiliser en 2026. Les fichiers hérités peuvent être en Windows-1252, Latin-1, Shift-JIS ou GB2312 -- si votre texte s'affiche comme ?????? ou Ã© au lieu de é, le fichier est dans le mauvais encodage. La plupart des éditeurs permettent de le réenregistrer en UTF-8.

Une erreur à surveiller : ne sauvegardez pas UTF-8 avec une marque d'ordre des octets (BOM). Le BOM est constitué de trois octets invisibles au début du fichier qui perturbent les anciens parseurs SRT et certains pipelines de streaming. Dans VS Code, utilisez « Save with Encoding → UTF-8 » plutôt que « UTF-8 with BOM ».

Générer des sous-titres à partir de l'audio

Les services de transcription modernes produisent directement la plupart des formats de sous-titres. Le pipeline typique est :

Téléverser ou coller l'audio/vidéo source
Choisir le ou les formats de sortie : SRT, VTT, TXT ou DOCX
Télécharger le fichier généré et l'associer à votre vidéo

Vocova prend en charge l'export en SRT, VTT, DOCX, texte brut et PDF horodaté, couvrant tous les besoins pratiques des créateurs de contenu et la plupart des flux de travail professionnels. Si vous avez besoin de TTML, ASS ou STL, l'approche standard consiste à exporter d'abord en SRT puis à convertir à l'aide des outils listés ci-dessus.

Pour une exploration plus approfondie de la génération de sous-titres à partir d'une vidéo, consultez le guide des générateurs de sous-titres IA.

Questions fréquemment posées

Quel est le format de sous-titres le plus largement utilisé ?

Le SRT est le format de sous-titres le plus largement utilisé en 2026. Il est pris en charge essentiellement par tous les lecteurs vidéo, monteurs vidéo et plateformes de streaming, et sa simplicité en fait la sortie par défaut de la plupart des outils de transcription.

Quelle est la différence entre SRT et VTT ?

Le SRT est le format universel hérité avec une stylisation minimale et aucun positionnement. WebVTT est le standard moderne HTML5 avec stylisation CSS complète, positionnement et marqueurs de chapitre. WebVTT utilise des points dans les horodatages (.), tandis que SRT utilise des virgules (,).

YouTube prend-il en charge WebVTT ?

Oui. YouTube Studio accepte WebVTT, SRT, SBV, TTML, SAMI et plusieurs autres formats au téléversement. Le SRT est le choix le plus courant car il est le plus simple à générer et à éditer.

Puis-je utiliser des fichiers de sous-titres pour la conformité en matière d'accessibilité ?

Oui. Tous les formats listés peuvent servir de sous-titres codés lorsqu'ils incluent l'identification des locuteurs et les sons non verbaux ([musique], [claquement de porte]). L'article transcription pour l'accessibilité couvre les exigences WCAG spécifiques.

Quel format Netflix exige-t-il ?

Netflix exige IMSC 1.1, un profil de TTML. Les spécifications de livraison imposent des contraintes spécifiques de stylisation, de synchronisation et de métadonnées qui vont au-delà du TTML générique. Netflix publie son Timed Text Style Guide pour les prestataires qui ont besoin de respecter la spécification.

ASS est-il encore utilisé en 2026 ?

Oui, ASS reste le standard pour les fansubs d'anime, les sous-titres de type karaoké et tout cas d'usage nécessitant un contrôle typographique au-delà de ce que VTT offre. Il n'a pas été déprécié et continue de recevoir des mises à jour d'outils communautaires.

Comment ajouter de la stylisation au SRT ?

Le SRT prend en charge un petit ensemble de balises HTML en ligne : , ,  et . Pour quoi que ce soit de plus avancé, il faut passer à VTT ou ASS.

Synthèse

Le bon format de sous-titres dépend de la destination de votre fichier, pas de vos préférences personnelles. SRT pour la compatibilité universelle, WebVTT pour le web, ASS pour la typographie stylisée, TTML pour la livraison OTT, STL pour la diffusion européenne, et SBV presque jamais. Tout en Unicode UTF-8 sans BOM, et convertissez entre formats à l'aide de FFmpeg ou Subtitle Edit lorsqu'une plateforme exige une entrée spécifique.

Si vous démarrez un flux de travail de transcription, générez d'abord du SRT ou du VTT -- ils couvrent 90 % des besoins des créateurs de contenu, et tout autre format n'est qu'à une conversion de distance.

Formats de fichiers de sous-titres expliqués : SRT, WebVTT, ASS, TTML comparés (2026)

Comparaison rapide

SRT (SubRip Text)

WebVTT (Web Video Text Tracks)

ASS / SSA (Advanced SubStation Alpha)

SBV (format YouTube)

STL (format d'échange de données de sous-titrage EBU)

TTML et DFXP (W3C Timed Text Markup Language)

Matrice de compatibilité des plateformes

Arbre de décision : quel format devez-vous utiliser ?

Conversion entre formats

Encodage des caractères et Unicode

Générer des sous-titres à partir de l'audio

Questions fréquemment posées

Quel est le format de sous-titres le plus largement utilisé ?

Quelle est la différence entre SRT et VTT ?

YouTube prend-il en charge WebVTT ?

Puis-je utiliser des fichiers de sous-titres pour la conformité en matière d'accessibilité ?

Quel format Netflix exige-t-il ?

ASS est-il encore utilisé en 2026 ?

Comment ajouter de la stylisation au SRT ?

Synthèse

Sources et lectures complémentaires

Articles associes

Sous-titres codés vs sous-titres : quelle est la différence ?

SRT vs WebVTT en 2026 : quel format de sous-titres fonctionne sur YouTube, Vimeo, Netflix

Comment traduire un fichier audio ou vidéo dans une autre langue (avec sous-titres bilingues)