Untertitel-Dateiformate: vollständiger Leitfaden zu SRT, WebVTT, ASS, SBV, STL und TTML (2026)
Jedes wichtige Untertitelformat erklärt mit Spezifikationen, Codebeispielen, Plattformkompatibilität und Entscheidungshilfe. SRT, WebVTT, ASS/SSA, SBV, STL und TTML/DFXP im Vergleich für 2026.
Eine Untertiteldatei ist ein Klartextdokument, das einem Videoplayer mitteilt, welchen Text er anzeigen soll, wann er ihn anzeigen soll und – optional – wie er gestylt und positioniert werden soll. Die sieben Formate, die 2026 wichtig sind, lauten: SRT (universelle Grundlage), WebVTT (web-nativ, HTML5), ASS/SSA (fortgeschrittenes Styling für Anime und Karaoke), SBV (YouTubes internes Format), STL (europäischer Broadcast-Standard) und TTML/DFXP (W3C-XML-Standard, den Netflix und Broadcast-Workflows verwenden). Jedes hat eine spezifische Aufgabe, und die Verwendung des falschen Formats garantiert Kompatibilitätsprobleme.
Diese Referenz behandelt die technische Spezifikation, ein minimales Beispiel, Plattformunterstützung und einen Entscheidungsbaum, damit Sie das richtige Format beim ersten Mal auswählen können. Wenn Sie nur einen Zwei-Format-Vergleich benötigen, ist der SRT-vs-VTT-Beitrag kürzer. Dieser Leitfaden ist die vollständige Karte.
Schnellvergleich
| Format | Endung | Styling | Positionierung | Primärer Einsatz | Plattformabdeckung |
|---|---|---|---|---|---|
| SRT | .srt | Minimal (Kursiv, Fett, Unterstrichen) | Keine | Universelle Videowiedergabe | Nahezu universell |
| WebVTT | .vtt | CSS-basiert | Vollständig (x,y,align) | HTML5-Video, Web | Alle modernen Browser |
| ASS / SSA | .ass, .ssa | Reich (Schriften, Farben, Effekte) | Vollständig | Anime, Karaoke, gestylte Untertitel | VLC, MPV, Aegisub |
| SBV | .sbv | Keines | Keine | YouTube-Uploads | Nur YouTube Studio |
| STL (EBU) | .stl | Broadcast-sicher | Ja | Europäisches TV-Broadcasting | Professionelles Broadcasting |
| TTML / DFXP | .ttml, .dfxp, .xml | XML + CSS | Vollständig | OTT, Broadcast, Netflix | Netflix, SMPTE-Workflows |
Jedes wichtige Format ist menschenlesbarer Klartext – mit Ausnahme einiger STL-Varianten. Jedes lässt sich in ein anderes konvertieren, wobei beim Wechsel von reicheren zu einfacheren Formaten Styling verloren geht.
SRT (SubRip Text)
SRT ist der kleinste gemeinsame Nenner der Untertitelformate. Es wurde für das SubRip-DVD-Ripping-Tool in den frühen 2000er-Jahren entworfen, und seine Einfachheit ist genau der Grund, warum es universell wurde – praktisch jeder Videoplayer, Videoeditor und jede Streaming-Plattform unterstützt es.
Struktur. Eine SRT-Datei ist eine Folge von Cues, jeder mit einem numerischen Index, einem durch --> getrennten Start- und Endzeitstempel und einer oder mehreren Textzeilen. Cues werden durch eine Leerzeile getrennt. Zeitstempel verwenden HH:MM:SS,mmm (Komma als Dezimaltrennzeichen).
Minimales Beispiel:
1
00:00:01,000 --> 00:00:03,500
Willkommen zum Video.
2
00:00:04,000 --> 00:00:07,200
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.
Styling. SRT unterstützt eine kleine Teilmenge HTML-ähnlicher Tags: <i>kursiv</i>, <b>fett</b>, <u>unterstrichen</u> und <font color="#ff0000">gefärbt</font>. Die Tag-Unterstützung variiert je nach Player. Alles darüber hinaus ist nicht portabel.
Einschränkungen. Keine Positionierung, kein vertikaler Text, keine Animation, keine präzise CSS-Kontrolle. Unicode wird unterstützt, aber einige ältere Player gehen von Windows-1252 oder Latin-1 aus, daher sollten Sie als UTF-8 ohne BOM speichern, um die breiteste Kompatibilität zu erreichen.
Wann verwenden. Standardwahl für Uploads auf Videoplattformen, lokale Wiedergabe und überall dort, wo maximale Kompatibilität benötigt wird.
WebVTT (Web Video Text Tracks)
WebVTT ist der W3C-Standard für HTML5-Video-Captions. Es wurde so konzipiert, dass es oberflächlich mit SRT kompatibel ist, während es die Funktionen hinzufügt, die das Web tatsächlich benötigt: CSS-Styling, Positionierung, Metadaten-Cues und Kapitelmarker.
Struktur. Beginnt mit einem WEBVTT-Header, gefolgt von Cues. Zeitstempel verwenden HH:MM:SS.mmm (Punkt als Dezimaltrennzeichen, kein Komma). Cues können Styling- und Positionierungshinweise inline enthalten.
Minimales Beispiel:
WEBVTT
1
00:00:01.000 --> 00:00:03.500
Willkommen zum Video.
2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.
Styling. Unterstützt CSS über ::cue- und ::cue(selector)-Pseudo-Elemente in einem Stylesheet oder STYLE-Blöcke direkt in der VTT-Datei. Sie erhalten Kontrolle über Farbe, Hintergrund, Schriftart, Schriftgröße, -stärke und Schatteneffekte.
Positionierung. Cue-Einstellungen (line, position, size, align, vertical) steuern, wo der Text erscheint. Dies ist der wichtigste funktionale Vorteil gegenüber SRT.
Erweiterungen. Unterstützt NOTE-Blöcke für Kommentare, STYLE-Blöcke für eingebettetes CSS und Kapitel-/Metadatenspuren über das kind-Attribut am HTML-<track>-Element.
Wann verwenden. HTML5-Video, Web-Player, Kapitelmarker und überall dort, wo Sie CSS-Level-Kontrolle über das Erscheinungsbild von Captions benötigen.
ASS / SSA (Advanced SubStation Alpha)
ASS (Advanced SubStation Alpha) und sein Vorgänger SSA sind das Schwergewichtsformat der Untertitelwelt. Ursprünglich für das Karaoke- und Anime-Untertitelungstool SubStation Alpha entwickelt, bietet ASS die reichhaltigsten Styling-Optionen aller weit verbreiteten Untertitelformate.
Struktur. INI-ähnliche Abschnitte: [Script Info], [V4+ Styles], [Events]. Events sind die tatsächlichen Untertitel-Cues, jeweils mit Layer, Start-/Endzeit, Stilnamen und Text. Der Text kann inline Override-Tags in geschweiften Klammern enthalten ({\b1}fett{\b0}, {\c&H00FFFF&}gelb, {\pos(100,200)}positioniert).
Minimales Beispiel:
[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080
[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Willkommen zum Video.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}Untertitel{\b0} sind wichtig.
Styling. Benannte Stile werden einmal definiert und auf viele Cues angewendet. Inline-Overrides können Eigenschaften animieren (\t(start,end,\fscx120) skaliert horizontal zwischen zwei Zeiten), Text rotieren, Schatten und Umrandungen anwenden und Vektorgrafiken mit \p1 ... \p0-Befehlen zeichnen.
Wann verwenden. Anime-Fansubs, Karaoke-Texte, stark stilisierte Captions und jedes Mal, wenn Sie produktionsreife Kontrolle über Typografie und Positionierung benötigen. Für die meisten Anwendungsfälle ein Overkill.
Kompatibilität. VLC, MPV, mpv.net und die meisten Anime-Community-Player unterstützen ASS vollständig. Web-Player tun dies im Allgemeinen nicht. YouTube entfernt ASS-Styling beim Upload.
SBV (YouTube-Format)
SBV ist YouTubes historisches internes Untertitelformat. Es ist im Wesentlichen ein abgespecktes SRT ohne Indizes oder Styling. YouTube Studio akzeptiert SBV weiterhin neben SRT, VTT, TTML und mehreren anderen Formaten.
Struktur. Durch Komma getrennte Zeitstempel, gefolgt vom Untertiteltext. Cues werden durch Leerzeilen getrennt. Zeitstempel verwenden H:MM:SS.mmm.
Minimales Beispiel:
0:00:01.000,0:00:03.500
Willkommen zum Video.
0:00:04.000,0:00:07.200
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.
Wann verwenden. Fast nie, außer im engen Fall, dass Sie direkt auf YouTube hochladen, wo Sie bereits SBV-Exporte von einem Tool haben. Für neue Workflows verwenden Sie SRT oder VTT – YouTube akzeptiert beide.
STL (EBU Subtitling data exchange format)
EBU-STL ist das binäre Untertitel-Austauschformat der European Broadcasting Union, standardisiert in EBU Tech 3264. Es ist das dominierende Format im europäischen Broadcast-Fernsehen und wird von vielen öffentlichen Sendern für die Auslieferung verlangt.
Struktur. Binärcontainer mit einem General-Subtitle-Information-Header (GSI), gefolgt von einer Folge von Text- und Timing-Information-Blöcken (TTI), jeweils 128 Byte. Der GSI-Block kodiert Metadaten wie Sprache, Zeichensatz, Bildrate und Seitenverhältnis. Jeder TTI-Block ist ein einzelner Cue mit präzisen Ein-/Ausbildnummern und Styling-Attributen.
Styling. Unterstützt Teletext-artige Farb- und Positionierungsattribute, Zeichen mit doppelter Höhe und Box-Hintergründe. Die Ausgabe ist visuell darauf beschränkt, den traditionellen Broadcast-Caption-Fähigkeiten zu entsprechen.
Wann verwenden. Broadcast-Lieferung an europäische TV-Sender (BBC, ZDF, France Télévisions usw.). Wenn Sie nicht im professionellen Broadcast arbeiten, werden Sie dieses Format nicht anfassen.
Kompatibilität. Professionelle Broadcast-Software (EZTitles, WinCAPS, Subtitle Workshop) verarbeitet STL. Consumer-Videoplayer tun dies nicht.
TTML und DFXP (W3C Timed Text Markup Language)
TTML (Timed Text Markup Language) ist das auf XML basierende Format des W3C, das zum Rückgrat professioneller OTT- (Over-the-Top) und Streaming-Auslieferung geworden ist. DFXP ist das Profil von TTML, das ursprünglich vom W3C standardisiert wurde, und IMSC (SMPTE-TT) ist ein strengeres Profil, das von Sendern und Netflix verwendet wird.
Struktur. XML-Dokument mit einem Root-Element <tt>, das <head> (Styles, Regionen, Metadaten) und <body> (Abschnitte mit Absätzen, die jeweils einen Untertitel-Cue mit Begin/Ende-Timing darstellen) enthält.
Minimales Beispiel:
<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="de">
<head>
<styling>
<style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
</styling>
</head>
<body>
<div style="default">
<p begin="00:00:01.000" end="00:00:03.500">Willkommen zum Video.</p>
<p begin="00:00:04.000" end="00:00:07.200">Untertitel machen Inhalte<br/>für globale Zielgruppen zugänglich.</p>
</div>
</body>
</tt>
Styling. Vollständiges CSS-ähnliches Styling inline oder über Stildefinitionen. Unterstützt Regionen für die Positionierung, Animationen über <set>-Elemente, Ruby-Annotationen für ostasiatische Typografie und reichhaltige Textsemantik.
Wann verwenden. Netflix-Auslieferung, OTT-Plattformen, Broadcast-Workflows, die SMPTE-TT- oder IMSC-Profile erfordern, und überall dort, wo Sie präzises Styling benötigen, das Verarbeitungspipelines übersteht.
Kompatibilität. Netflix erfordert IMSC 1.1. Amazon Prime, Hulu und Disney+ akzeptieren TTML-Varianten. Apple TV verwendet iTunes Timed Text (iTT), ein Profil von TTML. Consumer-Player bevorzugen im Allgemeinen SRT oder VTT.
Plattformkompatibilitätsmatrix
| Plattform | SRT | VTT | ASS/SSA | SBV | STL | TTML/DFXP |
|---|---|---|---|---|---|---|
| YouTube (Upload) | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ |
| Vimeo | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Netflix (Auslieferung) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ (IMSC) |
| Amazon Prime (Auslieferung) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
HTML5 <track> | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
| VLC | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| MPV | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Adobe Premiere Pro | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| DaVinci Resolve | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| Final Cut Pro | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ (iTT) |
| TikTok / Instagram Reels | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
„Auslieferung" bedeutet, dass die Plattform dieses Format in ihrer Ingest-Pipeline akzeptiert, nicht dass es direkt in der Consumer-App wiedergegeben wird.
Entscheidungsbaum: welches Format sollten Sie verwenden?
Beantworten Sie diese der Reihe nach. Das erste Ja ist Ihr Format.
- Liefern Sie an Netflix oder einen anderen großen OTT-Dienst? Verwenden Sie TTML / IMSC 1.1. Das ist eine harte Anforderung, keine Präferenz.
- Liefern Sie an europäisches Broadcast-TV? Verwenden Sie EBU-STL. Prüfen Sie die spezifische Lieferspezifikation des Senders für die genaue STL-Variante.
- Benötigen Sie stilisierte Untertitel für Anime, Karaoke oder typografisch anspruchsvolle Inhalte? Verwenden Sie ASS / SSA. Kein anderes Format bietet vergleichbare Kontrolle.
- Betten Sie in HTML5-Video im Web ein? Verwenden Sie WebVTT. Es ist das native Format für das
<track>-Element. - Laden Sie auf YouTube hoch? Verwenden Sie SRT (YouTubes bevorzugte Eingabe) oder VTT. Überspringen Sie SBV, es sei denn, Sie haben einen Legacy-Workflow.
- Benötigen Sie maximale Kompatibilität über unbekannte Player hinweg? Verwenden Sie SRT. Nichts wird universeller unterstützt.
Für die meisten Content-Ersteller – Podcaster, YouTuber, Kursanbieter – lautet die Antwort fast immer SRT oder WebVTT. Die exotischen Formate sind nur relevant, wenn eine bestimmte Plattform oder ein Kunde sie vorschreibt.
Konvertierung zwischen Formaten
Alle sieben Formate sind konvertierbar, aber jede Konvertierung verliert in einer Richtung Informationen. Der Übergang von einem reichhaltigen Format (ASS, TTML) zu einem einfachen Format (SRT, SBV) entfernt Styling und Positionierung. Der umgekehrte Weg bewahrt Text, kann aber das Quell-Styling nicht neu erstellen.
Gängige Konvertierungswerkzeuge:
- FFmpeg:
ffmpeg -i input.ass output.srtbewältigt die meisten Untertitelkonvertierungen einschließlich der Reduzierung auf reinen Text. - Subtitle Edit (Windows, kostenlos): GUI zum Konvertieren zwischen ~30 Untertitelformaten mit visueller Vorschau.
- Aegisub (plattformübergreifend, kostenlos): Spezialisierter ASS-Editor, der in SRT und VTT importiert und exportiert.
- Online-Konverter: Nützlich für einmalige Konvertierungen, aber vermeiden Sie sie für sensible Inhalte (Uploads verlassen Ihre Kontrolle).
Die programmatische Konvertierung ist für Formatpaare, die ein cue-basiertes Modell teilen (SRT, VTT, SBV, ASS-Events), unkompliziert. XML-Formate (TTML/DFXP) benötigen einen richtigen Parser wegen Namespaces und verschachtelter Elemente.
Zeichenkodierung und Unicode
Alle modernen Untertitelformate unterstützen UTF-8 und das ist die einzige Kodierung, die Sie 2026 verwenden sollten. Legacy-Dateien können in Windows-1252, Latin-1, Shift-JIS oder GB2312 vorliegen – wenn Ihr Text als ?????? oder é statt é gerendert wird, ist die Datei in der falschen Kodierung. Die meisten Editoren erlauben das erneute Speichern als UTF-8.
Ein einziger Fehler, auf den zu achten ist: Speichern Sie UTF-8 nicht mit einer Byte-Order-Mark (BOM). Die BOM sind drei unsichtbare Bytes am Dateianfang, die ältere SRT-Parser und einige Streaming-Pipelines verwirren. Verwenden Sie in VS Code „Mit Kodierung speichern → UTF-8" statt „UTF-8 mit BOM".
Untertitel aus Audio generieren
Moderne Transkriptionsdienste geben direkt in die meisten Untertitelformate aus. Die typische Pipeline lautet:
- Laden Sie das Quell-Audio/-Video hoch oder fügen Sie es ein
- Wählen Sie die Ausgabeformat(e): SRT, VTT, TXT oder DOCX
- Laden Sie die generierte Datei herunter und hängen Sie sie an Ihr Video an
Vocova unterstützt den Export in SRT, VTT, DRCX (Descript), reinen Text und zeitstempelbasiertes PDF und deckt damit jeden praktischen Bedarf für Content-Ersteller und die meisten professionellen Workflows ab. Wenn Sie TTML, ASS oder STL benötigen, ist der Standardansatz, zuerst nach SRT zu exportieren und dann mit den oben aufgeführten Tools zu konvertieren.
Für eine tiefergehende Anleitung zum Generieren von Untertiteln aus Video siehe den Leitfaden zu KI-Untertitelgeneratoren.
Häufig gestellte Fragen
Was ist das am weitesten verbreitete Untertitelformat?
SRT ist das am weitesten verbreitete Untertitelformat im Jahr 2026. Es wird von im Wesentlichen jedem Videoplayer, Videoeditor und jeder Streaming-Plattform unterstützt, und seine Einfachheit macht es zur Standardausgabe der meisten Transkriptionstools.
Was ist der Unterschied zwischen SRT und VTT?
SRT ist das Legacy-Universalformat mit minimalem Styling und keiner Positionierung. WebVTT ist der moderne HTML5-Standard mit vollem CSS-Styling, Positionierung und Kapitelmarkern. WebVTT verwendet Punkte in Zeitstempeln (.), während SRT Kommas (,) verwendet.
Unterstützt YouTube WebVTT?
Ja. YouTube Studio akzeptiert WebVTT, SRT, SBV, TTML, SAMI und mehrere andere Formate beim Upload. SRT ist die häufigste Wahl, weil es am einfachsten zu generieren und zu bearbeiten ist.
Kann ich Untertiteldateien für Barrierefreiheitskonformität verwenden?
Ja. Alle aufgeführten Formate können als Closed Captions dienen, wenn sie Sprecheridentifikation und nicht-sprachliche Geräusche enthalten ([Musik spielt], [Tür knallt]). Transkription für Barrierefreiheit behandelt die spezifischen WCAG-Anforderungen.
Welches Format benötigt Netflix?
Netflix benötigt IMSC 1.1, ein Profil von TTML. Die Lieferspezifikationen schreiben spezifische Styling-, Timing- und Metadatenbeschränkungen vor, die über das generische TTML hinausgehen. Netflix veröffentlicht seinen Timed Text Style Guide für Anbieter, die die Spezifikation erfüllen müssen.
Wird ASS im Jahr 2026 noch verwendet?
Ja, ASS bleibt der Standard für Anime-Fansubs, Karaoke-artige Untertitel und jeden Anwendungsfall, der Typografiekontrolle über das hinaus benötigt, was VTT bietet. Es wurde nicht eingestellt und erhält weiterhin Community-Tooling-Updates.
Wie füge ich Styling zu SRT hinzu?
SRT unterstützt eine kleine Menge von Inline-HTML-Tags: <i>, <b>, <u> und <font color="...">. Alles Fortgeschrittenere erfordert den Wechsel zu VTT oder ASS.
Zusammenfassung
Das richtige Untertitelformat hängt davon ab, wohin Ihre Datei geht, nicht von persönlicher Präferenz. SRT für universelle Kompatibilität, WebVTT für das Web, ASS für gestylte Typografie, TTML für OTT-Auslieferung, STL für europäischen Broadcast und SBV fast nie. Alles in Unicode als UTF-8 ohne BOM, und konvertieren Sie zwischen Formaten mit FFmpeg oder Subtitle Edit, wenn eine Plattform eine bestimmte Eingabe erfordert.
Wenn Sie einen Transkriptions-Workflow starten, generieren Sie zuerst SRT oder VTT – sie decken 90 % der Bedürfnisse von Content-Erstellern ab, und jedes andere Format ist nur eine Konvertierung entfernt.
