Untertitel-Dateiformate erklärt: SRT, WebVTT, ASS, TTML im Vergleich (2026)

Eine Untertiteldatei ist ein Klartextdokument, das einem Videoplayer mitteilt, welchen Text er anzeigen soll, wann er ihn anzeigen soll und – optional – wie er gestylt und positioniert werden soll. Die sechs Formate, die 2026 wichtig sind, lauten: SRT (universelle Grundlage), WebVTT (web-nativ, HTML5), ASS/SSA (fortgeschrittenes Styling für Anime und Karaoke), SBV (YouTubes internes Format), STL (europäischer Broadcast-Standard) und TTML/DFXP (W3C-XML-Standard, den Netflix und Broadcast-Workflows verwenden). Jedes hat eine spezifische Aufgabe, und die Verwendung des falschen Formats garantiert Kompatibilitätsprobleme.

Diese Referenz behandelt die technische Spezifikation, ein minimales Beispiel, Plattformunterstützung und einen Entscheidungsbaum, damit Sie das richtige Format beim ersten Mal auswählen können. Wenn Sie nur einen Zwei-Format-Vergleich benötigen, ist der SRT-vs-VTT-Beitrag kürzer. Dieser Leitfaden ist die vollständige Karte.

Schnellvergleich

Format	Endung	Styling	Positionierung	Primärer Einsatz	Plattformabdeckung
SRT	`.srt`	Minimal (Kursiv, Fett, Unterstrichen)	Keine	Universelle Videowiedergabe	Nahezu universell
WebVTT	`.vtt`	CSS-basiert	Vollständig (x,y,align)	HTML5-Video, Web	Alle modernen Browser
ASS / SSA	`.ass`, `.ssa`	Reich (Schriften, Farben, Effekte)	Vollständig	Anime, Karaoke, gestylte Untertitel	VLC, MPV, Aegisub
SBV	`.sbv`	Keines	Keine	YouTube-Uploads	Nur YouTube Studio
STL (EBU)	`.stl`	Broadcast-sicher	Ja	Europäisches TV-Broadcasting	Professionelles Broadcasting
TTML / DFXP	`.ttml`, `.dfxp`, `.xml`	XML + CSS	Vollständig	OTT, Broadcast, Netflix	Netflix, SMPTE-Workflows

Jedes wichtige Format ist menschenlesbarer Klartext – mit Ausnahme einiger STL-Varianten. Jedes lässt sich in ein anderes konvertieren, wobei beim Wechsel von reicheren zu einfacheren Formaten Styling verloren geht.

SRT (SubRip Text)

SRT ist der kleinste gemeinsame Nenner der Untertitelformate. Es wurde für das SubRip-DVD-Ripping-Tool um das Jahr 2000 entworfen, und seine Einfachheit ist genau der Grund, warum es universell wurde – praktisch jeder Videoplayer, Videoeditor und jede Streaming-Plattform unterstützt es.

Struktur. Eine SRT-Datei ist eine Folge von Cues, jeder mit einem numerischen Index, einem durch --> getrennten Start- und Endzeitstempel und einer oder mehreren Textzeilen. Cues werden durch eine Leerzeile getrennt. Zeitstempel verwenden HH:MM:SS,mmm (Komma als Dezimaltrennzeichen).

Minimales Beispiel:

1
00:00:01,000 --> 00:00:03,500
Willkommen zum Video.

2
00:00:04,000 --> 00:00:07,200
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.

Styling. SRT unterstützt eine kleine Teilmenge HTML-ähnlicher Tags: kursiv, fett, unterstrichen und gefärbt. Die Tag-Unterstützung variiert je nach Player. Alles darüber hinaus ist nicht portabel.

Einschränkungen. Keine Positionierung, kein vertikaler Text, keine Animation, keine präzise CSS-Kontrolle. Unicode wird unterstützt, aber einige ältere Player gehen von Windows-1252 oder Latin-1 aus, daher sollten Sie als UTF-8 ohne BOM speichern, um die breiteste Kompatibilität zu erreichen.

Wann verwenden. Standardwahl für Uploads auf Videoplattformen, lokale Wiedergabe und überall dort, wo maximale Kompatibilität benötigt wird.

WebVTT (Web Video Text Tracks)

WebVTT ist der W3C-Standard für HTML5-Video-Captions. Es wurde so konzipiert, dass es oberflächlich mit SRT kompatibel ist, während es die Funktionen hinzufügt, die das Web tatsächlich benötigt: CSS-Styling, Positionierung, Metadaten-Cues und Kapitelmarker.

Struktur. Beginnt mit einem WEBVTT-Header, gefolgt von Cues. Zeitstempel verwenden HH:MM:SS.mmm (Punkt als Dezimaltrennzeichen, kein Komma). Cues können Styling- und Positionierungshinweise inline enthalten.

Minimales Beispiel:

WEBVTT

1
00:00:01.000 --> 00:00:03.500
Willkommen zum Video.

2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.

Styling. Unterstützt CSS über ::cue- und ::cue(selector)-Pseudo-Elemente in einem Stylesheet oder STYLE-Blöcke direkt in der VTT-Datei. Sie erhalten Kontrolle über Farbe, Hintergrund, Schriftart, Schriftgröße, -stärke und Schatteneffekte.

Positionierung. Cue-Einstellungen (line, position, size, align, vertical) steuern, wo der Text erscheint. Dies ist der wichtigste funktionale Vorteil gegenüber SRT.

Erweiterungen. Unterstützt NOTE-Blöcke für Kommentare, STYLE-Blöcke für eingebettetes CSS und Kapitel-/Metadatenspuren über das kind-Attribut am HTML-<track>-Element.

Wann verwenden. HTML5-Video, Web-Player, Kapitelmarker und überall dort, wo Sie CSS-Level-Kontrolle über das Erscheinungsbild von Captions benötigen.

ASS / SSA (Advanced SubStation Alpha)

ASS (Advanced SubStation Alpha) und sein Vorgänger SSA sind das Schwergewichtsformat der Untertitelwelt. Ursprünglich für das Karaoke- und Anime-Untertitelungstool SubStation Alpha entwickelt, bietet ASS die reichhaltigsten Styling-Optionen aller weit verbreiteten Untertitelformate.

Struktur. INI-ähnliche Abschnitte: [Script Info], [V4+ Styles], [Events]. Events sind die tatsächlichen Untertitel-Cues, jeweils mit Layer, Start-/Endzeit, Stilnamen und Text. Der Text kann inline Override-Tags in geschweiften Klammern enthalten ({\b1}fett{\b0}, {\c&H00FFFF&}gelb, {\pos(100,200)}positioniert).

Minimales Beispiel:

[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Willkommen zum Video.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}Untertitel{\b0} sind wichtig.

Styling. Benannte Stile werden einmal definiert und auf viele Cues angewendet. Inline-Overrides können Eigenschaften animieren (\t(start,end,\fscx120) skaliert horizontal zwischen zwei Zeiten), Text rotieren, Schatten und Umrandungen anwenden und Vektorgrafiken mit \p1 ... \p0-Befehlen zeichnen.

Wann verwenden. Anime-Fansubs, Karaoke-Texte, stark stilisierte Captions und jedes Mal, wenn Sie produktionsreife Kontrolle über Typografie und Positionierung benötigen. Für die meisten Anwendungsfälle ein Overkill.

Kompatibilität. VLC, MPV, mpv.net und die meisten Anime-Community-Player unterstützen ASS vollständig. Web-Player tun dies im Allgemeinen nicht. YouTube entfernt ASS-Styling beim Upload.

SBV (YouTube-Format)

SBV ist YouTubes historisches internes Untertitelformat. Es ist im Wesentlichen ein abgespecktes SRT ohne Indizes oder Styling. YouTube Studio akzeptiert SBV weiterhin neben SRT, VTT, TTML und mehreren anderen Formaten.

Struktur. Durch Komma getrennte Zeitstempel, gefolgt vom Untertiteltext. Cues werden durch Leerzeilen getrennt. Zeitstempel verwenden H:MM:SS.mmm.

Minimales Beispiel:

0:00:01.000,0:00:03.500
Willkommen zum Video.

0:00:04.000,0:00:07.200
Untertitel machen Inhalte
für globale Zielgruppen zugänglich.

Wann verwenden. Fast nie, außer im engen Fall, dass Sie direkt auf YouTube hochladen, wo Sie bereits SBV-Exporte von einem Tool haben. Für neue Workflows verwenden Sie SRT oder VTT – YouTube akzeptiert beide.

STL (EBU Subtitling data exchange format)

EBU-STL ist das binäre Untertitel-Austauschformat der European Broadcasting Union, standardisiert in EBU Tech 3264. Es ist das dominierende Format im europäischen Broadcast-Fernsehen und wird von vielen öffentlichen Sendern für die Auslieferung verlangt.

Struktur. Binärcontainer mit einem General-Subtitle-Information-Header (GSI), gefolgt von einer Folge von Text- und Timing-Information-Blöcken (TTI), jeweils 128 Byte. Der GSI-Block kodiert Metadaten wie Sprache, Zeichensatz, Bildrate und Seitenverhältnis. Jeder Untertitel wird von einem oder mehreren TTI-Blöcken getragen – lange Untertitel erstrecken sich über Erweiterungsblöcke – mit präzisen Ein-/Ausbildnummern und Styling-Attributen.

Styling. Unterstützt Teletext-artige Farb- und Positionierungsattribute, Zeichen mit doppelter Höhe und Box-Hintergründe. Die Ausgabe ist visuell darauf beschränkt, den traditionellen Broadcast-Caption-Fähigkeiten zu entsprechen.

Wann verwenden. Broadcast-Lieferung an europäische TV-Sender (BBC, ZDF, France Télévisions usw.). Wenn Sie nicht im professionellen Broadcast arbeiten, werden Sie dieses Format nicht anfassen.

Kompatibilität. Professionelle Broadcast-Software (EZTitles, WinCAPS, Subtitle Workshop) verarbeitet STL. Consumer-Videoplayer tun dies nicht.

TTML und DFXP (W3C Timed Text Markup Language)

TTML (Timed Text Markup Language) ist das auf XML basierende Format des W3C, das zum Rückgrat professioneller OTT- (Over-the-Top) und Streaming-Auslieferung geworden ist. DFXP ist das Profil von TTML, das ursprünglich vom W3C standardisiert wurde, und IMSC ist ein strengeres, interoperables TTML-Profil, das von Sendern und Netflix verwendet wird. (SMPTE-TT ist ein separates, von SMPTE definiertes TTML-basiertes Profil – mit IMSC verwandt, aber nicht dieselbe Spezifikation.)

Struktur. XML-Dokument mit einem Root-Element <tt>, das <head> (Styles, Regionen, Metadaten) und <body> (Abschnitte mit Absätzen, die jeweils einen Untertitel-Cue mit Begin/Ende-Timing darstellen) enthält.

Minimales Beispiel:

<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="de">
  <head>
    <styling>
      <style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
    </styling>
  </head>
  <body>
    <div style="default">
      <p begin="00:00:01.000" end="00:00:03.500">Willkommen zum Video.</p>
      <p begin="00:00:04.000" end="00:00:07.200">Untertitel machen Inhalte<br/>für globale Zielgruppen zugänglich.</p>
    </div>
  </body>
</tt>

Styling. Vollständiges CSS-ähnliches Styling inline oder über Stildefinitionen. Unterstützt Regionen für die Positionierung, Animationen über <set>-Elemente, Ruby-Annotationen für ostasiatische Typografie und reichhaltige Textsemantik.

Wann verwenden. Netflix-Auslieferung, OTT-Plattformen, Broadcast-Workflows, die SMPTE-TT- oder IMSC-Profile erfordern, und überall dort, wo Sie präzises Styling benötigen, das Verarbeitungspipelines übersteht.

Kompatibilität. Netflix erfordert IMSC 1.1. Amazon Prime, Hulu und Disney+ akzeptieren TTML-Varianten. Apple TV verwendet iTunes Timed Text (iTT), ein Profil von TTML. Consumer-Player bevorzugen im Allgemeinen SRT oder VTT.

Plattformkompatibilitätsmatrix

Plattform	SRT	VTT	ASS/SSA	SBV	STL	TTML/DFXP
YouTube (Upload)	✅	✅	❌	✅	❌	✅
Vimeo	✅	✅	❌	❌	❌	❌
Netflix (Auslieferung)	❌	❌	❌	❌	❌	✅ (IMSC)
Amazon Prime (Auslieferung)	❌	❌	❌	❌	❌	✅
HTML5 `<track>`	❌	✅	❌	❌	❌	❌
VLC	✅	✅	✅	✅	❌	✅
MPV	✅	✅	✅	✅	❌	✅
Adobe Premiere Pro	✅	✅	❌	❌	✅	✅
DaVinci Resolve	✅	✅	❌	❌	✅	✅
Final Cut Pro	✅	✅	❌	❌	❌	✅ (iTT)
TikTok / Instagram Reels	✅	❌	❌	❌	❌	❌

„Auslieferung" bedeutet, dass die Plattform dieses Format in ihrer Ingest-Pipeline akzeptiert, nicht dass es direkt in der Consumer-App wiedergegeben wird.

Entscheidungsbaum: welches Format sollten Sie verwenden?

Beantworten Sie diese der Reihe nach. Das erste Ja ist Ihr Format.

Liefern Sie an Netflix oder einen anderen großen OTT-Dienst? Verwenden Sie TTML / IMSC 1.1. Das ist eine harte Anforderung, keine Präferenz.
Liefern Sie an europäisches Broadcast-TV? Verwenden Sie EBU-STL. Prüfen Sie die spezifische Lieferspezifikation des Senders für die genaue STL-Variante.
Benötigen Sie stilisierte Untertitel für Anime, Karaoke oder typografisch anspruchsvolle Inhalte? Verwenden Sie ASS / SSA. Kein anderes Format bietet vergleichbare Kontrolle.
Betten Sie in HTML5-Video im Web ein? Verwenden Sie WebVTT. Es ist das native Format für das <track>-Element.
Laden Sie auf YouTube hoch? Verwenden Sie SRT (YouTubes bevorzugte Eingabe) oder VTT. Überspringen Sie SBV, es sei denn, Sie haben einen Legacy-Workflow.
Benötigen Sie maximale Kompatibilität über unbekannte Player hinweg? Verwenden Sie SRT. Nichts wird universeller unterstützt.

Für die meisten Content-Ersteller – Podcaster, YouTuber, Kursanbieter – lautet die Antwort fast immer SRT oder WebVTT. Die exotischen Formate sind nur relevant, wenn eine bestimmte Plattform oder ein Kunde sie vorschreibt.

Konvertierung zwischen Formaten

Alle sechs Formate sind konvertierbar, aber jede Konvertierung verliert in einer Richtung Informationen. Der Übergang von einem reichhaltigen Format (ASS, TTML) zu einem einfachen Format (SRT, SBV) entfernt Styling und Positionierung. Der umgekehrte Weg bewahrt Text, kann aber das Quell-Styling nicht neu erstellen.

Gängige Konvertierungswerkzeuge:

FFmpeg: ffmpeg -i input.ass output.srt bewältigt die meisten Untertitelkonvertierungen einschließlich der Reduzierung auf reinen Text.
Subtitle Edit (Windows, kostenlos): GUI zum Konvertieren zwischen ~30 Untertitelformaten mit visueller Vorschau.
Aegisub (plattformübergreifend, kostenlos): Spezialisierter ASS-Editor, der in SRT und VTT importiert und exportiert.
Online-Konverter: Nützlich für einmalige Konvertierungen, aber vermeiden Sie sie für sensible Inhalte (Uploads verlassen Ihre Kontrolle).

Die programmatische Konvertierung ist für Formatpaare, die ein cue-basiertes Modell teilen (SRT, VTT, SBV, ASS-Events), unkompliziert. XML-Formate (TTML/DFXP) benötigen einen richtigen Parser wegen Namespaces und verschachtelter Elemente.

Zeichenkodierung und Unicode

Alle modernen Untertitelformate unterstützen UTF-8 und das ist die einzige Kodierung, die Sie 2026 verwenden sollten. Legacy-Dateien können in Windows-1252, Latin-1, Shift-JIS oder GB2312 vorliegen – wenn Ihr Text als ?????? oder Ã© statt é gerendert wird, ist die Datei in der falschen Kodierung. Die meisten Editoren erlauben das erneute Speichern als UTF-8.

Ein einziger Fehler, auf den zu achten ist: Speichern Sie UTF-8 nicht mit einer Byte-Order-Mark (BOM). Die BOM sind drei unsichtbare Bytes am Dateianfang, die ältere SRT-Parser und einige Streaming-Pipelines verwirren. Verwenden Sie in VS Code „Mit Kodierung speichern → UTF-8" statt „UTF-8 mit BOM".

Untertitel aus Audio generieren

Moderne Transkriptionsdienste geben direkt in die meisten Untertitelformate aus. Die typische Pipeline lautet:

Laden Sie das Quell-Audio/-Video hoch oder fügen Sie es ein
Wählen Sie die Ausgabeformat(e): SRT, VTT, TXT oder DOCX
Laden Sie die generierte Datei herunter und hängen Sie sie an Ihr Video an

Vocova unterstützt den Export in SRT, VTT, DOCX, reinen Text und zeitstempelbasiertes PDF und deckt damit jeden praktischen Bedarf für Content-Ersteller und die meisten professionellen Workflows ab. Wenn Sie TTML, ASS oder STL benötigen, ist der Standardansatz, zuerst nach SRT zu exportieren und dann mit den oben aufgeführten Tools zu konvertieren.

Für eine tiefergehende Anleitung zum Generieren von Untertiteln aus Video siehe den Leitfaden zu KI-Untertitelgeneratoren.

Häufig gestellte Fragen

Was ist das am weitesten verbreitete Untertitelformat?

SRT ist das am weitesten verbreitete Untertitelformat im Jahr 2026. Es wird von im Wesentlichen jedem Videoplayer, Videoeditor und jeder Streaming-Plattform unterstützt, und seine Einfachheit macht es zur Standardausgabe der meisten Transkriptionstools.

Was ist der Unterschied zwischen SRT und VTT?

SRT ist das Legacy-Universalformat mit minimalem Styling und keiner Positionierung. WebVTT ist der moderne HTML5-Standard mit vollem CSS-Styling, Positionierung und Kapitelmarkern. WebVTT verwendet Punkte in Zeitstempeln (.), während SRT Kommas (,) verwendet.

Unterstützt YouTube WebVTT?

Ja. YouTube Studio akzeptiert WebVTT, SRT, SBV, TTML, SAMI und mehrere andere Formate beim Upload. SRT ist die häufigste Wahl, weil es am einfachsten zu generieren und zu bearbeiten ist.

Kann ich Untertiteldateien für Barrierefreiheitskonformität verwenden?

Ja. Alle aufgeführten Formate können als Closed Captions dienen, wenn sie Sprecheridentifikation und nicht-sprachliche Geräusche enthalten ([Musik spielt], [Tür knallt]). Transkription für Barrierefreiheit behandelt die spezifischen WCAG-Anforderungen.

Welches Format benötigt Netflix?

Netflix benötigt IMSC 1.1, ein Profil von TTML. Die Lieferspezifikationen schreiben spezifische Styling-, Timing- und Metadatenbeschränkungen vor, die über das generische TTML hinausgehen. Netflix veröffentlicht seinen Timed Text Style Guide für Anbieter, die die Spezifikation erfüllen müssen.

Wird ASS im Jahr 2026 noch verwendet?

Ja, ASS bleibt der Standard für Anime-Fansubs, Karaoke-artige Untertitel und jeden Anwendungsfall, der Typografiekontrolle über das hinaus benötigt, was VTT bietet. Es wurde nicht eingestellt und erhält weiterhin Community-Tooling-Updates.

Wie füge ich Styling zu SRT hinzu?

SRT unterstützt eine kleine Menge von Inline-HTML-Tags: , ,  und . Alles Fortgeschrittenere erfordert den Wechsel zu VTT oder ASS.

Zusammenfassung

Das richtige Untertitelformat hängt davon ab, wohin Ihre Datei geht, nicht von persönlicher Präferenz. SRT für universelle Kompatibilität, WebVTT für das Web, ASS für gestylte Typografie, TTML für OTT-Auslieferung, STL für europäischen Broadcast und SBV fast nie. Alles in Unicode als UTF-8 ohne BOM, und konvertieren Sie zwischen Formaten mit FFmpeg oder Subtitle Edit, wenn eine Plattform eine bestimmte Eingabe erfordert.

Wenn Sie einen Transkriptions-Workflow starten, generieren Sie zuerst SRT oder VTT – sie decken 90 % der Bedürfnisse von Content-Erstellern ab, und jedes andere Format ist nur eine Konvertierung entfernt.

Untertitel-Dateiformate erklärt: SRT, WebVTT, ASS, TTML im Vergleich (2026)

Schnellvergleich

SRT (SubRip Text)

WebVTT (Web Video Text Tracks)

ASS / SSA (Advanced SubStation Alpha)

SBV (YouTube-Format)

STL (EBU Subtitling data exchange format)

TTML und DFXP (W3C Timed Text Markup Language)

Plattformkompatibilitätsmatrix

Entscheidungsbaum: welches Format sollten Sie verwenden?

Konvertierung zwischen Formaten

Zeichenkodierung und Unicode

Untertitel aus Audio generieren

Häufig gestellte Fragen

Was ist das am weitesten verbreitete Untertitelformat?

Was ist der Unterschied zwischen SRT und VTT?

Unterstützt YouTube WebVTT?

Kann ich Untertiteldateien für Barrierefreiheitskonformität verwenden?

Welches Format benötigt Netflix?

Wird ASS im Jahr 2026 noch verwendet?

Wie füge ich Styling zu SRT hinzu?

Zusammenfassung

Quellen und weiterführende Literatur

Verwandte Artikel

Closed Captions vs. Untertitel: Was ist der Unterschied?

SRT vs WebVTT 2026: welches Untertitelformat funktioniert auf YouTube, Vimeo, Netflix

Audio und Video in eine andere Sprache übersetzen (mit zweisprachigen Untertiteln)