자막 파일 형식: SRT, WebVTT, ASS, SBV, STL, TTML 완벽 가이드 (2026)
모든 주요 자막 형식을 사양, 코드 예제, 플랫폼 호환성, 선택 가이드와 함께 설명합니다. 2026년을 위한 SRT, WebVTT, ASS/SSA, SBV, STL, TTML/DFXP 비교.
자막 파일은 비디오 플레이어에 어떤 텍스트를 언제 보여줄지, 그리고 선택적으로 어떻게 스타일링하고 배치할지를 알려주는 일반 텍스트 문서입니다. 2026년에 중요한 일곱 가지 형식은 SRT(보편적 기준), WebVTT(웹 네이티브, HTML5), ASS/SSA(애니메이션과 가라오케용 고급 스타일링), SBV(YouTube 내부 형식), STL(유럽 방송 표준), TTML/DFXP(Netflix와 방송 워크플로에서 사용되는 W3C XML 표준)입니다. 각 형식은 고유한 용도가 있으며, 잘못된 형식을 사용하면 호환성 문제가 확실히 발생합니다.
이 레퍼런스는 기술 사양, 최소 예제, 플랫폼 지원, 그리고 처음부터 올바른 형식을 선택할 수 있는 결정 트리를 다룹니다. 두 형식 비교만 필요하다면 더 짧은 SRT vs VTT 글을 참고하세요. 이 가이드는 전체 지도입니다.
빠른 비교
| 형식 | 확장자 | 스타일링 | 위치 지정 | 주요 용도 | 플랫폼 커버리지 |
|---|---|---|---|---|---|
| SRT | .srt | 최소 (이탤릭, 굵게, 밑줄) | 없음 | 범용 비디오 재생 | 거의 보편적 |
| WebVTT | .vtt | CSS 기반 | 전체 (x,y,align) | HTML5 비디오, 웹 | 모든 최신 브라우저 |
| ASS / SSA | .ass, .ssa | 풍부 (글꼴, 색상, 효과) | 전체 | 애니메이션, 가라오케, 스타일 자막 | VLC, MPV, Aegisub |
| SBV | .sbv | 없음 | 없음 | YouTube 업로드 | YouTube Studio 전용 |
| STL (EBU) | .stl | 방송 안전 | 있음 | 유럽 TV 방송 | 전문 방송 |
| TTML / DFXP | .ttml, .dfxp, .xml | XML + CSS | 전체 | OTT, 방송, Netflix | Netflix, SMPTE 워크플로 |
일부 STL 변형을 제외한 모든 주요 형식은 사람이 읽을 수 있는 일반 텍스트입니다. 어떤 형식이든 다른 형식으로 변환할 수 있지만, 풍부한 형식에서 단순한 형식으로 이동하면 스타일링이 손실됩니다.
SRT (SubRip Text)
SRT는 자막 형식의 최소 공통분모입니다. 2000년대 초 SubRip DVD 리핑 도구용으로 설계되었으며, 그 단순함이 바로 SRT가 보편화된 이유입니다. 사실상 모든 비디오 플레이어, 비디오 편집기, 스트리밍 플랫폼이 지원합니다.
구조. SRT 파일은 큐의 시퀀스이며, 각 큐는 숫자 인덱스, -->로 구분된 시작 및 종료 타임스탬프, 그리고 하나 이상의 텍스트 줄로 구성됩니다. 큐는 빈 줄로 구분됩니다. 타임스탬프는 HH:MM:SS,mmm(소수점 구분자로 쉼표 사용) 형식입니다.
최소 예제:
1
00:00:01,000 --> 00:00:03,500
Welcome to the video.
2
00:00:04,000 --> 00:00:07,200
Subtitles make content accessible
to global audiences.
스타일링. SRT는 HTML 같은 태그의 작은 하위 집합을 지원합니다. <i>italic</i>, <b>bold</b>, <u>underline</u>, <font color="#ff0000">colored</font>. 태그 지원은 플레이어마다 다릅니다. 이 범위를 넘어서면 이식성이 없습니다.
제한사항. 위치 지정 없음, 수직 텍스트 없음, 애니메이션 없음, 정밀한 CSS 제어 없음. 유니코드는 지원되지만 일부 오래된 플레이어는 Windows-1252 또는 Latin-1을 가정하므로, 가장 넓은 호환성을 위해 BOM 없는 UTF-8로 저장하세요.
사용 시기. 비디오 플랫폼 업로드, 로컬 재생, 그리고 최대 호환성이 필요한 모든 곳의 기본 선택지.
WebVTT (Web Video Text Tracks)
WebVTT는 HTML5 비디오 캡션용 W3C 표준입니다. 표면적으로는 SRT와 호환되도록 설계되었으며, 웹에 실제로 필요한 기능인 CSS 스타일링, 위치 지정, 메타데이터 큐, 챕터 마커를 추가했습니다.
구조. WEBVTT 헤더로 시작하고 큐가 이어집니다. 타임스탬프는 HH:MM:SS.mmm(쉼표가 아닌 마침표를 소수점 구분자로 사용) 형식입니다. 큐는 인라인으로 스타일링과 위치 지정 힌트를 담을 수 있습니다.
최소 예제:
WEBVTT
1
00:00:01.000 --> 00:00:03.500
Welcome to the video.
2
00:00:04.000 --> 00:00:07.200 line:80% position:50% align:center
Subtitles make content accessible
to global audiences.
스타일링. 스타일시트의 ::cue 및 ::cue(selector) 의사 요소 또는 VTT 파일에 직접 포함된 STYLE 블록을 통해 CSS를 지원합니다. 색상, 배경, 글꼴, 글꼴 크기, 굵기, 그림자 효과를 제어할 수 있습니다.
위치 지정. 큐 설정(line, position, size, align, vertical)으로 텍스트가 나타나는 위치를 제어합니다. 이것이 SRT 대비 주요 기능적 이점입니다.
확장 기능. 주석을 위한 NOTE 블록, 내장 CSS를 위한 STYLE 블록, 그리고 HTML <track> 요소의 kind 속성을 통한 챕터/메타데이터 트랙을 지원합니다.
사용 시기. HTML5 비디오, 웹 플레이어, 챕터 마커, 그리고 캡션 외관에 대한 CSS 수준의 제어가 필요한 모든 곳.
ASS / SSA (Advanced SubStation Alpha)
ASS(Advanced SubStation Alpha)와 그 전신 SSA는 자막 세계의 헤비급 형식입니다. 원래 SubStation Alpha 가라오케 및 애니메이션 자막 도구용으로 개발되었으며, ASS는 널리 사용되는 자막 형식 중 가장 풍부한 스타일링 옵션을 제공합니다.
구조. INI 같은 섹션: [Script Info], [V4+ Styles], [Events]. 이벤트가 실제 자막 큐이며, 각각 레이어, 시작/종료 시간, 스타일 이름, 텍스트를 가집니다. 텍스트는 중괄호 내 인라인 오버라이드 태그를 포함할 수 있습니다({\b1}bold{\b0}, {\c&H00FFFF&}yellow, {\pos(100,200)}positioned).
최소 예제:
[Script Info]
Title: Example
ScriptType: v4.00+
PlayResX: 1920
PlayResY: 1080
[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,48,&H00FFFFFF,&H000000FF,&H00000000,&H80000000,0,0,0,0,100,100,0,0,1,2,2,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:03.50,Default,,0,0,0,,Welcome to the video.
Dialogue: 0,0:00:04.00,0:00:07.20,Default,,0,0,0,,{\b1}Subtitles{\b0} matter.
스타일링. 한 번 정의한 명명된 스타일을 여러 큐에 적용합니다. 인라인 오버라이드로 속성을 애니메이션(\t(start,end,\fscx120)는 두 시간 사이에 수평으로 확대), 텍스트 회전, 그림자와 윤곽선 적용, 그리고 \p1 ... \p0 명령으로 벡터 그래픽을 그릴 수 있습니다.
사용 시기. 애니메이션 팬 자막, 가라오케 가사, 매우 스타일화된 캡션, 그리고 타이포그래피와 위치 지정에 대한 프로덕션 수준의 제어가 필요한 모든 경우. 대부분의 사용 사례에는 과도합니다.
호환성. VLC, MPV, mpv.net, 대부분의 애니메이션 커뮤니티 플레이어가 ASS를 완전히 지원합니다. 웹 플레이어는 일반적으로 지원하지 않습니다. YouTube는 업로드 시 ASS 스타일링을 제거합니다.
SBV (YouTube 형식)
SBV는 YouTube의 역사적 내부 자막 형식입니다. 본질적으로 인덱스나 스타일링이 없는 간소화된 SRT입니다. YouTube Studio는 여전히 SRT, VTT, TTML 및 기타 여러 형식과 함께 SBV를 허용합니다.
구조. 쉼표로 구분된 타임스탬프 뒤에 자막 텍스트가 이어집니다. 큐는 빈 줄로 구분됩니다. 타임스탬프는 H:MM:SS.mmm 형식입니다.
최소 예제:
0:00:01.000,0:00:03.500
Welcome to the video.
0:00:04.000,0:00:07.200
Subtitles make content accessible
to global audiences.
사용 시기. 도구에서 이미 SBV 내보내기가 있는 상태로 YouTube에 직접 업로드하는 좁은 경우를 제외하면 거의 사용할 일이 없습니다. 새로운 워크플로에는 SRT 또는 VTT를 사용하세요. YouTube는 둘 다 허용합니다.
STL (EBU 자막 데이터 교환 형식)
EBU-STL은 유럽 방송 연맹의 바이너리 자막 교환 형식이며, EBU Tech 3264로 표준화되었습니다. 유럽 방송 텔레비전에서 지배적인 형식이며, 많은 공영 방송사가 납품용으로 요구합니다.
구조. 일반 자막 정보(GSI) 헤더와 이어지는 텍스트 및 타이밍 정보(TTI) 블록들(각각 128바이트)로 구성된 바이너리 컨테이너. GSI 블록은 언어, 문자 집합, 프레임 속도, 종횡비 같은 메타데이터를 인코딩합니다. 각 TTI 블록은 정확한 입/출 프레임 번호와 스타일링 속성을 가진 단일 큐입니다.
스타일링. 텔레텍스트 방식의 색상 및 위치 속성, 2배 높이 문자, 박스 배경을 지원합니다. 출력은 전통적인 방송 캡션 기능과 일치하도록 시각적으로 제한됩니다.
사용 시기. 유럽 TV 네트워크(BBC, ZDF, France Télévisions 등)로의 방송 납품. 전문 방송 분야에서 일하지 않는다면 이 형식을 다룰 일이 없습니다.
호환성. 전문 방송 소프트웨어(EZTitles, WinCAPS, Subtitle Workshop)가 STL을 처리합니다. 소비자 비디오 플레이어는 지원하지 않습니다.
TTML 및 DFXP (W3C Timed Text Markup Language)
TTML(Timed Text Markup Language)은 W3C의 XML 기반 형식이며, 전문 OTT(over-the-top) 및 스트리밍 납품의 중추가 되었습니다. DFXP는 원래 W3C에서 표준화된 TTML의 프로파일이며, IMSC(SMPTE-TT)는 방송사와 Netflix가 사용하는 더 엄격한 프로파일입니다.
구조. 루트 <tt> 요소를 가진 XML 문서로, <head>(스타일, 영역, 메타데이터)와 <body>(단락을 포함하는 구획, 각각 시작/종료 타이밍을 가진 자막 큐를 나타냄)를 포함합니다.
최소 예제:
<?xml version="1.0" encoding="UTF-8"?>
<tt xmlns="http://www.w3.org/ns/ttml" xml:lang="en">
<head>
<styling>
<style xml:id="default" tts:color="white" tts:fontFamily="Arial" tts:fontSize="100%"/>
</styling>
</head>
<body>
<div style="default">
<p begin="00:00:01.000" end="00:00:03.500">Welcome to the video.</p>
<p begin="00:00:04.000" end="00:00:07.200">Subtitles make content accessible<br/>to global audiences.</p>
</div>
</body>
</tt>
스타일링. 인라인 또는 스타일 정의를 통한 완전한 CSS 유사 스타일링. 위치 지정을 위한 영역, <set> 요소를 통한 애니메이션, 동아시아 타이포그래피를 위한 루비 주석, 풍부한 텍스트 의미론을 지원합니다.
사용 시기. Netflix 납품, OTT 플랫폼, SMPTE-TT 또는 IMSC 프로파일이 필요한 방송 워크플로, 그리고 처리 파이프라인을 거쳐도 유지되는 정밀한 스타일링이 필요한 모든 곳.
호환성. Netflix는 IMSC 1.1을 요구합니다. Amazon Prime, Hulu, Disney+는 TTML 변형을 허용합니다. Apple TV는 TTML의 프로파일인 iTunes Timed Text(iTT)를 사용합니다. 소비자 플레이어는 일반적으로 SRT 또는 VTT를 선호합니다.
플랫폼 호환성 매트릭스
| 플랫폼 | SRT | VTT | ASS/SSA | SBV | STL | TTML/DFXP |
|---|---|---|---|---|---|---|
| YouTube (업로드) | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ |
| Vimeo | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Netflix (납품) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ (IMSC) |
| Amazon Prime (납품) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
HTML5 <track> | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
| VLC | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| MPV | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Adobe Premiere Pro | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| DaVinci Resolve | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
| Final Cut Pro | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ (iTT) |
| TikTok / Instagram Reels | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
"납품"은 소비자 앱에서 직접 재생된다는 의미가 아니라, 플랫폼이 수신 파이프라인에서 해당 형식을 허용한다는 뜻입니다.
결정 트리: 어떤 형식을 사용해야 할까?
순서대로 답하세요. 첫 번째로 "예"가 나오는 항목이 여러분의 형식입니다.
- Netflix 또는 다른 주요 OTT 서비스에 납품하나요? TTML / IMSC 1.1을 사용하세요. 선호가 아닌 필수 요구사항입니다.
- 유럽 방송 TV에 납품하나요? EBU-STL을 사용하세요. 정확한 STL 변형은 각 방송사의 납품 사양을 확인하세요.
- 애니메이션, 가라오케, 타이포그래피 중심의 콘텐츠를 위한 스타일화된 자막이 필요한가요? ASS / SSA를 사용하세요. 다른 어떤 형식도 비슷한 수준의 제어를 제공하지 않습니다.
- 웹에서 HTML5 비디오에 삽입하나요? WebVTT를 사용하세요.
<track>요소의 네이티브 형식입니다. - YouTube에 업로드하나요? SRT(YouTube의 선호 입력) 또는 VTT를 사용하세요. 레거시 워크플로가 아닌 한 SBV는 건너뛰세요.
- 알 수 없는 플레이어 전반에서 최대 호환성이 필요한가요? SRT를 사용하세요. 이보다 보편적으로 지원되는 것은 없습니다.
대부분의 콘텐츠 제작자, 즉 팟캐스터, 유튜버, 강좌 제작자에게 답은 거의 항상 SRT 또는 WebVTT입니다. 이색적인 형식은 특정 플랫폼이나 클라이언트가 요구할 때만 관련이 있습니다.
형식 간 변환
일곱 가지 형식 모두 변환 가능하지만, 각 변환은 한 방향으로 정보를 잃습니다. 풍부한 형식(ASS, TTML)에서 단순 형식(SRT, SBV)으로 가면 스타일링과 위치 지정이 제거됩니다. 반대 방향은 텍스트는 보존하지만 원본 스타일링을 재현할 수 없습니다.
일반적인 변환 도구:
- FFmpeg:
ffmpeg -i input.ass output.srt는 일반 텍스트로의 제거를 포함한 대부분의 자막 변환을 처리합니다. - Subtitle Edit(Windows, 무료): 시각적 미리보기와 함께 약 30가지 자막 형식을 변환하는 GUI.
- Aegisub(크로스 플랫폼, 무료): SRT 및 VTT로 가져오기/내보내기가 가능한 전문 ASS 편집기.
- 온라인 변환기: 일회성 변환에는 유용하지만, 민감한 콘텐츠에는 피하세요(업로드가 여러분의 통제를 벗어납니다).
큐 기반 모델을 공유하는 형식 쌍(SRT, VTT, SBV, ASS events)의 경우 프로그래밍 방식 변환이 간단합니다. XML 형식(TTML/DFXP)은 네임스페이스와 중첩 요소 때문에 적절한 파서가 필요합니다.
문자 인코딩과 유니코드
모든 최신 자막 형식은 UTF-8을 지원하며, 2026년에 여러분이 사용해야 할 유일한 인코딩입니다. 레거시 파일은 Windows-1252, Latin-1, Shift-JIS, GB2312일 수 있습니다. 텍스트가 é 대신 ?????? 또는 é로 렌더링된다면 파일의 인코딩이 잘못된 것입니다. 대부분의 편집기는 UTF-8로 다시 저장할 수 있습니다.
주의할 한 가지 실수: UTF-8을 BOM(바이트 순서 표시)과 함께 저장하지 마세요. BOM은 파일 시작 부분의 세 개의 보이지 않는 바이트로, 오래된 SRT 파서와 일부 스트리밍 파이프라인을 혼란스럽게 합니다. VS Code에서는 "UTF-8 with BOM"이 아닌 "Save with Encoding → UTF-8"을 사용하세요.
오디오에서 자막 생성하기
최신 트랜스크립션 서비스는 대부분의 자막 형식으로 직접 출력합니다. 일반적인 파이프라인은 다음과 같습니다:
- 소스 오디오/비디오를 업로드하거나 붙여넣기
- 출력 형식 선택: SRT, VTT, TXT, DOCX
- 생성된 파일을 다운로드하여 비디오에 첨부
Vocova는 SRT, VTT, DRCX(Descript), 일반 텍스트, 타임스탬프가 포함된 PDF로 내보내기를 지원하여 콘텐츠 제작자와 대부분의 전문 워크플로의 모든 실용적 요구를 충족합니다. TTML, ASS, STL이 필요하다면 표준 접근 방식은 먼저 SRT로 내보낸 다음 위에 나열된 도구로 변환하는 것입니다.
비디오에서 자막을 생성하는 자세한 과정은 AI 자막 생성기 가이드를 참조하세요.
자주 묻는 질문
가장 널리 사용되는 자막 형식은 무엇인가요?
2026년 기준 SRT가 가장 널리 사용되는 자막 형식입니다. 사실상 모든 비디오 플레이어, 비디오 편집기, 스트리밍 플랫폼이 지원하며, 단순함 덕분에 대부분의 트랜스크립션 도구의 기본 출력이 됩니다.
SRT와 VTT의 차이점은 무엇인가요?
SRT는 최소한의 스타일링과 위치 지정이 없는 레거시 범용 형식입니다. WebVTT는 완전한 CSS 스타일링, 위치 지정, 챕터 마커를 갖춘 최신 HTML5 표준입니다. WebVTT는 타임스탬프에 마침표(.)를 사용하고, SRT는 쉼표(,)를 사용합니다.
YouTube는 WebVTT를 지원하나요?
네. YouTube Studio는 업로드 시 WebVTT, SRT, SBV, TTML, SAMI 및 기타 여러 형식을 허용합니다. 생성과 편집이 가장 간단하기 때문에 SRT가 가장 흔한 선택입니다.
접근성 준수에 자막 파일을 사용할 수 있나요?
네. 나열된 모든 형식은 화자 식별과 비언어적 소리([music playing], [door slams])를 포함할 때 폐쇄 자막으로 기능할 수 있습니다. 접근성을 위한 트랜스크립션에서 구체적인 WCAG 요구사항을 다룹니다.
Netflix는 어떤 형식을 요구하나요?
Netflix는 TTML의 프로파일인 IMSC 1.1을 요구합니다. 납품 사양은 일반 TTML을 넘어서는 특정 스타일링, 타이밍, 메타데이터 제약을 명시합니다. Netflix는 사양을 충족해야 하는 벤더를 위해 Timed Text Style Guide를 게시합니다.
2026년에도 ASS가 사용되나요?
네, ASS는 애니메이션 팬 자막, 가라오케 스타일 자막, 그리고 VTT가 제공하는 것을 넘는 타이포그래피 제어가 필요한 모든 사용 사례의 표준으로 남아 있습니다. 사용 중단되지 않았으며 커뮤니티 도구 업데이트가 계속 이루어지고 있습니다.
SRT에 스타일링을 추가하려면 어떻게 하나요?
SRT는 인라인 HTML 태그의 작은 집합을 지원합니다: <i>, <b>, <u>, <font color="...">. 이보다 고급 기능은 VTT 또는 ASS로 전환해야 합니다.
요약
올바른 자막 형식은 개인 취향이 아니라 파일이 어디로 가는지에 따라 결정됩니다. 범용 호환성에는 SRT, 웹에는 WebVTT, 스타일화된 타이포그래피에는 ASS, OTT 납품에는 TTML, 유럽 방송에는 STL, SBV는 거의 사용하지 않습니다. 모든 것을 BOM 없는 UTF-8로 저장하고, 플랫폼이 특정 입력을 요구할 때는 FFmpeg 또는 Subtitle Edit을 사용하여 형식 간에 변환하세요.
트랜스크립션 워크플로를 시작하는 경우 먼저 SRT 또는 VTT를 생성하세요. 콘텐츠 제작자 요구의 90%를 커버하며, 다른 모든 형식은 한 번의 변환만 거치면 됩니다.
