SRT vs VTT: 자막 형식 비교 가이드
SRT와 VTT를 비교합니다: SubRip과 WebVTT 자막 형식의 차이점, 각 형식을 지원하는 플랫폼, 어떤 형식을 언제 사용해야 하는지 알아보세요.
SRT(SubRip Text)와 VTT(WebVTT)는 가장 널리 사용되는 두 가지 자막 파일 형식입니다: SRT는 거의 모든 비디오 플레이어에서 지원하는 레거시 표준이고, VTT는 내장 스타일링 및 위치 지정 기능을 갖춘 HTML5 비디오용으로 설계된 최신 웹 네이티브 형식입니다.
올바른 자막 형식을 선택하는 것은 호환성, 스타일링 옵션, 그리고 플랫폼 전반에서 캡션이 렌더링되는 방식에 영향을 미칩니다. 이 가이드에서는 SRT와 VTT의 정확한 차이점, 각 형식을 지원하는 플랫폼, 어떤 형식을 선택해야 하는지를 자세히 살펴봅니다.
SRT란 무엇인가요?
SRT는 SubRip Text의 약자로, 1990년대 후반 DVD에서 자막을 추출("리핑")하는 도구인 SubRip 소프트웨어의 일부로 탄생한 자막 형식입니다. 오래된 형식임에도 불구하고, SRT는 업계에서 가장 보편적으로 지원되는 자막 형식으로 남아 있습니다.
SRT 파일은 .srt 확장자를 가진 일반 텍스트 파일입니다. 각 자막 항목은 순차적 번호 인덱스, 시작 및 종료 시간을 나타내는 타임코드 줄, 그리고 하나 이상의 자막 텍스트 줄의 세 부분으로 구성됩니다. 항목들은 빈 줄로 구분됩니다.
SRT 파일의 구조는 다음과 같습니다:
1
00:00:01,000 --> 00:00:04,000
이것은 첫 번째 자막 줄입니다.
2
00:00:05,500 --> 00:00:08,200
이것은 두 번째 자막입니다.
여러 줄에 걸칠 수 있습니다.
3
00:00:10,000 --> 00:00:13,750
화자 식별은 텍스트 자체에서
수동으로 이루어집니다.
SRT 형식의 주요 특성:
- 타임코드 형식:
HH:MM:SS,mmm(시, 분, 초, 밀리초가 쉼표로 구분) - 순차 번호: 각 큐는 1부터 시작하는 번호가 매겨짐
- 순수 텍스트만: 스타일링, 색상, 위치 지정에 대한 네이티브 지원 없음
- 인코딩: 일반적으로 UTF-8, 오래된 파일은 다른 인코딩을 사용할 수 있음
- 화살표 구분자: 시작 및 종료 시간은
-->로 구분
SRT의 단순함은 가장 큰 강점이자 주요 한계입니다. 모든 텍스트 편집기에서 SRT 파일을 만들고 수정할 수 있으며, 거의 모든 비디오 플레이어와 편집 애플리케이션에서 읽을 수 있습니다. 하지만 형식 사양 자체에서 글꼴 크기, 색상, 배치 또는 기타 시각적 속성을 제어할 수 없습니다.
VTT란 무엇인가요?
VTT는 WebVTT(Web Video Text Tracks)의 약자로, HTML5 <video> 및 <track> 요소와 함께 사용하기 위해 W3C(World Wide Web Consortium)가 개발한 자막 및 캡션 형식입니다. 이 사양은 2010년에 처음 발표되었으며 W3C 권고안이 되어, 웹 기반 비디오 캡션의 공식 표준이 되었습니다.
VTT 파일은 .vtt 확장자를 가진 일반 텍스트 파일입니다. WEBVTT 헤더로 반드시 시작해야 하며, 선택적으로 메타데이터가 뒤따릅니다. 각 큐에는 선택적 식별자, 타임코드 줄, 자막 텍스트가 포함될 수 있습니다.
VTT 파일의 구조는 다음과 같습니다:
WEBVTT
Kind: captions
Language: en
intro
00:00:01.000 --> 00:00:04.000
이것은 첫 번째 자막 줄입니다.
00:00:05.500 --> 00:00:08.200
이것은 두 번째 자막입니다.
여러 줄에 걸칠 수 있습니다.
styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Speaker 1>이 큐에는 위치 지정과
화자 식별을 위한 보이스 태그가 있습니다.</v>
VTT 형식의 주요 특성:
- 필수 헤더: 모든 파일은
WEBVTT로 시작해야 함 - 타임코드 형식:
HH:MM:SS.mmm(밀리초에 쉼표가 아닌 마침표 사용) - 선택적 큐 식별자: 큐에 순차 번호 대신 이름 ID 사용 가능
- CSS 스타일링 지원: CSS를 통한
::cue의사 요소로 스타일링 지원 - 위치 지정: 큐 설정으로 수직, 줄, 위치, 크기, 정렬 제어 가능
- 보이스 태그:
<v Speaker Name>태그로 형식 내에서 화자 식별 가능 - 메타데이터 헤더:
WEBVTT헤더 뒤에 추가 문맥을 위한 키-값 쌍 - 주석: 파일 수준 주석을 위한
NOTE블록 지원
VTT는 이전 자막 형식의 한계를 해결하면서 웹 기술과 네이티브로 통합되도록 설계되었습니다. CSS 스타일링, 화자 보이스 태그, 큐 위치 지정 지원은 웹 기반 비디오 플레이어에서 SRT보다 훨씬 더 표현력이 풍부합니다.
SRT vs VTT: 주요 차이점
SRT와 VTT는 처음 보면 비슷해 보이지만, 파일 확장자 이외에도 여러 중요한 면에서 다릅니다.
| 기능 | SRT | VTT |
|---|---|---|
| 파일 확장자 | .srt |
.vtt |
| 파일 헤더 | 필요 없음 | WEBVTT 필수 |
| 타임코드 구분자 | 쉼표 (,) |
마침표 (.) |
| 큐 번호 | 순차 번호 필수 | 선택적 이름 식별자 |
| 텍스트 스타일링 | 미지원 | CSS ::cue 스타일링, 굵게, 이탤릭, 밑줄 |
| 위치 지정 | 미지원 | 줄, 위치, 크기, 정렬 설정 |
| 화자 식별 | 수동 (텍스트 기반) | 네이티브 보이스 태그 (<v>) |
| 주석 | 미지원 | NOTE 블록 지원 |
| 메타데이터 | 미지원 | 헤더 메타데이터 키-값 쌍 |
| HTML 태그 | 제한적 (일부 플레이어에서 <b>, <i> 지원) |
전체 지원 (<b>, <i>, <u>, <c>, <v>, <lang>) |
| 문자 인코딩 | 다양함 (UTF-8 권장) | UTF-8 필수 |
| 웹 표준 | 아님 | W3C 권고안 |
대부분의 사용자에게 가장 실질적인 차이는 호환성 대 기능성입니다. SRT는 모든 곳에서 작동하지만 시간에 맞춘 텍스트 표시 이상은 하지 않습니다. VTT는 풍부한 포맷 옵션을 갖춘 웹에서 네이티브로 작동하지만, 데스크톱 비디오 편집기와 레거시 미디어 플레이어에서의 지원은 더 좁습니다.
플랫폼 호환성
어떤 플랫폼이 어떤 형식을 지원하는지 알면 시간을 절약하고 변환 문제를 피할 수 있습니다. 주요 플랫폼과 도구에 대한 지원 현황은 다음과 같습니다.
| 플랫폼 / 도구 | SRT | VTT | 참고 |
|---|---|---|---|
| YouTube | 지원 | 지원 | 두 형식 모두 수동 업로드 가능; SRT 자동 생성 |
| Vimeo | 지원 | 지원 | 두 형식 모두 가능; 스타일링에 VTT 권장 |
HTML5 <video> |
미지원 | 지원 | VTT만 네이티브로 지원되는 유일한 형식 |
| VLC Media Player | 지원 | 지원 | 두 형식 모두 완전 지원 |
| Adobe Premiere Pro | 지원 | 미지원 | SRT 가져오기/내보내기; 네이티브 VTT 지원 없음 |
| DaVinci Resolve | 지원 | 미지원 | 가져오기에 SRT 선호 |
| Final Cut Pro | 지원 | 미지원 | SRT 및 iTT 지원 |
| Facebook / Instagram | 지원 | 지원 | 업로드에 SRT 선호 |
| TikTok | 지원 | 미지원 | 폐쇄 자막 업로드에 SRT |
| Netflix | 둘 다 (TTML 통해) | 둘 다 (TTML 통해) | 전달에 TTML/DFXP 선호 |
| Zoom | 지원 | 지원 | 클라우드 녹음에 VTT |
| Microsoft Teams | 지원 | 지원 | 회의 텍스트에 VTT 생성 |
| WordPress | 미지원 | 지원 | HTML5 비디오는 VTT를 네이티브로 사용 |
| Wistia | 지원 | 지원 | 캡션 업로드에 두 형식 모두 허용 |
일반적인 패턴: 웹 플랫폼과 최신 도구는 VTT를 지원하고, 비디오 편집 소프트웨어와 레거시 플레이어는 SRT를 선호합니다. 웹 재생용 콘텐츠를 제작하는 경우 VTT가 자연스러운 선택입니다. 편집자에게 파일을 전달하거나 소셜 미디어에 업로드하는 경우 SRT가 더 안전한 선택입니다.
SRT를 사용해야 하는 경우
포맷 제어보다 광범위한 호환성이 중요할 때 SRT를 선택하세요.
비디오 편집 워크플로. Premiere Pro, DaVinci Resolve, Final Cut Pro, Avid Media Composer 등 대부분의 전문 편집 소프트웨어는 SRT를 네이티브로 처리합니다. 자막 파일이 편집자 간에 이동해야 하는 경우, SRT는 변환 문제를 피합니다.
소셜 미디어 업로드. TikTok과 Instagram 같은 플랫폼은 번인 또는 폐쇄 자막용 SRT를 허용합니다. 소셜 플랫폼에 캡션을 업로드할 때 SRT가 종종 유일하게 허용되는 형식입니다.
레거시 시스템 지원. 오래된 미디어 플레이어, 셋톱박스, DVD/블루레이 저작 도구는 SRT를 중심으로 구축되었습니다. 청중이 오래된 재생 하드웨어나 소프트웨어를 사용하는 경우, SRT는 호환성을 보장합니다.
단순성과 이식성. SRT 파일은 만들고, 편집하고, 디버그하기가 매우 쉽습니다. 기억해야 할 헤더도, 특별한 구문도 없으며, 형식은 처음 보는 사람에게도 자명합니다.
프리랜서 및 클라이언트 납품. 클라이언트나 협업자에게 자막 파일을 전달할 때, SRT는 설명이 필요 없고 수령인이 사용하는 어떤 도구와도 작동하기 때문에 가장 안전한 기본값입니다.
VTT를 사용해야 하는 경우
웹 네이티브 기능, 스타일링 또는 접근성 준수가 필요할 때 VTT를 선택하세요.
HTML5 웹 비디오. <video> 요소를 사용하여 웹사이트에 비디오를 삽입하는 경우, VTT는 <track> 태그에서 지원하는 유일한 자막 형식입니다. 변환 레이어나 JavaScript 라이브러리가 필요 없습니다.
스타일이 적용된 자막. VTT는 ::cue 의사 요소를 사용하여 캡션에 CSS 스타일을 적용할 수 있습니다. 표준 CSS를 통해 글꼴, 색상, 배경, 불투명도, 텍스트 그림자를 제어할 수 있습니다.
video::cue {
background-color: rgba(0, 0, 0, 0.7);
color: #ffffff;
font-size: 1.2em;
}
캡션 위치 지정. VTT는 정밀한 배치를 위한 큐 설정을 지원합니다. 이는 화면 그래픽, 화자 이름, 하단 삼분의 일 오버레이를 피하는 데 유용합니다.
00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
이 캡션은 왼쪽 상단에 나타납니다.
화자 식별. VTT의 보이스 태그(<v>)는 화자를 식별하는 구조화된 방법을 제공하며, 회의 텍스트, 인터뷰, 다중 화자 콘텐츠에 유용합니다. 플레이어는 이 태그를 사용하여 서로 다른 화자에 다른 색상을 적용할 수 있습니다.
접근성 준수. 웹 콘텐츠의 WCAG 2.1 준수를 위해, VTT는 HTML5 접근성 API와 통합되고 캡션(청각 장애인용)과 설명(시각 장애인용)을 모두 지원하므로 권장 형식입니다.
SRT와 VTT 간 변환 방법
두 형식이 구조적으로 유사하므로 SRT와 VTT 간 변환은 간단합니다.
SRT에서 VTT로 변환
SRT 파일을 VTT로 수동 변환하는 방법:
- 파일의 첫 줄에
WEBVTT를 추가 - 헤더 뒤에 빈 줄 추가
- 타임코드의 모든 쉼표를 마침표로 교체 (
00:00:01,000이00:00:01.000이 됨) - 선택적으로 순차 큐 번호 제거 (VTT에서는 필수가 아님)
.vtt확장자로 파일 저장
변환 전 (SRT):
1
00:00:01,000 --> 00:00:04,000
발표에 오신 것을 환영합니다.
2
00:00:05,500 --> 00:00:08,200
오늘 세 가지 주제를 다루겠습니다.
변환 후 (VTT):
WEBVTT
00:00:01.000 --> 00:00:04.000
발표에 오신 것을 환영합니다.
00:00:05.500 --> 00:00:08.200
오늘 세 가지 주제를 다루겠습니다.
VTT에서 SRT로 변환
VTT 파일을 SRT로 변환하는 방법:
WEBVTT헤더 및 모든 메타데이터 줄 제거- 타임코드의 모든 마침표를 쉼표로 교체 (
00:00:01.000이00:00:01,000이 됨) - 각 타임코드 줄 앞에 순차 큐 번호 추가
- VTT 전용 기능 제거 (보이스 태그, 위치 지정, CSS 클래스)
.srt확장자로 파일 저장
자동 변환
일괄 변환이나 빈번한 형식 전환에는 Vocova 같은 도구가 자동으로 처리합니다. Vocova에서 오디오나 비디오에서 자막을 생성할 때, 수동 변환 없이 SRT와 VTT 모두로 직접 내보낼 수 있습니다(PDF, DOCX, CSV, TXT도 포함). 이는 동일한 콘텐츠를 여러 플랫폼용으로 다양한 형식이 필요할 때 특히 유용합니다.
대부분의 비디오 편집 애플리케이션과 온라인 자막 편집기에도 내장 형식 변환이 포함되어 있습니다. FFmpeg는 커맨드라인에서 형식 간 변환이 가능합니다:
ffmpeg -i subtitles.srt subtitles.vtt
알아두면 좋은 기타 자막 형식
SRT와 VTT가 대부분의 사용 사례를 포괄하지만, 특수 애플리케이션을 위한 여러 다른 형식도 존재합니다.
ASS / SSA (Advanced SubStation Alpha)
ASS와 그 전신 SSA는 애니메이션 팬 자막 커뮤니티에서 인기 있는 자막 형식입니다. 글꼴, 색상, 애니메이션, 가라오케 효과, 정밀한 화면 위치 지정을 포함한 고급 스타일링을 지원합니다. ASS 파일은 SRT나 VTT보다 상당히 복잡하며, 주로 VLC와 MPC-HC 같은 미디어 플레이어와 함께 사용됩니다. 대부분의 웹 플랫폼은 ASS 파일을 직접 허용하지 않습니다.
TTML (Timed Text Markup Language)
TTML은 W3C가 관리하는 XML 기반 자막 형식입니다. Netflix, BBC 등 주요 콘텐츠 배급사를 비롯한 전문 방송 및 스트리밍 워크플로에서 사용됩니다. TTML은 풍부한 스타일링, 영역 기반 위치 지정, 단일 파일에 여러 자막 트랙을 지원합니다. XML 구조는 장황하지만 매우 구조화되어 있습니다.
SCC (Scenarist Closed Captions)
SCC는 북미 방송 텔레비전에서 사용되는 레거시 형식입니다. CEA-608 폐쇄 캡션 데이터를 인코딩하며, 미국의 FCC 준수 캡션에 필요합니다. SCC 파일은 사람이 읽을 수 없으며, 생성 및 편집에 전문 소프트웨어가 필요합니다. 방송 TV용 콘텐츠를 제작하는 경우, 캡션 업체가 SCC 파일을 전달할 가능성이 높습니다.
SBV (SubViewer)
SBV는 YouTube에서 자동 생성 캡션에 역사적으로 사용된 간단한 자막 형식입니다. 구조적으로 SRT와 유사하지만 다른 타임코드 형식을 사용합니다. SBV는 YouTube 업로드에서 SRT와 VTT에 의해 대체되었습니다.
자주 묻는 질문
YouTube에 SRT 파일을 업로드할 수 있나요?
네. YouTube는 수동 자막 업로드에 SRT와 VTT 파일을 모두 허용합니다. YouTube Studio의 비디오 "자막" 섹션에서 업로드할 수 있습니다. YouTube는 또한 자동으로 캡션을 생성하며, SRT 형식으로 다운로드할 수 있습니다.
VTT는 스타일링과 색상을 지원하나요?
네. VTT는 ::cue 의사 요소를 통한 CSS 스타일링, <b>, <i>, <u> 같은 인라인 태그, <c.classname>을 통한 클래스 기반 스타일링을 지원합니다. 글꼴 색상, 배경색, 텍스트 크기, 불투명도를 제어할 수 있습니다. 하지만 모든 비디오 플레이어가 VTT 스타일을 렌더링하는 것은 아닙니다 -- 지원은 플레이어 구현에 따라 다릅니다.
접근성에 더 좋은 형식은 무엇인가요?
VTT는 웹 접근성 준수를 위해 권장되는 형식입니다. HTML5 접근성 API와 통합되고, kind 속성(캡션, 설명, 챕터)을 지원하며, 보이스 태그를 통한 화자 식별이 가능합니다. 웹 비디오의 WCAG 2.1 준수를 위해서는 <track> 요소와 함께 VTT가 표준 접근 방식입니다.
SRT 파일에 굵게나 이탤릭 같은 포맷을 포함할 수 있나요?
SRT 사양에는 포맷이 포함되어 있지 않습니다. 하지만 많은 비디오 플레이어가 SRT 큐 내의 기본 HTML 태그(<b>, <i>, <u>)를 해석하여 렌더링합니다. 이 동작은 모든 플레이어에서 보장되지 않으므로, 중요한 포맷에 이것에 의존하는 것은 위험합니다.
자막 파일의 최대 파일 크기는 얼마인가요?
SRT나 VTT 모두 형식 수준의 파일 크기 제한이 없습니다. 플랫폼별 제한은 다양합니다: YouTube는 최대 10MB의 자막 파일을 허용하며, 대부분의 플랫폼은 일반적인 비디오 길이에 대해 1MB 이하의 파일을 허용합니다. 1시간 비디오는 일반적으로 50-150KB 크기의 자막 파일을 생성합니다.
오디오나 비디오에서 SRT 또는 VTT 파일을 생성하는 방법은 무엇인가요?
자동 음성 인식 도구로 오디오나 비디오를 음성 인식하여 자막 파일을 생성할 수 있습니다. Vocova 같은 서비스는 100개 이상의 언어로 타임스탬프와 화자 라벨이 포함된 오디오 음성 인식을 제공하고, SRT, VTT 및 기타 형식으로 직접 내보낼 수 있습니다. 자막 생성 도구 비교는 최고의 AI 자막 생성기 가이드를 참조하세요.