클로즈드 캡션 vs 자막: 차이점은 무엇인가요?

클로즈드 캡션은 음향 설명을 포함하며 청각 장애인을 위해 설계된 반면, 자막은 시청자가 소리를 들을 수 있다고 가정하고 대화만 전사합니다. 일상 대화에서 혼용되지만, 이 두 형식은 서로 다른 청중을 대상으로 하고, 서로 다른 표준을 따르며, 서로 다른 유형의 정보를 포함합니다.

이 구별을 이해하는 것은 콘텐츠 크리에이터, 교육자, 비디오를 접근 가능하게 만들려는 기업 모두에게 중요합니다. 잘못된 형식을 선택하면 시청자에게 중요한 맥락이 누락되거나, 접근성 규정에서 문제가 될 수 있습니다. 이 가이드에서는 클로즈드 캡션과 자막이 정확히 어떻게 다른지, 각각을 언제 사용해야 하는지, 현대 AI 도구가 두 가지를 모두 만드는 것을 얼마나 쉽게 만들었는지 자세히 설명합니다.

자막을 제공하지 않으면 시청자만 줄어드는 것이 아닙니다. 특히 미국에서는 최근 디지털 접근성과 관련한 ADA 소송이 크게 증가했기 때문에 조직은 법적 위험에도 노출됩니다. ADA Title II와 III, FCC/CVAA 범위, Section 508, EAA, 적용되는 WCAG 기준에 대한 자세한 정리는 접근성 가이드를 참고하세요.

클로즈드 캡션이란?

클로즈드 캡션은 음성 단어뿐만 아니라 비디오의 모든 의미 있는 소리를 나타내는 텍스트 오버레이입니다. 1970년대에 청각 장애인에게 방송 콘텐츠에 대한 완전한 접근을 제공하기 위해 처음 개발되었습니다.

클로즈드 캡션 트랙에는 일반적으로 다음이 포함됩니다:

화자 식별이 있는 대화 (예: "내레이터:" 또는 "사라:")
대괄호로 설명된 음향 효과, 예: [문이 쾅 닫힘], [전화 울림], [발소리 다가옴]
[경쾌한 재즈 음악] 또는 [우울한 피아노 멜로디]와 같은 음악 설명
[속삭이며], [비꼬듯이], [소리 지르며]와 같은 톤 및 태도 표시
[침묵], [박수], [잡음]과 같은 의미를 전달하는 비음성 오디오 큐

"클로즈드(closed)"라는 단어는 시청자가 캡션을 켜거나 끌 수 있다는 것을 의미합니다. 이는 비디오 프레임에 영구적으로 내장된 오픈 캡션과 구별됩니다. 대부분의 스트리밍 플랫폼, 방송 텔레비전, 비디오 플레이어는 CC 버튼이나 접근성 메뉴를 통해 클로즈드 캡션을 지원합니다.

클로즈드 캡션은 정밀한 타임스탬프로 오디오 타임라인에 동기화됩니다. 각 캡션 블록은 특정 순간에 나타나고 사라져, 텍스트가 화면에서 일어나는 것과 일치하도록 합니다. 클로즈드 캡션의 표준 파일 형식에는 SRT와 VTT, 그리고 SCC와 MCC 같은 방송 전용 형식이 포함됩니다.

자막이란?

자막은 비디오의 음성 대화를 텍스트로 표현한 것입니다. 오디오를 들을 수 있지만 음성을 텍스트로 변환해야 하는 시청자, 가장 일반적으로는 비디오가 외국어인 경우를 위해 설계됩니다.

자막에는 일반적으로 다음이 포함됩니다:

그대로 전사되거나 번역된 음성 대화
비디오에 표지판, 제목, 또는 문자 콘텐츠가 나타날 때 화면 텍스트 번역
일부 경우 화자 표시, 캡션보다는 덜 일관적

자막에 일반적으로 포함되지 않는 것은 클로즈드 캡션을 정의하는 비음성 오디오 정보입니다. 자막 트랙은 화면 밖에서 문이 쾅 닫혔다거나, 긴장감 있는 음악이 고조되고 있다거나, 등장인물이 속삭이고 있다고 알려주지 않습니다. 시청자가 이러한 요소를 들을 수 있다는 가정입니다.

자막은 가장 일반적으로 외국어 콘텐츠와 연관됩니다. 프랑스어 영화를 영어 텍스트와 함께 볼 때, 자막을 읽고 있는 것입니다. 텍스트는 원본 대화에 맞게 번역되고 타이밍이 조정되었지만, 주변 소리나 음악 스코어는 설명하지 않습니다.

자막은 캡션과 동일한 파일 형식, 주로 SRT와 VTT를 사용하며, 이것이 때때로 둘 사이의 경계를 모호하게 만들 수 있습니다. 차이점은 컨테이너가 아닌 내용에 있습니다.

클로즈드 캡션과 자막의 주요 차이점

특성	클로즈드 캡션	자막
주요 대상	청각 장애인	외국어 콘텐츠를 시청하는 청력 정상 시청자
대화	예	예
음향 효과	예, 대괄호로 설명	아니오
음악 설명	예	아니오
화자 식별	예, 일반적으로 라벨링	때때로
언어	보통 오디오와 같은 언어	종종 다른 언어(번역)
전환 가능	예, 시청자가 켜고 끌 수 있음	예
법적 요구	종종 예(ADA, FCC, EU)	일반적으로 아니오

핵심 구별은 완전성에 있습니다. 클로즈드 캡션은 전체 오디오 트랙을 텍스트 형태로 나타내는 것을 목표로 합니다. 자막은 음성 대화를 다른 언어로 읽을 수 있게 하거나 편의를 위해 텍스트 형태로 만드는 것을 목표로 합니다.

실제로 용어는 지역에 따라 다릅니다. 미국에서는 "클로즈드 캡션"과 "자막(subtitles)"이 위에서 설명한 것처럼 별개의 개념입니다. 영국과 유럽 대부분에서는 "자막(subtitles)"이 두 가지 사용 사례를 모두 포괄하며, 미국인이 클로즈드 캡션이라고 부르는 것을 종종 "청각 장애인을 위한 자막(SDH)"이라고 합니다. 국제적으로 콘텐츠를 배포하는 경우, 용어에만 의존하기보다 텍스트 트랙에 무엇이 포함되어 있는지 명시적으로 설명하는 것이 도움됩니다.

오픈 캡션 vs 클로즈드 캡션

캡션과 자막의 구별 외에도, 오픈 캡션과 클로즈드 캡션 사이에 중요한 차이가 있습니다.

클로즈드 캡션은 비디오와 함께 별도의 데이터 트랙으로 전달됩니다. 시청자가 켜거나 끄고, 크기를 조정하며, 때로는 외형을 변경할 수 있습니다. 스트리밍 서비스, DVD, 방송 텔레비전 모두 클로즈드 캡션을 사용합니다.

오픈 캡션(번인 캡션 또는 하드코딩 캡션이라고도 함)은 비디오 이미지 자체에 영구적으로 렌더링됩니다. 끄거나, 크기를 조정하거나, 위치를 변경할 수 없습니다. 오픈 캡션으로 비디오를 내보내면 모든 시청자가 이를 봅니다.

오픈 캡션이 적합한 경우

소리 없이 자동 재생되는 소셜 미디어 영상, 시청자가 플랫폼에서 캡션을 활성화하는 방법을 모를 수 있는 경우
캡션 전환이 항상 접근 가능하지 않은 Instagram Stories나 TikTok 같은 플랫폼의 짧은 형식 콘텐츠
시청자가 재생 컨트롤과 상호 작용할 수 없는 프레젠테이션 및 키오스크 디스플레이
모든 시청자가 텍스트를 보도록 보장이 필요한 경우

클로즈드 캡션이 더 나은 경우

시청자 선호가 중요한 긴 형식 콘텐츠
규정이 일반적으로 캡션 표시를 시청자가 제어하도록 요구하는 접근성 규정 준수
여러 언어로 캡션 트랙을 제공해야 하는 다국어 배포
YouTube, Vimeo, 대부분의 스트리밍 서비스가 클로즈드 캡션 파일을 기대하는 플랫폼 요구 사항

대부분의 전문 워크플로는 최대 유연성을 제공하기 때문에 클로즈드 캡션 파일(SRT 또는 VTT)을 생성합니다. 필요하면 나중에 언제든 번인할 수 있지만, 렌더링된 오픈 캡션은 비디오에서 추출할 수 없습니다.

캡션에 대한 법적 요구 사항

이 내용은 일반 정보이며 법률 자문이 아닙니다. 요구 사항은 관할권, 조직, 콘텐츠에 따라 달라집니다. 준수 여부를 결정할 때는 자격 있는 변호사와 상담하세요.

여러 관할권의 접근성 규정은 특정 유형의 비디오 콘텐츠에 클로즈드 캡션을 요구합니다. 주요 규정에 대한 간략한 개요는 다음과 같습니다.

미국

Americans with Disabilities Act (ADA): 법원은 Title III상 공공 편의시설에 해당하는 기업의 동영상 콘텐츠에 자막이 필요할 수 있다고 ADA를 해석해 왔습니다. 여기에는 웹사이트와 온라인 동영상도 점점 더 포함됩니다. 별도로 DOJ의 2024년 규칙은 주·지방 정부 사이트(Title II)에 WCAG 2.1 AA를 설정합니다.
Section 508: 연방 기관은 캡션이 있는 비디오를 포함하여 전자 콘텐츠를 접근 가능하게 만들어야 합니다.
FCC 규정: 텔레비전 방송사와 이전에 방송된 콘텐츠의 온라인 배포자는 클로즈드 캡션을 제공해야 합니다.
CVAA(21세기 통신 및 비디오 접근성법): 원래 TV에서 방송된 인터넷 전달 비디오에 캡션 요구 사항을 확장합니다.

유럽 연합

유럽 접근성법(EAA): 2025년에 발효되며, 비디오 플랫폼을 포함한 디지털 서비스가 접근성 표준을 충족하도록 요구합니다. 캡션은 핵심 구성 요소입니다.
EN 301 549: ICT 접근성에 대한 유럽 표준으로, WCAG를 참조하며 캡션 및 오디오 설명에 대한 요구 사항을 포함합니다.

웹 표준

WCAG 2.1 Level AA: 웹 콘텐츠 접근성 가이드라인은 동기화된 미디어의 모든 사전 녹화된 오디오 콘텐츠(성공 기준 1.2.2)와 실시간 오디오 콘텐츠(Level AA에서 성공 기준 1.2.4)에 캡션을 요구합니다.

클로즈드 캡션 vs 자막의 사용 시기

캡션과 자막 중 선택은 청중과 배포 맥락에 따라 달라집니다.

클로즈드 캡션을 사용하세요:

청중에 청각 장애인이 포함되어 있을 때
전환 가능한 텍스트 트랙을 지원하는 플랫폼에 게시할 때
접근성 규정 준수가 필요하거나 예상될 때
콘텐츠에 의미 있는 비음성 오디오(음향 효과, 음악, 주변 소리)가 있을 때
캡션이 오디오와 같은 언어인 경우

자막을 사용하세요:

외국어 청중을 위해 콘텐츠를 번역할 때
오디오가 명확하게 들리고 시청자가 대화 텍스트만 필요한 경우
국제 시장에 배포하며 다국어 텍스트 트랙이 필요한 경우

둘 다 사용하세요:

접근성을 위한 동일 언어 캡션과 국제 시청자를 위한 번역 자막을 제공하여 최대 도달을 원할 때
플랫폼이 여러 텍스트 트랙을 지원하는 경우(YouTube, Vimeo, 대부분의 스트리밍 서비스)

많은 경우 실용적인 답은 원본 언어로 전체 캡션 파일을 먼저 만든 다음 번역된 자막 트랙을 생성하는 것입니다. 이렇게 하면 접근성 커버리지와 국제적 도달 모두를 확보할 수 있습니다.

AI로 캡션과 자막을 만드는 방법

캡션과 자막을 만드는 것은 예전에는 수시간의 수동 전사 작업이나 비싼 전문 서비스를 의미했습니다. AI 전사 도구가 이 방정식을 상당히 바꿨습니다. 인간 전사원이 캡션을 다는 데 4-6시간이 걸리는 녹음을 이제 몇 분 안에 처리할 수 있습니다.

AI로 캡션이나 자막을 만드는 일반적인 워크플로는 다음과 같습니다:

1단계: 오디오 전사

오디오 또는 비디오 파일을 Vocova와 같은 AI 전사 도구에 업로드합니다. 도구는 자동 음성 인식을 사용하여 음성을 타임스탬프가 있는 텍스트로 변환하고, 지원되는 경우 화자 라벨을 추가합니다. 정확도는 오디오 품질에 따라 달라지므로 깨끗한 녹음으로 시작하면 도움이 됩니다. 오디오에 배경 소음이 있는 경우, 결과를 개선하는 기법이 있습니다.

2단계: 검토 및 편집

AI 전사는 완벽하지 않습니다. 업계에서는 단어 오류율(WER)을 사용하여 정확도를 측정하며, 최고의 모델도 특히 고유 명사, 기술 용어, 억양이 있는 음성에서 일부 오류를 생성합니다. 녹취록을 검토하고 실수를 수정하세요.

3단계: 비음성 요소 추가(캡션용)

자막이 아닌 클로즈드 캡션을 만드는 경우, AI가 캡처하지 못했을 음향 효과 설명, 음악 큐, 화자 라벨을 추가해야 합니다. 일부 도구는 식별에 도움이 되는 화자 분리를 제공하지만, 음향 효과 설명은 일반적으로 수동 주석이 필요합니다.

4단계: 올바른 형식으로 내보내기

완성된 녹취록을 SRT 또는 VTT 파일로 내보냅니다. 이것은 비디오 플랫폼 전반에서 가장 널리 지원되는 두 가지 캡션 및 자막 형식입니다. 대부분의 AI 자막 생성기는 두 형식 모두로 내보낼 수 있습니다. Vocova는 SRT, VTT 및 PDF, DOCX, CSV를 포함한 여러 다른 형식으로의 내보내기를 지원합니다.

5단계: 자막을 위한 번역

추가 언어의 자막이 필요한 경우, 번역 기능을 사용하여 녹취록의 번역 버전을 생성합니다. Vocova는 140개 이상의 언어로의 번역을 지원하여 다국어 자막 트랙을 만드는 것을 간단하게 합니다. 번역된 자막의 정확성, 특히 관용적 표현과 문화적 맥락에 대해 검토하세요.

6단계: 플랫폼에 업로드

SRT 또는 VTT 파일을 비디오 플랫폼에 추가합니다. YouTube, Vimeo, 대부분의 호스팅 서비스에서는 여러 캡션 및 자막 트랙을 업로드할 수 있어, 시청자가 선호하는 언어와 형식을 선택할 수 있습니다.

자주 묻는 질문

클로즈드 캡션과 자막은 같은 것입니까?

아닙니다. 클로즈드 캡션은 음향 효과, 음악, 화자 식별 같은 비음성 오디오 설명을 포함합니다. 자막은 대화 텍스트만 포함하며 주로 언어 번역에 사용됩니다. 일부 지역에서 용어가 겹치지만, 내용이 다릅니다.

YouTube에 클로즈드 캡션이 필요합니까 아니면 자막이 필요합니까?

YouTube는 두 가지를 모두 지원합니다. 가장 넓은 청중에 도달하려면 접근성을 위한 동일 언어 캡션과 국제 시청자를 위한 번역 자막을 업로드하세요. YouTube는 자동 생성 캡션도 제공하지만, 정확도가 다양하고 비음성 오디오 설명을 포함하지 않습니다.

캡션에 어떤 파일 형식을 사용해야 합니까?

SRT와 VTT가 가장 널리 지원되는 형식입니다. SRT는 거의 모든 비디오 플랫폼과 편집기에서 작동합니다. VTT는 추가 스타일링 옵션을 제공하며 HTML5 웹 비디오의 표준입니다. 자세한 비교는 SRT vs VTT 형식 가이드를 참조하세요.

캡션은 법적으로 필수입니까?

많은 맥락에서 그렇습니다. ADA, Section 508, WCAG 2.1, 유럽 접근성법 모두 특정 유형의 콘텐츠와 조직에 대한 캡션 요구 사항을 포함합니다. 법적으로 의무화되지 않은 곳에서도 캡션은 접근성, 참여도, SEO를 개선합니다.

AI가 클로즈드 캡션을 자동으로 생성할 수 있습니까?

AI는 타임스탬프와 화자 라벨이 있는 정확한 전사를 생성할 수 있으며, 이것이 클로즈드 캡션 파일의 기반을 형성합니다. 그러나 [음악 재생] 또는 [문이 쾅 닫힘]과 같은 비음성 오디오 설명은 일반적으로 수동으로 추가해야 합니다. 대부분의 ASR 모델은 일반 오디오 이벤트 감지가 아닌 음성 인식에 중점을 두기 때문입니다.

SDH와 클로즈드 캡션의 차이는 무엇입니까?

SDH는 "청각 장애인을 위한 자막(subtitles for the deaf and hard of hearing)"의 약자입니다. 캡션과 자막의 요소를 모두 결합합니다. 클로즈드 캡션처럼 비음성 오디오 설명을 포함하지만, 자막 트랙으로 형식화되고 전달됩니다. SDH는 DVD, Blu-ray, 스트리밍 플랫폼에서 일반적이며, "자막"이 모든 텍스트 트랙의 기본 용어인 지역에서 종종 표준입니다.

출처 및 추가 자료

W3C/WAI — WCAG SC 1.2.2 Captions (Prerecorded) 및 SC 1.2.4 Captions (Live) — 자막 요구사항의 근거가 되는 성공 기준
미국(ADA Title II/III, FCC/CVAA, Section 508) 및 EU(EAA, EN 301 549) 법적 출처는 접근성 가이드를 참고하세요