隐藏式字幕与字幕:有什么区别?
了解隐藏式字幕和字幕的主要区别。了解何时使用每种格式、无障碍要求以及它们是如何创建的。
隐藏式字幕(closed captions)包含声音描述,专为聋人和听力困难的观众设计,而字幕(subtitles)假定观众可以听到声音,仅转录对话内容。尽管在日常对话中经常被交替使用,但这两种格式服务于不同的受众、遵循不同的标准,并包含不同类型的信息。
无论你是内容创作者、教育工作者还是试图使视频具有无障碍性的企业,理解这一区别都很重要。选择错误的格式可能使观众缺少关键上下文,或使你面临无障碍法规的合规风险。本指南详细解析了隐藏式字幕和字幕的确切区别、何时使用每种格式,以及现代 AI 工具如何使两者的创建变得比以前容易得多。
什么是隐藏式字幕?
隐藏式字幕是一种文字叠加层,表示视频中每一个有意义的声音,而不仅仅是口语。它最初在 1970 年代为电视开发,旨在让聋人和听力困难的观众完全获取广播内容。
隐藏式字幕轨道通常包括:
- 对话,带有说话人标识(如"旁白:"或"SARAH:")
- 音效,用方括号描述,如[门砰然关上]、[电话铃响]或[脚步声临近]
- 音乐描述,如[欢快的爵士乐]或[忧伤的钢琴旋律]
- 语气和方式指示,如[低语]、[讽刺地]或[大喊]
- 具有意义的非语音音频提示,如[沉默]、[掌声]或[静电噪音]
"隐藏"一词意味着字幕可以由观众开启或关闭。这将其与开放式字幕(open captions)区分开来——后者永久嵌入在视频画面中。大多数流媒体平台、广播电视和视频播放器通过 CC 按钮或无障碍菜单支持隐藏式字幕。
隐藏式字幕与音频时间线精确同步,带有精确的时间戳。每个字幕块在特定时刻出现和消失,确保文字与屏幕上正在发生的事情匹配。隐藏式字幕的标准文件格式包括 SRT 和 VTT,以及广播专用格式如 SCC 和 MCC。
什么是字幕?
字幕是视频中口语对话的文本表示。它们专为能听到音频但需要将语音转换为文本的观众设计,最常见的情况是因为视频使用外语。
字幕通常包括:
- 口语对话的逐字转录或翻译
- 屏幕文字翻译,当视频中出现标志、标题或书面内容时
- 说话人标注,在某些情况下,但不如字幕中那么一致
字幕通常不包括的是定义隐藏式字幕的非语音音频信息。字幕轨道不会告诉你画面外有一扇门被关上了、有悬疑音乐在积蓄,或者某个角色在低语。前提是观众可以听到这些元素。
字幕最常与外语内容相关联。当你观看一部法语电影并在屏幕上看到英语文字时,你正在阅读字幕。文字已被翻译并与原始对话的时间同步,但它不描述环境声音或音乐配乐。
字幕使用与隐藏式字幕相同的文件格式——主要是 SRT 和 VTT——这有时会模糊两者之间的界限。区别在于内容,而非容器。
隐藏式字幕与字幕的主要区别
| 特征 | 隐藏式字幕 | 字幕 |
|---|---|---|
| 主要受众 | 聋人和听力困难的观众 | 观看外语内容的听力正常观众 |
| 对话 | 是 | 是 |
| 音效 | 是,用方括号描述 | 否 |
| 音乐描述 | 是 | 否 |
| 说话人标识 | 是,通常有标注 | 有时有 |
| 语言 | 通常与音频相同语言 | 通常为不同语言(翻译) |
| 可切换 | 是,观众可以开启/关闭 | 是 |
| 法律要求 | 通常是的(ADA、FCC、EU) | 通常不是 |
核心区别在于完整性。隐藏式字幕旨在以文本形式表示整个音轨。字幕旨在使口语对话在另一种语言中可读或以文本形式方便阅读。
在实际使用中,术语因地区而异。在美国,"closed captions"和"subtitles"是如上所述的不同概念。在英国和欧洲大部分地区,"subtitles"一词涵盖两种用途,美国人所说的 closed captions 通常被称为"subtitles for the deaf and hard of hearing"(SDH)。如果你在国际范围内分发内容,明确说明你的文字轨道包含什么内容比单纯依赖术语更有帮助。
开放式字幕 vs 隐藏式字幕
除了字幕和隐藏式字幕之间的区别外,开放式字幕和隐藏式字幕之间也有一个重要的区别。
隐藏式字幕作为与视频一起的单独数据轨道传输。观众可以切换开关、调整大小,有时还可以更改外观。流媒体服务、DVD 和广播电视都使用隐藏式字幕。
开放式字幕(也称为烧录字幕或硬编码字幕)永久渲染到视频图像本身中。它们不能被关闭、调整大小或重新定位。一旦视频以开放式字幕导出,每个观众都会看到它们。
何时适合使用开放式字幕
- 社交媒体视频在无声自动播放时,观众可能不知道如何在平台上启用字幕
- 短视频内容在 Instagram Stories 或 TikTok 等平台上,字幕切换不总是可访问
- 演示文稿和自助终端显示,观众无法与播放控制交互
- 确保可见性,当你需要保证每个观众都能看到文字时
何时隐藏式字幕更好
- 长视频内容,观众偏好很重要
- 无障碍合规,因为法规通常要求观众控制字幕显示
- 多语言分发,需要提供多种语言的字幕轨道
- 平台要求,因为 YouTube、Vimeo 和大多数流媒体服务期望隐藏式字幕文件
大多数专业工作流程生成隐藏式字幕文件(SRT 或 VTT),因为它们提供最大的灵活性。你总是可以在需要时稍后将其烧录,但一旦开放式字幕被渲染,就无法从视频中提取。
字幕的法律要求
多个司法管辖区的无障碍法规要求某些类型的视频内容必须有隐藏式字幕。以下是主要法规的简要概述。
美国
- 美国残疾人法案(ADA):法院已将 ADA 解释为要求符合公共场所条件的企业的视频内容配备字幕。这越来越包括网站和在线视频。
- 第 508 条:联邦机构必须使电子内容具有无障碍性,包括带字幕的视频。
- FCC 法规:电视广播公司和先前播出内容的在线分发商必须提供隐藏式字幕。
- CVAA(21 世纪通信和视频无障碍法案):将字幕要求扩展到最初在电视上播出的互联网传播视频。
欧盟
- 欧洲无障碍法案(EAA):2025 年生效,要求数字服务(包括视频平台)符合无障碍标准。字幕是关键组成部分。
- EN 301 549:ICT 无障碍的欧洲标准,引用 WCAG 并包含字幕和音频描述的要求。
网络标准
- WCAG 2.1 AA 级:网页内容无障碍指南要求所有预录音频内容在同步媒体中配备字幕(成功标准 1.2.2),以及实时音频内容的字幕(AA 级成功标准 1.2.4)。
不提供字幕不仅限制了你的受众。它还使组织面临法律风险,特别是在美国,与 ADA 相关的数字无障碍诉讼近年来显著增加。
何时使用隐藏式字幕 vs 字幕
选择字幕还是隐藏式字幕取决于你的受众和分发环境。
使用隐藏式字幕当:
- 你的受众包括聋人或听力困难的观众
- 你在支持可切换文字轨道的平台上发布
- 需要或预期无障碍合规
- 你的内容有有意义的非语音音频(音效、音乐、环境声音)
- 字幕与音频使用相同语言
使用字幕当:
- 你在为外语受众翻译内容
- 音频清晰可听,观众只需要对话文本
- 你在向国际市场分发并需要多语言文字轨道
同时使用当:
- 你想要最大覆盖面,为无障碍提供同语言字幕,为国际观众提供翻译字幕
- 你的平台支持多个文字轨道(YouTube、Vimeo、大多数流媒体服务)
在很多情况下,实际答案是先以原始语言制作完整的字幕文件,然后从中创建翻译字幕轨道。这样你就同时拥有无障碍覆盖和国际覆盖。
如何用 AI 创建字幕和隐藏式字幕
制作字幕和隐藏式字幕过去意味着数小时的手动转录工作或昂贵的专业服务。AI 转录工具已经大幅改变了这个等式。一个人工转录员需要四到六个小时才能完成字幕的录音,现在可以在几分钟内处理完成。
以下是使用 AI 创建字幕或隐藏式字幕的典型工作流程:
第 1 步:转录音频
将你的音频或视频文件上传到像 Vocova 这样的 AI 转录工具。该工具使用自动语音识别将语音转换为带时间戳的文本,如果支持还会带有说话人标签。准确率取决于音频质量,因此从清晰的录音开始会有帮助。如果你的音频有背景噪音,有一些改善效果的技巧。
第 2 步:审查和编辑
AI 转录并非完美。业界使用词错误率(WER)来衡量准确率,即使最好的模型也会产生一些错误,特别是对于专有名词、技术术语或带口音的语音。审查转录并纠正任何错误。
第 3 步:添加非语音元素(用于隐藏式字幕)
如果你创建的是隐藏式字幕而非普通字幕,你需要添加 AI 可能未捕获的音效描述、音乐提示和说话人标签。一些工具提供说话人分离来帮助识别,但音效描述通常需要手动标注。
第 4 步:以正确格式导出
将完成的转录导出为 SRT 或 VTT 文件。这是各视频平台最广泛支持的两种字幕格式。大多数 AI 字幕生成器可以导出两种格式。Vocova 支持导出为 SRT、VTT 和其他几种格式,包括 PDF、DOCX 和 CSV。
第 5 步:翻译为字幕
如果你需要其他语言的字幕,使用翻译功能生成转录的翻译版本。Vocova 支持翻译到 145+ 种语言,使创建多语言字幕轨道变得简单直接。审查翻译字幕的准确性,特别是习惯用语和文化背景。
第 6 步:上传到你的平台
将 SRT 或 VTT 文件添加到你的视频平台。YouTube、Vimeo 和大多数托管服务允许你上传多个字幕和隐藏式字幕轨道,让观众选择他们偏好的语言和格式。
常见问题
隐藏式字幕和字幕一样吗?
不一样。隐藏式字幕包含非语音音频的描述,如音效、音乐和说话人标识。字幕仅包含对话文本,主要用于语言翻译。在某些地区术语有重叠,但内容不同。
YouTube 需要隐藏式字幕还是字幕?
YouTube 两者都支持。如果你想触达最广泛的受众,上传同语言字幕用于无障碍,翻译字幕用于国际观众。YouTube 也可以自动生成字幕,但其准确率参差不齐,且不包含非语音音频描述。
字幕应该使用什么文件格式?
SRT 和 VTT 是最广泛支持的格式。SRT 几乎在每个视频平台和编辑器上都能使用。VTT 提供额外的样式选项,是 HTML5 网页视频的标准格式。详细比较请参见我们关于 SRT vs VTT 格式的指南。
字幕是法律要求的吗?
在许多情况下,是的。ADA、第 508 条、WCAG 2.1 和欧洲无障碍法案都对某些类型的内容和组织包含字幕要求。即使在法律不强制要求的地方,字幕也能提高无障碍性、参与度和 SEO。
AI 能自动生成隐藏式字幕吗?
AI 可以生成带有时间戳和说话人标签的准确转录,这构成了隐藏式字幕文件的基础。然而,[音乐播放]或[门砰关上]等非语音音频描述通常需要手动添加,因为大多数 ASR 模型专注于语音识别而非一般音频事件检测。
SDH 和隐藏式字幕有什么区别?
SDH 代表"subtitles for the deaf and hard of hearing"(聋人和听力困难者字幕)。它结合了字幕和隐藏式字幕的元素:像隐藏式字幕一样包含非语音音频描述,但以字幕轨道的形式格式化和传输。SDH 在 DVD、蓝光和流媒体平台上很常见,在"subtitles"是所有文字轨道默认术语的地区通常是标准格式。