クローズドキャプション vs 字幕:その違いとは?
クローズドキャプションと字幕の主な違いを理解しましょう。それぞれの使い分け、アクセシビリティ要件、作成方法について解説します。
クローズドキャプションは音声の説明を含み、聴覚障害のある視聴者向けに設計されています。一方、字幕は視聴者が音声を聞けることを前提とし、セリフのみを文字起こしします。日常会話では互換的に使われることがあるにもかかわらず、この2つの形式は異なる視聴者層を対象とし、異なる基準に従い、異なる種類の情報を含んでいます。
この違いを理解することは、コンテンツクリエイター、教育者、動画のアクセシビリティを確保しようとする企業にとって重要です。間違った形式を選ぶと、視聴者が重要な文脈を得られなかったり、アクセシビリティ規制に抵触したりする可能性があります。本ガイドでは、クローズドキャプションと字幕の違い、それぞれの使い分け、最新のAIツールによって両方の作成がどれほど簡単になったかを詳しく解説します。
クローズドキャプションとは?
クローズドキャプションは、動画内のすべての意味のある音声を表現するテキストオーバーレイで、話された言葉だけではありません。1970年代にテレビ用に開発され、聴覚障害のある視聴者が放送コンテンツに完全にアクセスできるようにするためのものでした。
クローズドキャプショントラックには通常、以下が含まれます:
- 話者識別付きのセリフ(例:「ナレーター:」や「サラ:」)
- 括弧で記述された効果音、例えば[ドアが閉まる]、[電話が鳴る]、[足音が近づく]
- [アップテンポなジャズ]や[もの悲しいピアノメロディー]などの音楽の説明
- [ささやき声]、[皮肉を込めて]、[叫び声]などのトーンと態度の指標
- [沈黙]、[拍手]、[静電気ノイズ]など意味を持つ非発話音声キュー
「クローズド」という言葉は、キャプションを視聴者がオン・オフできることを意味します。これは、動画フレームに永久的に埋め込まれるオープンキャプションとは区別されます。ほとんどのストリーミングプラットフォーム、放送テレビ、ビデオプレーヤーは、CCボタンやアクセシビリティメニューを通じてクローズドキャプションをサポートしています。
クローズドキャプションは、正確なタイムスタンプで音声のタイムラインに同期されます。各キャプションブロックは特定の瞬間に表示・消去され、テキストが画面上で起きていることと一致することを確保します。クローズドキャプションの標準ファイル形式には、SRTとVTTのほか、SCCやMCCなどの放送固有の形式が含まれます。
字幕とは?
字幕は、動画内の話されたセリフのテキスト表現です。音声を聞くことはできるが、発話をテキストに変換する必要がある視聴者、最も一般的には動画が外国語である場合のために設計されています。
字幕には通常、以下が含まれます:
- 話されたセリフの逐語的な文字起こしまたは翻訳
- 動画内に看板、タイトル、書かれたコンテンツが表示される場合の画面上のテキスト翻訳
- 場合によっては話者の帰属、ただしキャプションほど一貫していません
字幕に一般的に含まれないのは、クローズドキャプションを定義する非発話音声情報です。字幕トラックは、画面外でドアが閉まったこと、サスペンスフルな音楽が高まっていること、登場人物がささやいていることを教えてくれません。視聴者がそれらの要素を聞けることが前提です。
字幕は、外国語コンテンツと最も一般的に関連付けられています。フランス語の映画を画面上の英語テキストで見るとき、字幕を読んでいることになります。テキストは翻訳され、元のセリフに合わせてタイミングが調整されていますが、環境音や音楽スコアの説明は含まれていません。
字幕はキャプションと同じファイル形式(主にSRTとVTT)を使用するため、両者の境界線が曖昧になることがあります。違いはコンテナではなくコンテンツにあります。
クローズドキャプションと字幕の主な違い
| 特徴 | クローズドキャプション | 字幕 |
|---|---|---|
| 主な対象 | 聴覚障害のある視聴者 | 外国語コンテンツを視聴する聴覚のある視聴者 |
| セリフ | あり | あり |
| 効果音 | あり、括弧で記述 | なし |
| 音楽の説明 | あり | なし |
| 話者識別 | あり、通常ラベル付き | 場合による |
| 言語 | 通常、音声と同じ言語 | しばしば異なる言語(翻訳) |
| 切替可能 | あり、視聴者がオン・オフ可能 | あり |
| 法的に要求 | しばしばあり(ADA、FCC、EU) | 一般的になし |
核心的な違いは完全性に帰結します。クローズドキャプションは音声トラック全体をテキスト形式で表現することを目指します。字幕は、話されたセリフを別の言語で読めるようにするか、便宜上テキスト形式にすることを目指します。
実際には、用語は地域によって異なります。米国では、「クローズドキャプション」と「字幕」は上記のように異なる概念です。英国やヨーロッパの多くでは、「字幕」という用語が両方の用途をカバーし、アメリカ人がクローズドキャプションと呼ぶものは「聴覚障害者向け字幕」(SDH)と呼ばれることが多いです。コンテンツを国際的に配信する場合、用語だけに頼るのではなく、テキストトラックに含まれる内容を明示すると役立ちます。
オープンキャプション vs クローズドキャプション
キャプションと字幕の区別に加えて、オープンキャプションとクローズドキャプションには重要な違いがあります。
クローズドキャプションは、動画と一緒に別のデータトラックとして配信されます。視聴者はそれをオン・オフでき、サイズを変更したり、場合によっては外観を変更したりできます。ストリーミングサービス、DVD、放送テレビはすべてクローズドキャプションを使用しています。
オープンキャプション(焼き付けキャプションまたはハードコードキャプションとも呼ばれる)は、動画画像自体に永久的にレンダリングされます。オフにしたり、サイズを変更したり、位置を変えたりすることはできません。オープンキャプション付きで動画をエクスポートすると、すべての視聴者がそれを見ることになります。
オープンキャプションが適切な場合
- 音声なしで自動再生されるソーシャルメディア動画で、視聴者がプラットフォームでキャプションを有効にする方法を知らない可能性がある場合
- キャプションの切り替えが常にアクセシブルではないInstagram StoriesやTikTokなどのプラットフォーム上のショートフォームコンテンツ
- 視聴者が再生コントロールを操作できないプレゼンテーションやキオスクディスプレイ
- すべての視聴者がテキストを見ることを保証したい場合の視認性の確保
クローズドキャプションがより適切な場合
- 視聴者の好みが重要な長尺コンテンツ
- 規制が通常、視聴者がキャプション表示を制御することを要求するアクセシビリティコンプライアンス
- 複数言語のキャプショントラックを提供する必要がある多言語配信
- YouTube、Vimeo、ほとんどのストリーミングサービスがクローズドキャプションファイルを期待するプラットフォーム要件
ほとんどのプロフェッショナルなワークフローは、最大限の柔軟性を提供するクローズドキャプションファイル(SRTまたはVTT)を制作します。必要に応じて後で焼き付けることはできますが、一度レンダリングされたオープンキャプションを動画から抽出することはできません。
キャプションの法的要件
複数の法域のアクセシビリティ規制が、特定の種類の動画コンテンツにクローズドキャプションを義務付けています。主要なものの概要を以下に示します。
米国
- 障害を持つアメリカ人法(ADA):裁判所はADAを解釈して、公共施設に該当する企業の動画コンテンツにキャプションを要求しています。これにはウェブサイトやオンライン動画がますます含まれるようになっています。
- 第508条:連邦機関はキャプション付きの動画を含む電子コンテンツをアクセシブルにしなければなりません。
- FCC規制:テレビ放送局および以前にテレビで放映されたコンテンツのオンライン配信者はクローズドキャプションを提供しなければなりません。
- CVAA(21世紀コミュニケーション・ビデオアクセシビリティ法):キャプション要件を、元々テレビで放映されたインターネット配信の動画に拡大します。
欧州連合
- 欧州アクセシビリティ法(EAA):2025年に施行され、動画プラットフォームを含むデジタルサービスにアクセシビリティ基準の遵守を要求します。キャプションはその重要な要素です。
- EN 301 549:ICTアクセシビリティの欧州基準で、WCAGを参照し、キャプションと音声ガイドの要件を含みます。
ウェブ標準
- WCAG 2.1レベルAA:ウェブコンテンツアクセシビリティガイドラインは、同期メディア内のすべての事前録音された音声コンテンツ(成功基準1.2.2)およびライブ音声コンテンツ(レベルAAの成功基準1.2.4)にキャプションを要求します。
キャプションを提供しないことは、視聴者を制限するだけではありません。特にデジタルアクセシビリティに関するADA関連訴訟が近年大幅に増加している米国では、組織を法的リスクにさらします。
クローズドキャプション vs 字幕の使い分け
キャプションと字幕の選択は、視聴者と配信コンテキストに依存します。
クローズドキャプションを使用する場合:
- 視聴者に聴覚障害のある方が含まれる場合
- 切替可能なテキストトラックをサポートするプラットフォームで公開する場合
- アクセシビリティコンプライアンスが要求または期待される場合
- コンテンツに意味のある非発話音声(効果音、音楽、環境音)がある場合
- キャプションが音声と同じ言語の場合
字幕を使用する場合:
- 外国語の視聴者向けにコンテンツを翻訳する場合
- 音声がはっきり聞こえ、視聴者にはセリフテキストのみが必要な場合
- 国際市場に配信し、多言語のテキストトラックが必要な場合
両方を使用する場合:
- 最大限のリーチを求め、アクセシビリティのための同一言語キャプションと国際的な視聴者向けの翻訳字幕の両方を提供する場合
- プラットフォームが複数のテキストトラックをサポートしている場合(YouTube、Vimeo、ほとんどのストリーミングサービス)
多くの場合、実用的な答えは、元の言語でフルキャプションファイルを作成し、そこから翻訳字幕トラックを作成することです。これにより、アクセシビリティのカバレッジと国際的なリーチの両方が得られます。
AIでキャプションと字幕を作成する方法
キャプションと字幕の制作は、かつて何時間もの手動文字起こし作業や高額なプロフェッショナルサービスを意味していました。AI文字起こしツールはその方程式を大きく変えました。人間の文字起こし担当者がキャプション付けに4〜6時間かかる録音を、今では数分で処理できます。
AIでキャプションまたは字幕を作成するための一般的なワークフローは以下のとおりです:
ステップ1:音声を文字起こしする
音声または映像ファイルをVocovaなどのAI文字起こしツールにアップロードします。ツールは自動音声認識を使用して、タイムスタンプと(サポートされている場合は)話者ラベル付きで音声をテキストに変換します。精度は音声品質に依存するため、クリーンな録音から始めることが助けになります。音声にバックグラウンドノイズがある場合、結果を改善するテクニックがあります。
ステップ2:レビューして編集する
AI文字起こしは完璧ではありません。業界は単語エラー率(WER)を使用して精度を測定しており、最良のモデルでも特に固有名詞、技術用語、アクセントのある発話でいくつかのエラーが生じます。トランスクリプトをレビューして間違いを修正してください。
ステップ3:非発話要素を追加する(キャプションの場合)
字幕ではなくクローズドキャプションを作成する場合、AIがキャプチャしていない可能性のある効果音の説明、音楽のキュー、話者ラベルを追加する必要があります。一部のツールは識別を支援する話者ダイアライゼーションを提供していますが、効果音の説明は通常、手動でのアノテーションが必要です。
ステップ4:適切な形式でエクスポートする
完成したトランスクリプトをSRTまたはVTTファイルとしてエクスポートします。これらは動画プラットフォーム間で最も広くサポートされている2つのキャプションおよび字幕形式です。ほとんどのAI字幕生成ツールは両方の形式でエクスポートできます。VocovaはSRT、VTTのほか、PDF、DOCX、CSVを含むいくつかの他の形式へのエクスポートをサポートしています。
ステップ5:字幕用に翻訳する
追加言語の字幕が必要な場合、翻訳機能を使用してトランスクリプトの翻訳バージョンを生成します。Vocovaは145以上の言語への翻訳をサポートしており、多言語の字幕トラック作成が簡単です。翻訳された字幕の精度、特に慣用表現や文化的文脈についてレビューしてください。
ステップ6:プラットフォームにアップロードする
SRTまたはVTTファイルを動画プラットフォームに追加します。YouTube、Vimeo、ほとんどのホスティングサービスでは、複数のキャプションおよび字幕トラックをアップロードでき、視聴者が好みの言語と形式を選択できます。
よくある質問
クローズドキャプションと字幕は同じですか?
いいえ。クローズドキャプションには効果音、音楽、話者識別などの非発話音声の説明が含まれます。字幕にはセリフテキストのみが含まれ、主に言語の翻訳に使用されます。一部の地域では用語が重複しますが、含まれる内容は異なります。
YouTubeにはクローズドキャプションと字幕のどちらが必要ですか?
YouTubeは両方をサポートしています。最も幅広い視聴者にリーチしたい場合は、アクセシビリティのための同一言語キャプションと国際的な視聴者向けの翻訳字幕をアップロードしてください。YouTubeは自動生成キャプションも提供していますが、精度にばらつきがあり、非発話音声の説明は含まれません。
キャプションにはどのファイル形式を使用すべきですか?
SRTとVTTが最も広くサポートされている形式です。SRTはほぼすべての動画プラットフォームとエディターで動作します。VTTは追加のスタイリングオプションを提供し、HTML5ウェブビデオの標準です。詳しい比較はSRT vs VTT形式のガイドをご覧ください。
キャプションは法的に義務付けられていますか?
多くの状況で、はい。ADA、第508条、WCAG 2.1、欧州アクセシビリティ法はすべて、特定の種類のコンテンツと組織に対してキャプション要件を含んでいます。法的に義務付けられていなくても、キャプションはアクセシビリティ、エンゲージメント、SEOを改善します。
AIでクローズドキャプションを自動生成できますか?
AIはタイムスタンプと話者ラベル付きの正確な文字起こしを生成でき、これがクローズドキャプションファイルの基盤となります。ただし、[音楽再生中]や[ドアが閉まる]などの非発話音声の説明は、ほとんどのASRモデルが一般的な音声イベントの検出ではなく音声認識に焦点を当てているため、通常は手動で追加する必要があります。
SDHとクローズドキャプションの違いは何ですか?
SDHは「聴覚障害者向け字幕」の略です。キャプションと字幕の両方の要素を組み合わせています。クローズドキャプションのように非発話音声の説明を含みますが、字幕トラックとしてフォーマットされ配信されます。SDHはDVD、Blu-ray、ストリーミングプラットフォームで一般的で、すべてのテキストトラックのデフォルト用語が「字幕」である地域では標準となっていることが多いです。