Vocova
料金ブログ

製品

  • 料金
  • ブログ
  • すべてのツールを見る

ソリューション

  • ポッドキャスター向け
  • 動画クリエイター向け
  • 多言語インタビュー

会社情報

  • 概要
  • よくある質問
  • 利用規約
  • プライバシーポリシー
  • お問い合わせ

文字起こし

  • 音声からテキスト
  • 動画からテキスト
  • ポッドキャスト文字起こし
  • インタビュー文字起こし
  • 講義文字起こし

プラットフォーム

  • YouTube文字起こし
  • Apple Podcasts文字起こし
  • Zoom文字起こし
  • Google Meet文字起こし
  • TikTok文字起こし
  • Loom文字起こし
  • Bilibili文字起こし
  • Vimeo文字起こし
  • Instagram文字起こし
  • Facebook文字起こし
  • X (Twitter)文字起こし
  • SoundCloud文字起こし
  • Reddit文字起こし
  • Dailymotion文字起こし

言語

  • 日本語文字起こし
  • スペイン語文字起こし
  • フランス語文字起こし
  • ドイツ語文字起こし
  • ポルトガル語文字起こし
  • 韓国語文字起こし
  • 中国語文字起こし
  • アラビア語文字起こし
  • ヒンディー語文字起こし
  • イタリア語文字起こし
  • ロシア語文字起こし
  • タイ語文字起こし
  • ベトナム語文字起こし
  • トルコ語文字起こし
  • インドネシア語文字起こし
  • オランダ語文字起こし
  • ポーランド語文字起こし
  • スウェーデン語文字起こし
  • 広東語文字起こし
  • タガログ語文字起こし

翻訳

  • 音声翻訳
  • バイリンガル字幕
  • 動画翻訳
  • 日本語から英語
  • 中国語から英語へ
  • スペイン語から英語へ
  • 韓国語から英語
  • フランス語から英語

フォーマット

  • MP4テキスト変換
  • MP3テキスト変換
  • WAV テキスト変換
  • M4A テキスト変換
  • MOV テキスト変換
  • SRTジェネレーター
  • VTT ジェネレーター
  • 字幕生成

変換

  • 音声変換ツール
  • 動画変換ツール
  • MP4 から MP3

要約

  • ポッドキャスト要約
  • YouTube要約
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
料金ブログ

製品

  • 料金
  • ブログ
  • すべてのツールを見る

ソリューション

  • ポッドキャスター向け
  • 動画クリエイター向け
  • 多言語インタビュー

会社情報

  • 概要
  • よくある質問
  • 利用規約
  • プライバシーポリシー
  • お問い合わせ

文字起こし

  • 音声からテキスト
  • 動画からテキスト
  • ポッドキャスト文字起こし
  • インタビュー文字起こし
  • 講義文字起こし

プラットフォーム

  • YouTube文字起こし
  • Apple Podcasts文字起こし
  • Zoom文字起こし
  • Google Meet文字起こし
  • TikTok文字起こし
  • Loom文字起こし
  • Bilibili文字起こし
  • Vimeo文字起こし
  • Instagram文字起こし
  • Facebook文字起こし
  • X (Twitter)文字起こし
  • SoundCloud文字起こし
  • Reddit文字起こし
  • Dailymotion文字起こし

言語

  • 日本語文字起こし
  • スペイン語文字起こし
  • フランス語文字起こし
  • ドイツ語文字起こし
  • ポルトガル語文字起こし
  • 韓国語文字起こし
  • 中国語文字起こし
  • アラビア語文字起こし
  • ヒンディー語文字起こし
  • イタリア語文字起こし
  • ロシア語文字起こし
  • タイ語文字起こし
  • ベトナム語文字起こし
  • トルコ語文字起こし
  • インドネシア語文字起こし
  • オランダ語文字起こし
  • ポーランド語文字起こし
  • スウェーデン語文字起こし
  • 広東語文字起こし
  • タガログ語文字起こし

翻訳

  • 音声翻訳
  • バイリンガル字幕
  • 動画翻訳
  • 日本語から英語
  • 中国語から英語へ
  • スペイン語から英語へ
  • 韓国語から英語
  • フランス語から英語

フォーマット

  • MP4テキスト変換
  • MP3テキスト変換
  • WAV テキスト変換
  • M4A テキスト変換
  • MOV テキスト変換
  • SRTジェネレーター
  • VTT ジェネレーター
  • 字幕生成

変換

  • 音声変換ツール
  • 動画変換ツール
  • MP4 から MP3

要約

  • ポッドキャスト要約
  • YouTube要約
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
料金ブログ
ブログSRT vs WebVTT 2026年版|YouTube・Vimeo・Netflixで使える字幕形式はどっち

SRT vs WebVTT 2026年版|YouTube・Vimeo・Netflixで使える字幕形式はどっち

SRTはモダンなWeb動画以外で広く使え、WebVTTはHTML5やスタイル付き字幕に必須です。YouTube、Netflix、Vimeo、Final Cut Pro、Premiere Proの対応状況を一覧で比較し、1ページで分かる変換ガイド付き。

2026年2月7日·16 分で読める·
subtitlesformatssrtvttexplainer

SRT(SubRip Text)とVTT(WebVTT)は最も広く使用されている2つの字幕ファイル形式です。SRTはほぼすべてのビデオプレーヤーがサポートするレガシー標準であり、VTTはスタイリングとポジショニング機能を組み込んだHTML5ビデオ向けの最新Web ネイティブ形式です。

適切な字幕形式を選ぶことは、互換性、スタイリングオプション、プラットフォーム間でのキャプションの表示に影響します。このガイドでは、SRTとVTTがどのように異なるか、どのプラットフォームがそれぞれをサポートしているか、どちらを選ぶべきかを詳しく説明します。

SRTとは?

SRTはSubRip Textの略で、1990年代後半にSubRipソフトウェア(DVDから字幕を「リッピング」抽出するツール)の一部として生まれた字幕形式です。その古さにもかかわらず、SRTは業界で最も普遍的にサポートされている字幕形式であり続けています。

SRTファイルは.srt拡張子を持つプレーンテキストファイルです。各字幕エントリは3つの部分で構成されています:連番のインデックス、開始時間と終了時間を示すタイムコード行、そして1行以上の字幕テキスト。エントリは空行で区切られます。

SRTファイルの構造は以下の通りです:

1
00:00:01,000 --> 00:00:04,000
これは最初の字幕行です。

2
00:00:05,500 --> 00:00:08,200
これは2番目の字幕です。
複数行にまたがることができます。

3
00:00:10,000 --> 00:00:13,750
話者の識別はテキスト内で
手動で行われます。

SRT形式の主な特徴:

  • タイムコード形式:HH:MM:SS,mmm(時、分、秒、ミリ秒をカンマで区切る)
  • 連番:各キューは1から始まる番号が付けられる
  • プレーンテキストのみ:スタイリング、色、ポジショニングのネイティブサポートなし
  • エンコーディング:通常UTF-8、ただし古いファイルは他のエンコーディングを使用する場合あり
  • 矢印セパレーター:開始時間と終了時間は-->で区切られる

SRTのシンプルさは、最大の強みであると同時に主な制限でもあります。どのテキストエディターでもSRTファイルを作成・編集でき、事実上すべてのビデオプレーヤーと編集アプリケーションが読み取れます。ただし、フォントサイズ、色、配置、その他の視覚的なプロパティは形式仕様内で制御できません。

VTTとは?

VTTはWebVTT(Web Video Text Tracks)の略で、W3C(World Wide Web Consortium)がHTML5の<video>要素および<track>要素で使用するために特別に開発した字幕・キャプション形式です。仕様は2010年に初めて公開され、W3C勧告となり、Webベースのビデオキャプションの公式標準となっています。

VTTファイルは.vtt拡張子を持つプレーンテキストファイルです。ヘッダーWEBVTTで始まる必要があり、オプションでメタデータが続きます。各キューにはオプションの識別子、タイムコード行、字幕テキストを含めることができます。

VTTファイルの構造は以下の通りです:

WEBVTT
Kind: captions
Language: en

intro
00:00:01.000 --> 00:00:04.000
これは最初の字幕行です。

00:00:05.500 --> 00:00:08.200
これは2番目の字幕です。
複数行にまたがることができます。

styled-cue
00:00:10.000 --> 00:00:13.750 position:10% align:start
<v Speaker 1>このキューにはポジショニングと
話者IDのボイスタグがあります。</v>

VTT形式の主な特徴:

  • 必須ヘッダー:すべてのファイルはWEBVTTで始まる必要がある
  • タイムコード形式:HH:MM:SS.mmm(ミリ秒にはカンマではなくピリオドを使用)
  • オプションのキュー識別子:キューには連番ではなく名前付きIDを持たせることが可能
  • CSSスタイリングサポート:::cue擬似要素によるCSSスタイリングをサポート
  • ポジショニング:キュー設定で垂直、行、位置、サイズ、配置の制御が可能
  • ボイスタグ:<v Speaker Name>タグにより形式内での話者識別が可能
  • メタデータヘッダー:追加コンテキスト用のWEBVTTヘッダー後のキー・バリューペア
  • コメント:ファイルレベルの注釈用のNOTEブロックをサポート

VTTは、古い字幕形式の制限に対処しつつ、Web技術とネイティブに統合するように設計されました。CSSスタイリング、話者ボイスタグ、キューポジショニングのサポートにより、Webベースのビデオプレーヤーにおいて、SRTよりも大幅に表現力が高くなっています。

SRT vs VTT:主な違い

SRTとVTTは一見似ているように見えますが、ファイル拡張子以外にもいくつかの重要な点で異なります。

機能SRTVTT
ファイル拡張子.srt.vtt
ファイルヘッダー不要WEBVTTが必要
タイムコード区切りカンマ(,)ピリオド(.)
キュー番号連番が必要オプションの名前付き識別子
テキストスタイリング非対応CSS ::cueスタイリング、太字、斜体、下線
ポジショニング非対応行、位置、サイズ、配置の設定
話者識別手動(テキストベース)ネイティブボイスタグ(<v>)
コメント非対応NOTEブロックをサポート
メタデータ非対応ヘッダーメタデータのキー・バリューペア
HTMLタグ限定的(一部プレーヤーは<b>、<i>をサポート)完全サポート(<b>、<i>、<u>、<c>、<v>、<lang>)
文字エンコーディング異なる場合あり(UTF-8推奨)UTF-8が必須
Web標準いいえW3C勧告

ほとんどのユーザーにとっての最も実用的な違いは、互換性と機能の対比です。SRTはどこでも動作しますが、時間指定テキストの表示以外には何もしません。VTTはWeb上で豊富なフォーマットオプションを持ちネイティブに動作しますが、デスクトップのビデオエディターやレガシーメディアプレーヤーでのサポートは狭くなっています。

プラットフォーム互換性

どのプラットフォームがどの形式を受け入れるかを知ることで、時間を節約し、変換の手間を避けることができます。以下は主要なプラットフォームとツールのサポート状況です。

プラットフォーム/ツールSRTVTT備考
YouTubeありあり両方を手動アップロードで受付、SRTを自動生成
Vimeoありあり両方を受付、スタイリングにはVTTを推奨
HTML5 <video>なしありVTTがネイティブサポートされる唯一の形式
VLC Media Playerありあり両形式を完全サポート
Adobe Premiere ProありなしSRTのインポート/エクスポート、VTTのネイティブサポートなし
DaVinci ResolveありなしインポートにはSRTが推奨
Final Cut ProありなしSRTとiTTをサポート
Facebook / InstagramありありアップロードにはSRTが推奨
TikTokありなしクローズドキャプションアップロードにSRT
Netflix両方(TTML経由)両方(TTML経由)納品にはTTML/DFXPを推奨
Zoomありありクラウド録画にVTT
Microsoft Teamsありあり会議の文字起こしにVTTを生成
WordPressなしありHTML5ビデオがVTTをネイティブに使用
Wistiaありありキャプションアップロードに両方を受付

一般的なパターン:Webプラットフォームと最新のツールはVTTをサポートし、ビデオ編集ソフトウェアとレガシープレーヤーはSRTを好みます。Web再生用のコンテンツを制作している場合、VTTが自然な選択肢です。エディターにファイルを納品したり、ソーシャルメディアにアップロードしたりする場合、SRTがより安全な選択です。

SRTを使うべき場合

フォーマット制御よりも幅広い互換性が重要な場合は、SRTを選びましょう。

ビデオ編集ワークフロー。 ほとんどのプロ用編集ソフトウェア(Premiere Pro、DaVinci Resolve、Final Cut Pro、Avid Media Composer)はSRTをネイティブに処理します。字幕ファイルをエディター間で移動する必要がある場合、SRTは変換の問題を回避します。

ソーシャルメディアへのアップロード。 TikTokやInstagramのようなプラットフォームは、焼き付けまたはクローズドキャプション用にSRTを受け入れます。ソーシャルプラットフォームにキャプションをアップロードする場合、SRTが唯一受け入れられる形式であることがよくあります。

レガシーシステムサポート。 古いメディアプレーヤー、セットトップボックス、DVD/Blu-rayオーサリングツールはSRTを中心に構築されていました。視聴者が古い再生ハードウェアやソフトウェアを使用している場合、SRTは互換性を保証します。

シンプルさと携帯性。 SRTファイルは非常に簡単に作成、編集、デバッグできます。覚えるべきヘッダーも、特別な構文もなく、形式は初めて見る人でも自明です。

フリーランスおよびクライアントへの納品。 クライアントやコラボレーターに字幕ファイルを納品する場合、SRTは説明不要で受信者が使用するツールで動作するため、最も安全なデフォルトです。

VTTを使うべき場合

Webネイティブの機能、スタイリング、またはアクセシビリティコンプライアンスが必要な場合は、VTTを選びましょう。

HTML5 Webビデオ。 <video>要素を使用してWebサイトにビデオを埋め込む場合、VTTは<track>タグでサポートされる唯一の字幕形式です。変換レイヤーやJavaScriptライブラリは不要です。

スタイル付き字幕。 VTTでは::cue擬似要素を使用してCSSスタイリングをキャプションに適用できます。フォント、色、背景、不透明度、テキストシャドウを標準CSSで制御できます。

video::cue {
  background-color: rgba(0, 0, 0, 0.7);
  color: #ffffff;
  font-size: 1.2em;
}

キャプションのポジショニング。 VTTは正確な配置のためのキュー設定をサポートしています。これは画面上のグラフィック、話者名、ロワーサードオーバーレイを避けるのに便利です。

00:00:10.000 --> 00:00:14.000 position:10% line:0 align:start
このキャプションは左上に表示されます。

話者識別。 VTTのボイスタグ(<v>)は話者を識別する構造化された方法を提供し、会議の文字起こし、インタビュー、複数話者のコンテンツに便利です。プレーヤーはこれらのタグを使用して異なる話者を異なる色でスタイリングできます。

アクセシビリティコンプライアンス。 WebコンテンツのWCAG 2.1コンプライアンスには、HTML5アクセシビリティAPIと統合し、キャプション(聴覚障害者向け)と説明(視覚障害者向け)の両方をサポートするVTTが推奨形式です。

SRTとVTTの変換方法

SRTとVTTの変換は、形式の構造が似ているため簡単です。

SRTからVTTへの変換

SRTファイルを手動でVTTに変換するには:

  1. ファイルの最初の行にWEBVTTを追加
  2. ヘッダーの後に空行を追加
  3. タイムコードのすべてのカンマをピリオドに置換(00:00:01,000を00:00:01.000に)
  4. オプションで連番のキュー番号を削除(VTTでは必須ではない)
  5. .vtt拡張子でファイルを保存

変換前(SRT):

1
00:00:01,000 --> 00:00:04,000
プレゼンテーションへようこそ。

2
00:00:05,500 --> 00:00:08,200
今日は3つのトピックをカバーします。

変換後(VTT):

WEBVTT

00:00:01.000 --> 00:00:04.000
プレゼンテーションへようこそ。

00:00:05.500 --> 00:00:08.200
今日は3つのトピックをカバーします。

VTTからSRTへの変換

VTTファイルをSRTに変換するには:

  1. WEBVTTヘッダーとすべてのメタデータ行を削除
  2. タイムコードのすべてのピリオドをカンマに置換(00:00:01.000を00:00:01,000に)
  3. 各タイムコード行の前に連番のキュー番号を追加
  4. VTT固有の機能(ボイスタグ、ポジショニング、CSSクラス)を削除
  5. .srt拡張子でファイルを保存

自動変換

バッチ変換や頻繁な形式切り替えには、Vocovaのようなツールが自動的に処理します。Vocovaで音声や動画から字幕を生成すると、手動変換なしでSRTとVTTの両方に直接エクスポートできます(PDF、DOCX、CSV、TXTも同様)。これは同じコンテンツを異なるプラットフォーム向けに複数の形式で必要とする場合に特に便利です。

ほとんどのビデオ編集アプリケーションやオンライン字幕エディターにも組み込みの形式変換が含まれています。FFmpegはコマンドラインで形式間を変換できます:

ffmpeg -i subtitles.srt subtitles.vtt

知っておくべきその他の字幕形式

SRTとVTTはほとんどのユースケースをカバーしますが、専門的な用途向けにいくつかの他の形式が存在します。

ASS / SSA(Advanced SubStation Alpha)

ASSとその前身SSAは、アニメのファンサブコミュニティで人気のある字幕形式です。フォント、色、アニメーション、カラオケエフェクト、正確な画面上のポジショニングを含む高度なスタイリングをサポートしています。ASSファイルはSRTやVTTよりもかなり複雑で、主にVLCやMPC-HCのようなメディアプレーヤーで使用されます。ほとんどのWebプラットフォームはASSファイルを直接受け入れません。

TTML(Timed Text Markup Language)

TTMLはW3Cが維持するXMLベースの字幕形式です。Netflix、BBC、その他の主要コンテンツ配信者を中心に、プロの放送やストリーミングワークフローで使用されています。TTMLはリッチスタイリング、リージョンベースのポジショニング、単一ファイルでの複数の字幕トラックをサポートしています。XML構造のため冗長ですが、高度に構造化されています。

SCC(Scenarist Closed Captions)

SCCは北米の放送テレビで使用されるレガシー形式です。CEA-608クローズドキャプションデータをエンコードし、米国のFCCコンプライアンスのキャプションに必要です。SCCファイルは人間が読めるものではなく、作成・編集には専門的なソフトウェアが必要です。放送テレビ用のコンテンツを制作している場合、キャプションベンダーがSCCファイルを納品する可能性が高いです。

SBV(SubViewer)

SBVは、歴史的にYouTubeが自動生成キャプションに使用していたシンプルな字幕形式です。SRTと構造的に似ていますが、異なるタイムコード形式を使用しています。SBVはYouTubeアップロードにおいてSRTとVTTにほぼ取って代わられています。

よくある質問

YouTubeにSRTファイルをアップロードできますか?

はい。YouTubeは手動での字幕アップロードにSRTファイルとVTTファイルの両方を受け入れます。YouTube Studioのビデオの「字幕」セクションからアップロードできます。YouTubeはキャプションも自動生成し、SRT形式でダウンロードできます。

VTTはスタイリングと色をサポートしていますか?

はい。VTTは::cue擬似要素によるCSSスタイリング、<b>、<i>、<u>などのインラインタグ、<c.classname>によるクラスベースのスタイリングをサポートしています。フォントの色、背景色、テキストサイズ、不透明度を制御できます。ただし、すべてのビデオプレーヤーがVTTスタイルをレンダリングするわけではなく、サポートはプレーヤーの実装に依存します。

アクセシビリティにはどちらの形式が適していますか?

VTTはWebアクセシビリティコンプライアンスの推奨形式です。HTML5アクセシビリティAPIと統合し、kind属性(キャプション、説明、チャプター)をサポートし、ボイスタグによる話者識別を可能にします。Webビデオに関するWCAG 2.1コンプライアンスには、<track>要素を使用したVTTが標準的なアプローチです。

SRTファイルに太字や斜体のフォーマットを含めることはできますか?

SRT仕様にはフォーマットが含まれていません。ただし、多くのビデオプレーヤーはSRTキュー内の基本的なHTMLタグ(<b>、<i>、<u>)を解釈してレンダリングします。この動作はすべてのプレーヤーで保証されているわけではないため、重要なフォーマットにこれを頼ることはリスクがあります。

字幕ファイルの最大ファイルサイズはどのくらいですか?

SRTにもVTTにも形式レベルのファイルサイズ制限はありません。プラットフォーム固有の制限は異なります:YouTubeは最大10MBの字幕ファイルを許可しますが、ほとんどのプラットフォームは一般的な動画の長さでは1MB未満のファイルを受け入れます。1時間の動画は通常50〜150KBの字幕ファイルを生成します。

音声や動画からSRTまたはVTTファイルを生成するにはどうすればよいですか?

自動音声認識ツールで音声や動画を文字起こしすることで字幕ファイルを生成できます。Vocovaのようなサービスは、100以上の言語でタイムスタンプと話者ラベル付きの音声文字起こしを行い、SRT、VTT、その他の形式に直接エクスポートできます。Vocovaの字幕ジェネレーターは両方の形式を自動的にエクスポートします。字幕生成ツールの比較については、最高のAI字幕生成ツールのガイドをご覧ください。

関連記事

もっと読む
2026年4月2日·17 分

字幕ファイル形式まとめ:SRT・WebVTT・ASS・TTML を比較(2026)

もっと読む
2026年2月13日·16 分

クローズドキャプション vs 字幕:その違いとは?

もっと読む
2026年5月1日·17 分

Bilibili動画の文字起こし方法|トランスクリプト・字幕・英語翻訳まで

製品

  • 料金
  • ブログ
  • すべてのツールを見る

ソリューション

  • ポッドキャスター向け
  • 動画クリエイター向け
  • 多言語インタビュー

会社情報

  • 概要
  • よくある質問
  • 利用規約
  • プライバシーポリシー
  • お問い合わせ

文字起こし

  • 音声からテキスト
  • 動画からテキスト
  • ポッドキャスト文字起こし
  • インタビュー文字起こし
  • 講義文字起こし

プラットフォーム

  • YouTube文字起こし
  • Apple Podcasts文字起こし
  • Zoom文字起こし
  • Google Meet文字起こし
  • TikTok文字起こし
  • Loom文字起こし
  • Bilibili文字起こし
  • Vimeo文字起こし
  • Instagram文字起こし
  • Facebook文字起こし
  • X (Twitter)文字起こし
  • SoundCloud文字起こし
  • Reddit文字起こし
  • Dailymotion文字起こし

言語

  • 日本語文字起こし
  • スペイン語文字起こし
  • フランス語文字起こし
  • ドイツ語文字起こし
  • ポルトガル語文字起こし
  • 韓国語文字起こし
  • 中国語文字起こし
  • アラビア語文字起こし
  • ヒンディー語文字起こし
  • イタリア語文字起こし
  • ロシア語文字起こし
  • タイ語文字起こし
  • ベトナム語文字起こし
  • トルコ語文字起こし
  • インドネシア語文字起こし
  • オランダ語文字起こし
  • ポーランド語文字起こし
  • スウェーデン語文字起こし
  • 広東語文字起こし
  • タガログ語文字起こし

翻訳

  • 音声翻訳
  • バイリンガル字幕
  • 動画翻訳
  • 日本語から英語
  • 中国語から英語へ
  • スペイン語から英語へ
  • 韓国語から英語
  • フランス語から英語

フォーマット

  • MP4テキスト変換
  • MP3テキスト変換
  • WAV テキスト変換
  • M4A テキスト変換
  • MOV テキスト変換
  • SRTジェネレーター
  • VTT ジェネレーター
  • 字幕生成

変換

  • 音声変換ツール
  • 動画変換ツール
  • MP4 から MP3

要約

  • ポッドキャスト要約
  • YouTube要約
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt