YouTube動画の文字起こしやり方5選｜無料で簡単にテキスト化

研究、コンテンツの再利用、アクセシビリティ、SEOなど、どのような目的であれ、YouTube動画からテキストを取得することは最も一般的な文字起こし作業の一つです。方法はいくつかあり、それぞれ精度、言語対応、出力形式においてトレードオフがあります。

ここでは、YouTube動画を文字起こしする5つの方法を紹介します。それぞれコスト、精度、言語対応、出力品質において異なるトレードオフがあります。

比較一覧

方法	費用	言語	話者ラベル	エクスポート形式	編集	最適な用途
YouTube内蔵トランスクリプト	無料	多くの言語で自動生成	なし	コピー＆ペーストのみ	なし	簡単な参照
Vocova（URLインポート）	無料プランあり	100以上（自動検出対応）	Plus / Pro	TXT、SRT、VTT、PDF、DOCX、CSV	あり	多言語、プロフェッショナルな出力
Whisper + yt-dlp	無料（セルフホスト）	99	なし	TXT、SRT、VTT、JSON	なし（手動）	フルコントロールを求める技術者向け
ブラウザ拡張機能	無料または有料	さまざま（英語のみの場合が多い）	ほとんどなし	TXT、場合によりSRT	限定的	カジュアルな英語文字起こし
手動文字起こし	自分の時間	すべて	自分次第	すべて	完全なコントロール	完璧な精度が必要な短いクリップ

方法1：YouTube内蔵トランスクリプト

YouTubeは独自の音声認識システムを使い、ほとんどの動画に自動でキャプションを生成しています。トランスクリプトは動画ページから直接アクセスできます。

取得方法

YouTube動画を開く
動画の下にある三点メニュー（保存と共有の横）をクリック
「文字起こしを表示」を選択
動画の右側にタイムスタンプ付きのトランスクリプトパネルが表示される

トランスクリプトパネル内のテキストをすべて選択してクリップボードにコピーできます。タイムスタンプの表示を切り替えるには、トランスクリプトパネル内の三点メニューをクリックします。

得られるもの

約5秒間隔のタイムスタンプ付きのプレーンテキストです。話者ラベル、段落区切り、YouTubeの自動キャプション以上の句読点の修正はありません。テキストは読みやすい形式にフォーマットされていません。

精度と言語対応

YouTubeの自動キャプションは、はっきりした英語の発話にはそこそこの精度ですが、訛り、背景ノイズ、専門用語、マイナーな言語では品質が低下します。YouTubeは12以上の言語で自動キャプションをサポートしていると謳っていますが、精度は大きく異なります。日本語やアラビア語などの言語では、専用の文字起こしツールと比較して精度が大幅に低下する傾向があります。

YouTubeのトランスクリプトは、自動生成キャプションのミスをそのまま引き継ぎます。キャプションが間違っていれば、トランスクリプトも間違っています。キャプションファイルをダウンロードして外部で編集しない限り、トランスクリプトを修正する方法はありません。

制限事項

コピー＆ペースト以外のエクスポート機能がない
話者識別がない
YouTube内での編集ができない
精度はYouTubeの自動キャプション品質に完全に依存する
すべての動画で利用可能なわけではない（キャプションを無効にしているクリエイターもおり、自動生成もすべての言語をカバーしていない）
フォーマットが最小限で、ドキュメントや記事にそのまま使いにくい

この方法が適している場合

動画の特定の部分をすぐに確認したいときや、完成度の高いドキュメントが不要な場合にYouTube内蔵トランスクリプトを使いましょう。本格的な文字起こしに取り組む前に、動画がそのトピックをカバーしているか確認するのにも便利です。

方法2：Vocova（URLを貼り付けて文字起こし）

Vocovaは、URLからYouTube動画を直接インポートできるウェブベースのYouTube文字起こしツールです。動画リンクを貼り付けると、Vocovaが音声を抽出してAIで文字起こしし、タイムスタンプとオプションの話者ラベル付きのフォーマット済みトランスクリプトを生成します。

やり方

YouTube動画のURLをコピー
VocovaにアクセスしてURLを貼り付ける
VocovaがYouTube動画として検出し、プラットフォームアイコンを表示
クリックして文字起こしページに進む
音声の言語を選択するか、自動検出のままにする
文字起こしを開始

動画の長さに応じて、処理には数分かかります。完了すると、任意のセグメントをクリックして音声の該当箇所にジャンプできるインタラクティブなトランスクリプトが得られます。

得られるもの

以下を含む完全なトランスクリプトが生成されます：

単語レベルのタイムスタンプ
話者ダイアライゼーション（Plus / Proプラン）で誰が何を言ったかを識別
自動句読点とフォーマット
トランスクリプトに同期したインタラクティブ再生
140以上の言語への翻訳
6種類の形式でエクスポート：TXT、SRT、VTT、PDF、DOCX、CSV

無料プランでは30 分のTXTエクスポートが利用可能です。Plusでは話者ラベル、編集、翻訳、バッチ処理、すべてのエクスポート形式が利用できます。ProはPlusのすべてに加えて無制限の文字起こしを提供します。

精度と言語対応

Vocovaは100以上の言語をサポートし、自動言語検出に対応しています。多言語コンテンツ——英語以外の発話や混合言語の動画——については、専用の文字起こしツールの方が、主に英語向けに最適化されているYouTubeの内蔵キャプションよりも、一般的に音声をより正確に処理します。

トランスクリプトは編集可能なので、エクスポート前にインターフェイス上で直接エラーを修正できます。

制限事項

無料プランは30 分に制限
話者ラベルには Plus または Pro が必要
非常に長い動画（10時間以上）はファイルごとの上限に到達する

この方法が適している場合

エクスポートオプション付きのプロフェッショナル品質のトランスクリプトが必要な場合、特に英語以外のコンテンツや、字幕（SRT/VTT）、ドキュメント（PDF/DOCX）、翻訳版が必要な場合にVocovaを使いましょう。YouTube URLからフォーマット済みトランスクリプトを最短で取得できる方法です。

方法3：Whisper + yt-dlp（セルフホスト）

OpenAIのWhisperは、自分のコンピュータで実行できるオープンソースの音声認識モデルです。yt-dlp（YouTube音声をダウンロードするコマンドラインツール）と組み合わせることで、完全にローカルで無料の文字起こしパイプラインが構築できます。

やり方

yt-dlpをインストール：pip install yt-dlp
Whisperをインストール：pip install openai-whisper
音声をダウンロード：yt-dlp -x --audio-format mp3 "VIDEO_URL"
文字起こし：whisper audio.mp3 --model large-v3 --language auto

出力ファイル（TXT、SRT、VTT、JSON）は作業ディレクトリに保存されます。

得られるもの

タイムスタンプ付きの複数形式のトランスクリプトです。large-v3モデルは99言語にわたって高い精度を発揮します。Whisperの内蔵翻訳モードを使えば、任意の言語を英語に翻訳することもできます。

精度と言語対応

Whisperのlarge-v3モデルは、利用可能なオープンソース音声認識モデルの中でも最も精度の高いもののひとつです。クリーンな音声であれば、商用サービスに匹敵します。99言語に対応し、訛りのある発話や背景ノイズも多くの代替手段よりうまく処理します。

ただし、Whisperには話者ダイアライゼーションが含まれていません。すべてのセグメントが「不明な話者」に帰属されます。話者ラベルを追加するには、pyannoteなどの別のダイアライゼーションツールとWhisperを組み合わせる必要があり、セットアップの複雑さが大幅に増します。

制限事項

適切な速度で処理するには高性能GPUを搭載したコンピュータが必要（CPU処理のみでは非常に遅い）
グラフィカルインターフェイスがない
追加ツールなしでは話者ラベルがない
インタラクティブな編集や再生がない
インストール、依存関係、トラブルシューティングは自分で対応
YouTubeが内部APIを変更するとyt-dlpが動作しなくなる場合があり、アップデートが必要

この方法が適している場合

プロセスを完全にコントロールしたい場合、最大限のプライバシーが必要な場合（何もマシンから外に出ない）、または大量の動画をバッチ処理して分単位のコストを避けたい場合にWhisper + yt-dlpを使いましょう。コマンドラインに慣れたパワーユーザー向けの方法です。

方法4：ブラウザ拡張機能

いくつかのブラウザ拡張機能が、YouTube上に直接文字起こし機能を追加します。YouTube Transcript、Glasp、Transcript Grabberなどの拡張機能を使えば、ブラウザを離れずにトランスクリプトを取得・生成できます。

仕組み

これらの拡張機能のほとんどは、次の2つのカテゴリーに分類されます：

キャプション抽出型は、YouTubeの既存の自動生成または手動アップロードされたキャプションを取得し、ダウンロード可能なテキストとしてフォーマットします。独自の音声認識は行いません。YouTubeにキャプションがない動画には対応できません。

AI文字起こし型は、独自の音声認識（またはクラウドAPI）を使用して音声を独立して文字起こしします。こちらは一般的ではなく、通常は使用制限やサブスクリプション料金が伴います。

得られるもの

一般的には、タイムスタンプ付きのプレーンテキストのトランスクリプトです。SRTエクスポートに対応している拡張機能もありますが、ほとんどは話者ラベル、編集ツール、翻訳機能を提供しません。

精度と言語対応

キャプション抽出型はYouTubeの精度をそのまま引き継ぐため、その限界もすべて引き継ぎます。AI搭載型は品質にばらつきがあります。ほとんどのブラウザ拡張機能は英語に特化しており、他の言語のサポートは限定的かまったくありません。

制限事項

ほとんどの拡張機能は既にキャプションがある動画でのみ動作
言語サポートは英語のみか限定的なことが多い
話者識別がない
プライバシーの懸念：音声を第三者のサーバーに送信する拡張機能もある
YouTubeのインターフェイス更新で動作しなくなることがある
拡張機能ごとに品質やメンテナンス状況が大きく異なる

この方法が適している場合

ブラウザ拡張機能は、既にキャプションがある動画から英語のトランスクリプトをすぐに取得したいときに便利です。多言語コンテンツ、キャプションのない動画、プロフェッショナル品質の出力には向いていません。

方法5：手動文字起こし

YouTube動画を自分で視聴しながら聞いた内容をタイピングして文字起こしすることも、もちろん可能です。最も手間がかかる方法ですが、精度、フォーマット、内容に対する完全なコントロールが得られます。

やり方

動画とテキストエディタを並べて開く
再生速度を下げて動画を再生（0.75倍または0.5倍）
聞こえたことをタイプし、必要に応じて一時停止や巻き戻しを行う
話者ラベル、タイムスタンプ、段落区切りでトランスクリプトをフォーマットする

得られるもの

思い通りの形式で完璧に正確なトランスクリプトが得られます。句読点から話者の特定、非発話音声の注釈まで、すべてのディテールを自分でコントロールできます。

所要時間の目安

手動文字起こしは通常、音声の長さの4〜6倍の時間がかかります。10分の動画で40〜60分、1時間の動画で4〜6時間です。短いクリップであれば対応可能ですが、それ以上の長さになると時間の投資は大きくなります。

制限事項

非常に時間がかかる
高いリスニングスキルとタイピング速度が必要
長い録音では疲労によるエラーが発生しやすい
手動で追加しない限りタイムスタンプがない
定期的または大量の文字起こしには実用的でない

この方法が適している場合

手動文字起こしは、完璧な精度が必要な短いクリップ（5分未満）や、AIモデルの処理精度が低い言語のコンテンツに適しています。また、トーン、皮肉、あいまいな発話など、自動ツールが見逃すニュアンスをキャプチャする必要がある場合にも有効です。

適切な方法の選び方

最適なアプローチは、具体的な状況によって異なります：

すぐに確認したい場合：YouTube内蔵トランスクリプトを使いましょう。数秒で完了し、ツールは不要です。
字幕付きのプロフェッショナルな出力が必要な場合：VocovaにURLを貼り付ければ、SRT、VTT、PDF、DOCXなど多彩な形式でエクスポートできる編集可能なトランスクリプトが得られます。ほとんどの方にとって最も効率的な方法です。
英語以外のコンテンツの場合：Vocova（100以上の言語）またはWhisper（99言語）は、YouTubeの内蔵キャプションや英語特化のブラウザ拡張機能よりもはるかに優れた多言語対応を提供します。多言語文字起こしの全体像については、AIが多言語コミュニケーションをどう変革しているかの記事をご覧ください。
プライバシーとコントロールを重視する場合：Whisper + yt-dlpならすべてを自分のマシン上で完結できます。サーバーにアップロードされるものは一切ありません。
キャプション付きの英語動画の場合：テキストだけが必要なら、ブラウザ拡張機能で既存のトランスクリプトを素早く取得できます。
完璧な精度が必要な短いクリップの場合：手動文字起こしなら短いセグメントで完全な精度が得られます。

定期的にトランスクリプトが必要なほとんどのユーザーにとって、手動の方法やブラウザ拡張機能と比較して、専用の文字起こしツールが速度、精度、出力の柔軟性の最適なバランスを提供します。

よくある質問

どのYouTube動画からでもトランスクリプトをダウンロードできますか？

自動生成または手動アップロードされたキャプションがあるほとんどの動画では、YouTube内蔵のトランスクリプトにアクセスできます。ただし、キャプションを無効にしているクリエイターもおり、YouTubeがすべての言語で生成するわけではありません。キャプションのない動画の場合、VocovaやWhisperなどの外部ツールを使って音声を直接文字起こしする必要があります。

YouTubeの自動生成トランスクリプトは正確ですか？

単一の話者によるはっきりした英語の発話であれば、YouTubeの自動キャプションはそこそこの精度で、通常85〜90%程度です。複数の話者、訛り、専門用語、背景ノイズ、英語以外の言語では精度が低下します。プロフェッショナルな用途では、出力の校正と修正が必要になるでしょう。精度のベンチマークについては、AI vs 人間の文字起こし比較で詳しく紹介しています。

YouTube動画から字幕を取得するにはどうすればよいですか？

プレーンテキストではなく字幕ファイル（SRTまたはVTT）を取得するには、それらの形式でエクスポートできるツールが必要です。YouTubeではインターフェイスから自動生成キャプションをファイルとして直接ダウンロードすることはできません。VocovaはYouTube動画をURLでインポートし、SRTまたはVTTとしてトランスクリプトをエクスポートできるため、動画エディタや他のプラットフォームですぐに使用できます。字幕形式の詳細については、SRT vs VTTガイドをご覧ください。

英語以外の言語でYouTube動画を文字起こしできますか？

はい。Vocovaは100以上の言語をサポートし自動検出に対応しているため、スペイン語、日本語、アラビア語、ヒンディー語など、手動で言語を指定せずにYouTube動画を文字起こしできます。Whisperも99言語をサポートしています。YouTubeの内蔵文字起こしは、英語以外の言語のサポートがより限定的で精度も低くなります。

YouTube動画を文字起こしすることは合法ですか？

個人使用、研究、アクセシビリティ、教育目的でYouTube動画を文字起こしすることは、ほとんどの法域でフェアユースと見なされています。ただし、著作権のあるコンテンツのトランスクリプトを許可なく再配布したり収益化したりすると、法的問題が生じる可能性があります。自分が所有していないコンテンツのトランスクリプトを公開する予定がある場合は、クリエイターの利用規約と適用される著作権法を確認してください。これは法的助言ではありません。

AIでYouTube動画を文字起こしするのにどれくらい時間がかかりますか？

AI文字起こしは、ツールとモデルに応じて、音声のリアルタイム速度の5〜20倍で処理します。10分の動画は通常2分未満、1時間の動画は3〜10分です。同じ1時間の動画に4〜6時間かかる手動文字起こしと比べると、劇的に速くなります。

YouTubeのライブ配信を文字起こしできますか？

YouTubeは配信中にライブキャプションを自動生成しますが、常に保存されるわけではありません。配信終了後にYouTubeが録画を処理すると、自動生成キャプションが利用可能になる場合があります。その後、上記のいずれかの方法でアーカイブ動画を文字起こしできます。進行中のライブ配信をリアルタイムで文字起こしするには、ライブ音声入力に対応したツールが必要ですが、これはファイルベースの文字起こしとは異なるワークフローになります。

比較一覧

方法1：YouTube内蔵トランスクリプト

取得方法

得られるもの

精度と言語対応

制限事項

この方法が適している場合

方法2：Vocova（URLを貼り付けて文字起こし）

やり方

得られるもの

精度と言語対応

制限事項

この方法が適している場合

方法3：Whisper + yt-dlp（セルフホスト）

やり方

得られるもの

精度と言語対応

制限事項

この方法が適している場合

方法4：ブラウザ拡張機能

仕組み

得られるもの

精度と言語対応

制限事項

この方法が適している場合

方法5：手動文字起こし

やり方

得られるもの

所要時間の目安

制限事項

この方法が適している場合

適切な方法の選び方

よくある質問

どのYouTube動画からでもトランスクリプトをダウンロードできますか？

YouTubeの自動生成トランスクリプトは正確ですか？

YouTube動画から字幕を取得するにはどうすればよいですか？

英語以外の言語でYouTube動画を文字起こしできますか？

YouTube動画を文字起こしすることは合法ですか？

AIでYouTube動画を文字起こしするのにどれくらい時間がかかりますか？

YouTubeのライブ配信を文字起こしできますか？

関連記事

リンクを貼るだけでオンライン動画・ポッドキャストを文字起こし — ダウンロード不要のガイド

Bilibili動画の文字起こし方法｜トランスクリプト・字幕・英語翻訳まで

ポッドキャスト文字起こしワークフロー：生音源から再利用コンテンツへ（2026）