あらゆるMP3を文字起こし — 64kbpsのボイスメモから320kbpsのポッドキャストまで
当社のエンジンはMP3エンコーディングの特性に対応します:可変ビットレートのタイミング、ジョイントステレオのアーティファクト、低ビットレートの圧縮ノイズ。MP3をアップロードすると、正確でタイムスタンプ付きの文字起こしが得られます。
ファイルをここにドロップするかクリックして参照
.mp3·最大500MB
MP3エンコーディングを理解したMP3文字起こし
MP3はあらゆる場所にあります — ポッドキャスト、ボイスレコーダー、ダウンロード音声、電話録音。しかしMP3は実際の特性を持つロッシー形式でもあります:可変ビットレートエンコーディングはタイムスタンプのずれを引き起こす可能性があり、ジョイントステレオは低ビットレートでステレオイメージをぼかし、96kbps未満の圧縮では聞き取れるアーティファクトが発生します。当社の文字起こしエンジンはMP3品質の全範囲でトレーニングされているため、これらの問題を意識することなく対応します。
使い方
MP3ファイルをアップロード
任意のMP3ファイルをドラッグ&ドロップまたは選択してください。ファイルヘッダーを読み取り、エンコーディングモード(VBRまたはCBR)を検出し、ID3メタデータを自動的に処理します。
- VBRとCBRエンコーディングを検出して正しく処理
- ID3v1とID3v2タグを音声に干渉せず解析
- 最大500MB — 128kbpsで約8時間分
デコードと文字起こし
MP3はビットレート対応のタイムスタンプ計算でフレームごとにデコードされます。当社の音声モデルはロッシー圧縮アーティファクトを通して単語を認識するようトレーニングされています。
- 可変ビットレートでもフレーム精度のタイムスタンプ
- 64kbpsまでの低ビットレート音声でトレーニング済み
- ジョイントステレオとモノチャンネルを同等に処理
確認とエクスポート
ブラウザ内で文字起こしを編集し、プレーンテキスト、SRT、VTT、DOCX、PDFとして元のMP3に同期したタイムスタンプ付きでエクスポートできます。
- VBRエンコードファイルでもタイムスタンプは正確
- TXT、SRT、VTT、DOCX、PDFでエクスポート
- 各セグメントにタイムスタンプをリンク
機能
VBRタイムスタンプの精度
可変ビットレートのMP3ファイルはファイル位置と再生時間の間に固定的な関係がありません。当社のデコーダーはXing/VBRIヘッダーからフレームインデックスを構築し(ヘッダーがない場合はファイルをスキャン)、すべてのセグメントの正確なタイムスタンプを計算します。
低ビットレートアーティファクトへの耐性
96kbps未満のMP3エンコーディングは高周波を除去し、単純な音声モデルを混乱させるリンギングアーティファクトを生じます。当社のエンジンは低ビットレート音声に特化してトレーニングされており、安価なレコーダーの64kbpsボイス録音でも精度を維持します。
モノラルとステレオチャンネルの処理
MP3ファイルはモノラル、ステレオ、ジョイントステレオ、デュアルチャンネルの各モードがあります。4つすべてを正しくデコードします。話者が異なるチャンネルにパンされたジョイントステレオ録音では、両チャンネルを処理して完全にカバーします。
ID3タグとメタデータの処理
MP3ファイルにはアルバムアート、チャプターマーカー、メタデータなどのID3タグが含まれていることが多く、生の音声フレームを期待するパーサーを混乱させることがあります。当社のデコーダーはメタデータをクリーンに除去し、最初の実際の音声フレームから文字起こしを開始します。
ポッドキャストチャプター認識
MP3として配信されるポッドキャストは、ID3チャプターフレームや埋め込みキューポイントを使用していることがよくあります。これらのマーカーを検出し、文字起こしの構造化に活用できるため、エピソードのチャプターに一致する自然なセクション区切りが得られます。
Vocovaを選ぶ理由
ポッドキャストエピソードをテキストコンテンツに変換
ポッドキャストの大半はMP3で配信されています。エピソードを直接アップロードしてください — 元の録音を探す必要はありません。Anchor、Buzzsprout、SpotifyのVBRエンコードポッドキャストでも、可変エンコーディングにもかかわらず正確なタイムスタンプが得られます。
圧縮されたインタビュー録音を文字起こし
ジャーナリストや研究者は、ファイルサイズを小さく保つために圧縮されたMP3メール添付としてインタビュー録音を受け取ることがよくあります。当社のモデルが圧縮アーティファクトに対応するため、64kbpsに強く圧縮された録音でも使用可能な文字起こしが得られます。
ウェブからダウンロードした音声を処理
ダウンロードした音声はほぼ必ずMP3であり、複数回再エンコードされていることもよくあります。再エンコードするたびに品質がさらに劣化します。当社のエンジンは複数の圧縮サイクルを経たマルチジェネレーションMP3ファイルに対応します。
ボイスレコーダーのファイルをテキストとしてアーカイブ
Olympus、Sony、Zoomのポータブルボイスレコーダーは通常、中程度のビットレートでMP3として保存します。数年分の会議録音、フィールドノート、ディクテーションを検索可能なテキストアーカイブに変換できます。
活用できる方
ポッドキャストプロデューサー
公開されたMP3エピソードを番組ノート、ブログ記事、アクセシビリティ用の文字起こしに変換。VBRタイムスタンプはエピソード内の特定の瞬間へのリンクバックに正確です。
フィールド録音を持つジャーナリスト
メール添付で受け取ったMP3インタビュー録音やポータブルレコーダーでキャプチャしたものを文字起こし。電話レコーダーの低ビットレートファイルも問題なく処理します。
質的分析を行う研究者
フォーカスグループ、インタビュー、エスノグラフィーのフィールドワークのMP3録音を処理。話者ラベルが複数の録音にわたるコーディングとテーマ分析に役立ちます。
音声アーキビスト
MP3ファイルのコレクション — オーラルヒストリー、ラジオ放送、録音された講義 — を検索可能なテキストに変換。大規模な音声ライブラリの内容をインデックス化・検索可能な形式で保存します。
