轉錄任何 MP3——從 64kbps 語音備忘錄到 320kbps 播客
我們的引擎處理 MP3 編碼的各種特性:可變位元率時間定位、聯合立體聲失真和低位元率壓縮噪音。上傳您的 MP3,取得精準的帶時間戳逐字稿。
拖放文件到此處或點击浏覽
.mp3·最大 500MB
理解 MP3 編碼的 MP3 轉錄
MP3 無處不在——播客、錄音筆、下載的音訊、手機錄音。但 MP3 也是一種有損格式,存在真實的特性問題:可變位元率編碼可能導致時間戳偏移,聯合立體聲在低位元率下會模糊立體聲像,低於 96kbps 的激進壓縮會引入可聽見的失真。我們的轉錄引擎針對各種品質的 MP3 進行訓練,因此無需您操心即可處理這些問題。
使用方法
上傳您的 MP3 檔案
拖放或選擇任何 MP3 檔案。我們讀取檔案標頭,偵測編碼模式(VBR 或 CBR),並自動處理 ID3 元數據。
- VBR 和 CBR 編碼均可偵測並正確處理
- 解析 ID3v1 和 ID3v2 標籤而不干擾音訊
- 檔案最大 500 MB——128 kbps 下約 8 小時
解碼與轉錄
MP3 逐幀解碼,採用位元率感知的時間戳計算。我們的語音模型經過訓練,能透過有損壓縮失真辨識語詞。
- 即使是可變位元率也能獲得幀級精確時間戳
- 針對低至 64 kbps 的低位元率音訊進行訓練
- 同樣出色地處理聯合立體聲和單聲道
檢閱與匯出
在瀏覽器中編輯逐字稿,然後以純文字、SRT、VTT、DOCX 或 PDF 格式匯出,時間戳與您的原始 MP3 同步。
- 即使是 VBR 編碼檔案,時間戳也保持精確
- 匯出為 TXT、SRT、VTT、DOCX 或 PDF
- 每個片段均附有時間戳連結
功能特色
VBR 時間戳準確性
可變位元率 MP3 檔案在檔案位置和播放時間之間沒有固定關係。我們的解碼器從 Xing/VBRI 標頭建立幀索引(或在標頭缺失時掃描檔案),為每個片段計算精確的時間戳。
低位元率失真容忍
低於 96 kbps 的 MP3 編碼會去除高頻並引入振鈴失真,這會干擾一般的語音模型。我們的引擎專門針對低位元率音訊進行訓練,即使是來自廉價錄音筆的 64 kbps 語音錄音也能保持準確度。
單聲道和立體聲通道處理
MP3 檔案有單聲道、立體聲、聯合立體聲和雙通道模式。我們正確解碼所有四種模式。對於說話人分佈在不同聲道的聯合立體聲錄音,兩個聲道都會被處理以確保完整覆蓋。
ID3 標籤和元數據處理
MP3 檔案通常包含帶有專輯封面、章節標記和元數據的 ID3 標籤,這些可能會干擾期望原始音訊幀的解析器。我們的解碼器會乾淨地剝離元數據,從第一個實際音訊幀開始轉錄。
播客章節感知
以 MP3 格式發布的播客通常使用 ID3 章節幀或嵌入的提示點。我們偵測這些標記並可用它們來組織逐字稿,為您提供與節目自身章節匹配的自然分段。
為什麼選擇 Vocova
將播客節目轉為書面內容
播客絕大多數以 MP3 格式發布。直接上傳節目——無需找到原始錄音。來自 Anchor、Buzzsprout 或 Spotify 的 VBR 編碼播客即使採用可變編碼也能獲得精確時間戳。
轉錄壓縮的訪談錄音
記者和研究人員經常收到以 MP3 郵件附件形式的訪談錄音,為了縮小檔案大小而壓縮過。即使是嚴重壓縮的 64 kbps 錄音也能產生可用的逐字稿,因為我們的模型能處理壓縮失真。
處理從網路下載的音訊
下載的音訊幾乎總是 MP3 格式,通常經過多次重新編碼。每次重新編碼都會進一步降低品質。我們的引擎能處理經過多代壓縮循環的 MP3 檔案。
將錄音筆檔案存檔為文字
Olympus、Sony 和 Zoom 的可攜式錄音筆通常以中等位元率儲存 MP3。將多年的會議錄音、現場筆記和口述轉換為可搜尋的文字存檔。
誰能受益
Podcast 製作人
將已發布的 MP3 節目轉換為逐字稿,用於節目備註、部落格文章和無障礙存取。VBR 時間戳保持精確,可連結回節目中的特定時刻。
有現場錄音的記者
轉錄以郵件附件收到或在可攜式錄音筆上錄製的 MP3 訪談錄音。手機錄音筆的低位元率檔案也能正常處理。
進行質性分析的研究人員
處理焦點團體、訪談和民族誌田野工作的 MP3 錄音。說話人標籤有助於跨多個錄音進行編碼和主題分析。
音訊檔案管理員
將 MP3 檔案集——口述歷史、廣播節目、演講錄音——轉換為可搜尋的文字。以可索引和搜尋的格式保存大型音訊庫的內容。
