如何改善錄音品質以獲得更好的轉錄結果
透過改善音檔錄製來獲得更好的轉錄結果。關於麥克風、環境設置、錄音設定和檔案格式的實用建議。
影響轉錄準確度最大的因素不是轉錄引擎本身,而是你送入的錄音品質。即使是最先進的 AI 語音轉錄模型,面對含糊的聲音、充滿回音的房間和削波的音檔也會苦不堪言。反之,一段清晰語音和最少背景噪音的乾淨錄音,可以將現代語音轉文字系統推向近乎完美的準確度。
本指南涵蓋你在錄音前、錄音中和錄音後可以做的所有事情,以獲得最佳的轉錄結果。無論你是錄製會議、訪談、講座還是播客,這些實際的調整將讓你省去日後數小時的手動修正。
為什麼音檔品質對轉錄很重要
AI 語音轉錄模型使用字錯誤率(WER)來衡量其表現,即系統搞錯的字詞百分比。在清晰的錄音室品質音檔上,現代模型例行性地達到低於 5% 的 WER,這被認為是專業級的。但同一個模型處理帶有嚴重背景噪音、混響或重疊講者的錄音時,WER 可能飆升到 20-30% 以上。
這個關係不是線性的。音檔品質的適度改善——比如從嘈雜咖啡店中的筆電麥克風換到安靜房間中的良好 USB 麥克風——就可以將你的錯誤率減半。這就是拿到可以直接使用的逐字稿與需要大量編輯的逐字稿之間的差異。
低品質音檔也會降低下游功能的表現。講者分離依賴於能區分不同聲音,當音檔混濁或有混響時這就變得不可靠。標點和格式模型依賴清晰的語音模式來判斷句子的開始和結束。當來源音檔乾淨時,一切下游的功能都受益。
選擇合適的麥克風
麥克風是音訊鏈中的第一環,它設定了品質的天花板,再多的後製處理也無法超越。好消息是你不需要昂貴的設備就能得到轉錄品質的音檔。
電容式 vs 動圈式麥克風
電容式麥克風更靈敏,能擷取更寬的頻率範圍,使其非常適合可控的環境如居家辦公室和錄音室。它們擷取微妙的人聲細節,幫助轉錄模型區分聽起來相似的字詞。取捨是它們也會擷取更多環境噪音。
動圈式麥克風較不靈敏,在設計上能排斥更多背景噪音。它們更適合未經聲學處理的房間或你無法完全控制噪音環境的場所。許多廣播專業人士偏好動圈式麥克風正是因為它們更寬容。
對於轉錄目的,兩種類型都表現良好。環境比麥克風類型更重要。
USB vs XLR
USB 麥克風直接連接到你的電腦,包含內建的音訊介面。它們是最簡單的選擇,對於想要良好音檔而不需要複雜設置的任何人都很適合。像 Rode NT-USB Mini 或 Audio-Technica AT2020USB+ 這樣的 USB 電容式麥克風以合理的價位提供出色的清晰度。
XLR 麥克風需要另外的音訊介面或混音器,這增加了成本和複雜性。好處是對增益調整有更多控制、更低的底噪,以及使用更高階麥克風振膜的能力。如果你已經擁有音訊介面,XLR 給你更多靈活性。如果你從頭開始,USB 是務實的選擇。
訪談和會議用的領夾式麥克風
在錄製訪談、座談討論或任何講者會移動的場景時,領夾式(lavalier)麥克風通常是最佳選項。夾在講者衣領下方約 15 公分處,領夾式麥克風無論頭部如何移動都能保持與嘴巴的一致距離。
對於多人錄音,給每位講者配備自己的領夾式麥克風並錄製到獨立聲道,可以讓轉錄變得更加容易。支援講者分離的工具在每個聲音來自不同乾淨聲道時表現好得多。
Rode Wireless Go II 是一款受歡迎的無線領夾式系統,可同時錄製兩個聲道,非常適合雙人訪談。
依使用場景推薦
- 獨人錄音(旁白、聽寫):USB 電容式麥克風搭配桌面支架或懸臂架。Blue Yeti、Rode NT-USB Mini 或 Elgato Wave 3 都是不錯的選擇。
- 訪談:每位參與者使用無線領夾式麥克風,或在講者之間放置一支槍型麥克風。
- 會議:專用的會議麥克風如 Jabra Speak 750 或 Anker PowerConf,設計為全方位收音。
- 講座:簡報者佩戴領夾式麥克風,或在講台上放置界面式麥克風。
房間和環境設置
一支 $50 的麥克風在聲學處理良好的房間裡,表現會優於在有混響空間中的 $500 麥克風。房間聲學就是這麼重要。
減少回音和混響
堅硬平坦的表面會反射聲波,產生讓語音模糊並混淆轉錄模型的混響。柔軟的材料會吸收聲音。實際的步驟包括:
- 關閉門窗以阻隔外部噪音
- 選擇小房間而非大房間,因為空氣體積越小混響越少
- 在有地毯、窗簾、書架或軟墊家具的房間錄音
- 如果你的房間聽起來有回音,在麥克風後方和兩側的牆上掛上搬家毛毯或厚窗簾
你不需要專業的吸音板。一間有裝滿衣服的衣櫃、鋪地毯的地板和窗簾的臥室是驚人有效的錄音環境。
降低背景噪音
轉錄模型在處理嘈雜音檔方面已經進步了,但預防永遠優於修正。錄音前:
- 如果可能,關閉風扇、空調和暖氣
- 關閉面向繁忙街道的窗戶
- 將手機靜音並關閉電腦的通知音效
- 如果在辦公室,選擇遠離走廊、廚房和開放式辦公區的房間
- 避免有嗡嗡作響電器的房間,如冰箱或伺服器機架
人腦擅長過濾穩定的背景噪音,所以你可能不會注意到暖通空調系統的嗡嗡聲。但你的麥克風會擷取一切。在實際錄音前戴上耳機聽一段測試錄音。
麥克風位置
與麥克風的距離比大多數人認為的更重要。反平方定律意味著嘴巴和麥克風之間的距離加倍,訊號水平大約降低 6 dB,而背景噪音保持不變。這顯著惡化了信噪比。
桌面麥克風的話,將其放在距離嘴巴 15-30 公分處,稍微偏軸以減少爆破音(「ㄆ」和「ㄅ」的刺耳噗聲)。防噴罩或防風罩能進一步幫助。領夾式麥克風的話,夾在下巴以下 15-20 公分的胸前位置。
重要的錄音設定
正確的技術設定確保你的錄音擷取完整的人聲細節而不引入數位雜訊。
取樣率
16 kHz 的取樣率是語音轉錄的最低要求,因為大多數 ASR 模型以此速率處理音檔。然而,以 44.1 kHz 或 48 kHz 錄製可以為後製處理留下空間,並確保與任何工具或平台的相容性。
以超過 48 kHz 錄製對轉錄沒有好處。更高的取樣率擷取與語音無關的超音波頻率,只會增加檔案大小。
位元深度
以 16 位元或 24 位元深度錄製。差異主要影響安靜的錄音:24 位元給你更寬的動態範圍,意味著安靜的語音以更少的量化噪音被擷取。如果你的錄音軟體支援,24 位元是安全的預設值。
單聲道 vs 立體聲
單一講者的錄音,單聲道就夠了且產生更小的檔案。多講者的錄音,立體聲或多聲道錄音(每位講者有自己的聲道)很有價值,因為它幫助分離演算法區分聲音。
如果你用單一麥克風錄製多位講者,單聲道是你唯一的選擇,這完全可以接受。分離的好處只在你有多支麥克風分別餵入不同聲道時才適用。
檔案格式
無損格式為轉錄保留最多細節:
- WAV 和 FLAC 是無損的,理想用於存檔和轉錄
- MP3 在 128 kbps 以上對轉錄可以接受,但會引入壓縮雜訊
- AAC/M4A(大多數手機使用的格式)在同等位元率下比 MP3 略好
- OGG/Opus 在較低位元率下提供出色的品質
如果你有儲存空間,以 WAV 或 FLAC 錄製,之後需要較小檔案時再轉換。如果儲存空間是考量,192 kbps 以上的 MP3 為準確轉錄保留了足夠的細節。
大多數轉錄工具,包括 Vocova,接受所有常見的音檔和影片格式,所以格式相容性很少是問題。問題在於你在錄音本身中保留了多少細節。
不同錄音場景的建議
會議
- 使用放在桌子中央的專用會議麥克風,而非依賴筆電麥克風
- 遠端會議時,請參與者使用耳機或耳塞而非筆電喇叭,因為喇叭造成的回音會降低所有人的轉錄品質
- 不說話時靜音,以減少來自個別參與者的串音和背景噪音
- 直接錄製會議軟體的音檔輸出,而非用室內麥克風對著喇叭錄,因為這能擷取最乾淨的訊號
訪談
- 盡可能為訪談者和受訪者使用獨立的麥克風
- 向受訪者簡要說明麥克風技巧:保持一致的距離、避免敲桌子、以自然的節奏說話
- 面對面訪談可選擇安靜、鋪有地毯且關上門的房間
- 電話或視訊通話訪談,通過軟體直接錄製通話而非將麥克風放在免持聽筒旁邊
講座和簡報
- 簡報者佩戴領夾式麥克風是最可靠的設置
- 如果使用講台麥克風,確保講者保持在收音範圍內且不會頻繁轉向
- 觀眾提問是出了名的難以擷取。考慮用手持麥克風傳遞給提問者,或讓簡報者在回答前重複每個問題
- 如果場地有音控台或混音器,從那裡錄製而非在觀眾席放麥克風
播客
- 為每位主持人和來賓投資個別麥克風
- 將每個聲音錄製到獨立軌道(多軌錄音)以便獨立調整音量
- 每支麥克風都使用防噴罩
- 遠端錄製時,讓每位參與者在本地錄製自己的音檔,並在後製中合併軌道。這避免了視訊通話編解碼器的壓縮雜訊
- Riverside.fm 或 Zencastr 等工具會自動處理遠端參與者的本地錄音
常見的錄音錯誤要避免
即使是有經驗的內容創作者也會犯這些錯誤。每一個都直接影響轉錄品質。
手機放在口袋或包包裡。 這是隨意錄音場景中最常見的錯誤。布料會抑制對區分子音至關重要的高頻,每次移動都會產生沙沙的噪音。如果你必須使用手機,將其放在穩定的表面上,麥克風朝向講者。
離麥克風太遠。 如前所述,距離是乾淨音檔的敵人。如果你在錄音中聽到房間回音或環境噪音與人聲競爭,你就太遠了。縮短距離。
增益設定太高。 當輸入增益太高時,大聲的時刻會造成削波——一種破壞波形的刺耳數位失真。被削波的音檔無法修復。設定你的增益使正常說話音量在音量表上大約在 -12 dB 到 -6 dB 之間,為更大聲的時刻留下空間。
增益設定太低。 反之,錄製太安靜意味著你之後要放大訊號,這同時也放大了底噪。瞄準 -12 dB 到 -6 dB 的最佳範圍。
透過藍牙錄音。 藍牙音訊編解碼器會顯著壓縮音檔,特別是通話時使用的免持通話模式。如果你在會議中使用藍牙耳機,傳送到錄音的音檔品質可能比你聽到的更低。有線連接在錄音方面永遠更可靠。
多位講者同時說話。 重疊語音是任何轉錄系統最困難的挑戰之一。在會議和訪談中,建立輪流發言的規範——即使是非正式的——可以大幅提升轉錄準確度。
不做測試錄音。 在實際錄音前花 30 秒錄製並播放。聽聽有沒有房間回音、背景嗡嗡聲、麥克風操作噪音和整體清晰度。在開始前就解決問題比在兩小時錄音後才發現容易得多。
錄音後:何時以及如何增強音檔
有時你接手的是你無法控制的錄音,或者一次錄音沒有按計畫進行。後製處理可以幫忙,但有其局限。
後製處理可以修復的
- 穩定的背景噪音(嗡嗡聲、嘶嘶聲、風扇噪音)可以通過噪音降低工具有效減少。Audacity 的 Noise Reduction 效果對此很有效,Adobe Podcast 的 Enhance Speech 功能也是。
- 音量太低 可以通過正規化或壓縮來修正,將安靜的語音提升到一致的水平。
- 輕微混響 可以通過去混響插件部分減少,但效果因情況而異。
後製處理無法修復的
- 被削波的音檔 是永久失真的,無法還原
- 嚴重的重疊語音 事後無法乾淨地分離
- 極低信噪比 的錄音(噪音比語音更大聲)通常無法恢復
- 嚴重的回音(來自免持聽筒或大房間)很難乾淨地移除
建議的工作流程
如果你有不太理想的錄音,在轉錄前嘗試以下步驟:
- 應用噪音降低以移除穩定的背景噪音
- 正規化音檔使整體水平達到 -3 dB 峰值
- 如果講者之間或段落之間音量變化很大,應用溫和的壓縮
- 匯出為 WAV 或 FLAC 並上傳到你的轉錄工具
像 Vocova 這樣的工具能處理各種音檔品質水準,並包含抗噪轉錄模型,但從盡可能乾淨的音檔開始永遠能得到最佳結果。
常見問題
轉錄的最佳音檔格式是什麼?
WAV 和 FLAC 是最好的格式,因為它們是無損的且保留完整的音檔細節。然而,192 kbps 以上的 MP3 在實際轉錄中表現良好。大多數 AI 轉錄工具接受所有常見格式,所以優先事項是以高位元率錄製,而非擔心特定的容器格式。
立體聲錄音會改善轉錄準確度嗎?
對於單一講者的錄音,立體聲相比單聲道沒有優勢。對於多講者的錄音,為每位講者使用獨立聲道可以顯著改善講者分離的準確度。如果你用單一麥克風錄製多人,單聲道 vs 立體聲的區別就不重要了。
AI 語音轉錄能處理嘈雜的錄音嗎?
現代 AI 模型比早期系統更具抗噪性,但噪音仍然會增加字錯誤率。輕微的背景噪音(安靜的辦公室、遠處的交通)通常能良好處理。嚴重噪音(大聲音樂、施工、擁擠的房間)會造成明顯的準確度下降。請參閱我們的轉錄嘈雜音檔指南了解具體策略。
麥克風應該離講者多近?
桌面麥克風理想距離是 15-30 公分。領夾式麥克風夾在下巴以下 15-20 公分處。麥克風離講者越近,信噪比越好。超過約 45 公分後,房間聲學開始主導錄音,轉錄準確度就會下降。
為了轉錄值得買昂貴的麥克風嗎?
不一定。一支 $50-100 的 USB 麥克風在安靜的房間中加上正確的擺放,就能產出轉錄品質的音檔。昂貴的麥克風在人聲豐富度和細節上提供微妙的改善,但這些差異對音樂製作和廣播比對語音轉文字的準確度更重要。在升級麥克風之前,先投資房間聲學處理和正確的技巧。
我應該在錄音時使用噪音消除嗎?
軟體噪音消除(如 Krisp 或 NVIDIA Broadcast)在嘈雜環境中可以有幫助,但要小心使用。激進的噪音消除可能引入雜訊、讓聲音聽起來像機器人,或削去子音。如果可能的話,在源頭減少噪音。如果你必須使用噪音消除,在錄音前測試並選擇中等設定。