단어 오류율(WER): 음성 인식 정확도를 측정하는 방법
음성 인식 정확도를 측정하는 표준 지표인 단어 오류율(WER)에 대해 알아보세요. WER의 계산 방법과 좋은 점수의 기준을 설명합니다.
단어 오류율(WER)은 자동 음성 인식(ASR) 시스템의 정확도를 측정하는 표준 지표입니다. 검증된 참조 전사본과 비교하여 대체, 삭제, 삽입을 통해 전사본에서 틀린 단어의 비율을 계산합니다.
음성 인식 서비스를 평가하거나, ASR 모델을 벤치마킹하거나, "95% 정확도"가 실제로 무엇을 의미하는지 이해하려 할 때 WER은 가장 중요한 수치입니다. 이 가이드에서는 WER의 작동 원리, 좋은 점수의 기준, 그리고 이 지표가 가진 장점과 중요한 한계에 대해 설명합니다.
단어 오류율이란?
단어 오류율은 음성 인식 시스템이 정답(ground-truth) 참조 전사본과 비교하여 얼마나 많은 단어를 틀렸는지 측정합니다. 백분율로 표시되며 낮을수록 정확도가 높습니다. WER 5%는 100단어 중 5단어에서 오류가 발생했다는 의미입니다.
WER 공식은 다음과 같습니다:
WER = (S + D + I) / N x 100%
각 항목의 의미:
- S (대체, Substitutions): 다른 단어로 대체된 단어입니다. 참조 전사본에서는 "cat"인데 인식 결과는 "cap"인 경우입니다.
- D (삭제, Deletions): 참조 전사본에는 있지만 인식 결과에서 누락된 단어입니다. 발화되었지만 전사되지 않은 단어입니다.
- I (삽입, Insertions): 참조 전사본에는 없지만 인식 결과에 추가된 단어입니다. 실제로 발화되지 않은 단어를 시스템이 추가한 것입니다.
- N: 참조 전사본의 총 단어 수입니다.
WER 0%는 전사본이 참조 전사본과 완벽하게 일치함을 의미합니다. WER 100%는 오류 수가 참조 전사본의 총 단어 수와 같다는 의미입니다. 시스템이 참조 전사본보다 더 많은 단어를 삽입하면 WER이 100%를 초과할 수도 있지만, 최신 시스템에서는 드문 경우입니다.
세 가지 오류 유형이 중요한 이유
각 오류 유형은 음성 인식에서 서로 다른 실패 모드를 반영합니다:
- 대체는 가장 흔한 오류 유형입니다. 음향 모델이 유사한 발음의 단어를 혼동하거나("their" vs. "there"), 언어 모델이 통계적으로 가능성이 높지만 틀린 단어를 선택하거나, 억양과 방언으로 인해 잘못 인식될 때 발생합니다.
- 삭제는 시스템이 단어를 완전히 누락할 때 발생합니다. 간투사("음", "어"), 빠른 발화, 화자 중첩, 또는 작은 음량 구간에서 흔히 발생합니다.
- 삽입은 시스템이 실제로 발화되지 않은 단어를 만들어낼 때 발생합니다. 배경 소음, 에코, 음악 등이 잘못된 단어 감지를 유발할 수 있습니다.
S, D, I 오류의 세부 분류를 이해하는 것은 종합 WER 수치만 보는 것보다 훨씬 유용합니다. 시스템이 어디서 실패하고 있으며 어떻게 결과를 개선할 수 있는지를 보여주기 때문입니다.
WER 계산 방법
WER 계산은 동적 프로그래밍을 사용하여 참조 전사본과 가설(시스템 출력) 사이의 최소 편집 거리를 찾습니다. 이는 문자열 편집 거리(레벤슈타인 거리)에 사용되는 것과 동일한 알고리즘을 단어 수준에서 적용한 것입니다.
다음은 단계별 예시입니다.
참조 전사본 (실제 발화 내용):
The quick brown fox jumps over the lazy dog
가설 전사본 (시스템 출력 결과):
The quik brown fox jump over a lazy dock
1단계: 전사본을 단어별로 정렬합니다.
| 참조 | The | quick | brown | fox | jumps | over | the | lazy | dog |
|---|---|---|---|---|---|---|---|---|---|
| 가설 | The | quik | brown | fox | jump | over | a | lazy | dock |
| 오류 유형 | -- | S | -- | -- | S | -- | S | -- | S |
2단계: 각 오류 유형을 셉니다.
- 대체 (S): 4개 ("quick" -> "quik", "jumps" -> "jump", "the" -> "a", "dog" -> "dock")
- 삭제 (D): 0개 (누락된 단어 없음)
- 삽입 (I): 0개 (추가된 단어 없음)
3단계: 공식을 적용합니다.
WER = (4 + 0 + 0) / 9 x 100% = 44.4%
참조 전사본의 총 단어 수(N)는 9개입니다. 대체 오류 4개로 WER은 44.4%입니다.
더 복잡한 예시
세 가지 오류 유형이 모두 포함된 경우를 살펴보겠습니다.
참조: "She sells sea shells by the seashore"
가설: "She sell sea shells on seashore today"
정렬:
| 참조 | She | sells | sea | shells | by | the | seashore | -- |
|---|---|---|---|---|---|---|---|---|
| 가설 | She | sell | sea | shells | on | -- | seashore | today |
| 오류 유형 | -- | S | -- | -- | S | D | -- | I |
- S = 2 ("sells" -> "sell", "by" -> "on")
- D = 1 ("the"가 삭제됨)
- I = 1 ("today"가 삽입됨)
- N = 7
WER = (2 + 1 + 1) / 7 x 100% = 57.1%
실제로는 정렬 단계가 알고리즘으로 계산됩니다. 삽입과 삭제가 많은 긴 전사본을 수동으로 정렬하면 오류가 발생하기 쉽기 때문입니다. NIST의 sclite나 Python의 jiwer 라이브러리 같은 연구 도구가 이 과정을 자동화합니다.
좋은 WER 점수란?
WER 벤치마크는 오디오 품질, 도메인, 화자 수, 언어에 따라 크게 달라집니다. 다음은 영어 전사에 대한 일반적인 가이드입니다.
| WER 범위 | 품질 수준 | 일반적인 상황 |
|---|---|---|
| 5% 미만 | 우수 | 스튜디오 품질 오디오, 단일 화자, 명확한 발화, 일반 어휘 |
| 5% -- 10% | 양호 | 전문 녹음, 조용한 회의실, 좋은 마이크를 사용한 인터뷰 |
| 10% -- 15% | 수용 가능 | 컨퍼런스 콜, 웨비나, 중간 수준의 배경 소음 |
| 15% -- 20% | 보통 | 시끄러운 환경, 억양이 강한 발화, 여러 화자의 발화 중첩 |
| 20% 이상 | 열악 | 매우 시끄러운 오디오, 강한 억양, 열악한 마이크 품질, 원거리 발화 |
참고로, 전문 인력 전사자는 좋은 조건에서 보통 4% -- 6%의 WER을 달성합니다. 최근 몇 년간 인간과 기계의 성능 차이가 급격히 줄어들었으며, 최고의 AI 시스템은 깨끗한 오디오에서 인간 수준의 정확도에 근접하거나 이를 달성하고 있습니다.
필요한 품질 수준은 사용 목적에 따라 다릅니다. 참여자가 맥락을 채울 수 있는 회의록에는 10% WER이 충분히 수용 가능할 수 있지만, 모든 단어가 중요한 법적 증언이나 의료 전사본에는 부족할 것입니다.
최신 AI의 WER 벤치마크
최신 자동 음성 인식 시스템은 2020년 이후 크게 개선되었습니다. 다음은 표준 영어 벤치마크에서 잘 알려진 ASR 시스템의 대략적인 WER 수치입니다.
| 시스템 | 대략적인 WER (깨끗한 음성) | 비고 |
|---|---|---|
| OpenAI Whisper (large-v3) | 3% -- 5% | 오픈소스, 다국어, 다양한 억양에 강함 |
| Google Cloud Speech-to-Text (v2) | 4% -- 6% | 클라우드 API, 실시간 및 배치 전사 지원 |
| AWS Amazon Transcribe | 5% -- 8% | 클라우드 API, 화자 분리 포함 |
| Microsoft Azure Speech | 4% -- 7% | 클라우드 API, 맞춤형 언어 모델 |
| Deepgram Nova-2 | 3% -- 5% | 속도와 정확도에 최적화 |
| Meta MMS | 5% -- 10% | 오픈소스, 1,100개 이상 언어 지원 |
이 수치는 대략적이며 공개된 벤치마크, 연구 논문, 독립적인 평가에서 가져온 것입니다. 실제 성능은 오디오 조건, 도메인 어휘, 억양, 언어에 따라 크게 달라집니다. 깨끗한 TED 강연에서 4% WER을 달성하는 시스템이 시끄러운 전화 통화에서는 15% 이상의 WER을 보일 수 있습니다.
또한 벤더들이 신중하게 선정한 벤치마크에서의 WER을 보고하는 경우가 많다는 점도 주목할 필요가 있습니다. 배경 소음, 발화 중첩, 도메인 특화 전문 용어, 다양한 녹음 장비가 있는 실제 환경에서의 성능은 보통 공개된 수치보다 높습니다. 음성 인식 서비스를 평가할 때는 벤치마크 수치에만 의존하지 말고 실제 사용할 오디오로 직접 테스트하는 것이 좋습니다.
WER의 한계
WER은 유용하지만 완벽하지 않은 지표입니다. WER의 한계를 이해하면 정확도 주장을 더 비판적으로 해석하는 데 도움이 됩니다.
WER은 의미적 정확성을 무시합니다
WER은 모든 단어 오류를 동일하게 취급합니다. "I need to book a flight"를 "I need to cook a flight"로 전사하면 대체 오류 1개로 계산되는데, "I need to book a fright"로 전사한 경우와 동일한 점수입니다. 하지만 첫 번째 오류가 의미 전달에 더 큰 영향을 미칩니다. WER은 오류가 이해도를 얼마나 손상시키는지에 대한 개념이 없습니다.
구두점과 대소문자는 제외됩니다
표준 WER 평가는 비교 전에 구두점을 제거하고 대소문자를 정규화합니다. 이는 단어는 완벽하지만 마침표, 쉼표, 물음표가 없는 전사본이 읽기 어려움에도 불구하고 WER 0%를 기록할 수 있음을 의미합니다. 반대로, 구두점이 정확하지만 단어 오류가 있는 전사본은 온전히 불이익을 받습니다.
서식과 구조는 반영되지 않습니다
WER은 문단 나눔, 화자 레이블, 타임스탬프, 기타 구조적 서식을 고려하지 않습니다. 텍스트는 동일하지만 가독성이 크게 다른 두 전사본(하나는 텍스트 덩어리이고 다른 하나는 화자별로 적절히 분리된 것)은 동일한 WER 점수를 받습니다. 구조가 중요한 회의 전사본 같은 사용 사례에서는 WER만으로는 충분하지 않습니다.
짧은 발화는 WER을 부풀립니다
WER은 비율이므로 짧은 구문은 변동이 큰 점수를 만듭니다. 참조 전사본이 "Yes, absolutely"(2단어)이고 시스템이 "Yes, definitely"를 출력하면, 단일 대체 오류로 50% WER이 됩니다. 동일한 유형의 오류가 200단어 구간에서 발생하면 WER에 0.5%만 기여합니다. 이 때문에 짧은 형식의 전사 작업 평가에서는 WER의 의미가 떨어집니다.
정규화 차이가 불일치를 유발합니다
WER 계산 전에 텍스트를 어떻게 정규화하느냐에 따라 결과가 달라집니다. "Dr."와 "Doctor"를 같은 것으로 처리해야 할까요? "100"과 "one hundred"는 어떨까요? 서로 다른 평가 파이프라인이 서로 다른 정규화 방식을 선택하므로, 다른 출처의 WER 수치를 항상 직접 비교할 수 있는 것은 아닙니다.
기타 정확도 지표
연구자와 실무자들은 WER의 한계를 보완하기 위해 여러 대안적이고 보완적인 지표를 개발했습니다.
문자 오류율(CER)
CER은 단어 수준이 아닌 문자 수준에서 동일한 대체/삭제/삽입 공식을 적용합니다. CER은 명확한 단어 경계가 없는 언어(예: 중국어, 일본어, 태국어)와 오류의 심각도를 평가하는 데 특히 유용합니다. "cat"을 "car"로 대체하면 WER에서는 1개 오류이지만 CER에서는 1개 문자 오류에 불과합니다. 반면 "cat"을 "elephant"로 대체하면 WER에서는 여전히 1개 오류이지만 CER에서는 다수의 문자 오류가 됩니다.
CER = (Sc + Dc + Ic) / Nc x 100%
여기서 Sc, Dc, Ic는 문자 수준의 대체, 삭제, 삽입이며, Nc는 참조 전사본의 총 문자 수입니다.
매치 오류율(MER)
MER은 참조 길이만이 아닌 총 매치 수를 고려하여 WER 공식을 조정합니다. 가설과 참조의 길이가 크게 다를 때 더 균형 잡힌 정확도 관점을 제공합니다.
MER = (S + D + I) / (S + D + C) x 100%
여기서 C는 정확하게 일치하는 단어의 수입니다.
단어 정보 손실(WIL)
WIL은 전사 과정에서 얼마나 많은 정보가 손실되었는지 측정합니다. 오류에 초점을 맞추는 WER과 달리, WIL은 정밀도(가설에서 올바른 부분의 비율)와 재현율(참조에서 포착된 부분의 비율)을 모두 고려합니다. WIL은 0(완벽)에서 1(완전한 정보 손실) 사이의 범위를 가집니다.
의미적 거리 지표
최신 평가 방법은 정확한 단어 매칭 대신 언어 모델을 사용하여 참조 전사본과 가설 전사본 간의 의미적 유사도를 측정합니다. 이러한 지표는 정확한 단어가 다르더라도 의미가 보존되었는지 더 잘 포착합니다. 이 분야의 연구가 활발하지만 아직 표준화되지 않은 지표입니다.
전사 WER을 개선하는 방법
AI 전사든 인력 전사든, 오디오 품질이 정확도에 영향을 미치는 가장 큰 단일 요소입니다. 다음은 WER을 개선하기 위한 실용적인 단계입니다.
좋은 마이크로 녹음하세요
노트북 내장 마이크 대신 전용 마이크를 사용하세요. 단독 녹음의 경우, 화자로부터 15~30cm 거리에 위치한 USB 콘덴서 마이크가 방 건너편의 웹캠 마이크보다 훨씬 좋은 결과를 제공합니다. 회의의 경우, 빔포밍 마이크가 장착된 회의용 스피커폰이 모든 참여자의 인식 정확도를 향상시킵니다.
배경 소음을 최소화하세요
가능하면 조용한 환경에서 녹음하세요. 창문을 닫고, 선풍기와 에어컨을 끄고, 주변에 음악이나 대화가 있는 장소를 피하세요. 소음에 강한 최신 ASR 모델도 깨끗한 오디오에서 측정 가능한 수준으로 더 좋은 성능을 보입니다. 불가피한 소음을 처리하는 팁은 시끄러운 오디오 전사 가이드를 참고하세요.
명확하고 적당한 속도로 말하세요
빠른 발화, 웅얼거림, 문장 끝에서 흐지부지 말하는 것 모두 WER을 높입니다. 전사될 콘텐츠를 녹음할 때는 일정한 속도를 유지하고 명확하게 발음하세요. 비자연스럽게 느리게 말할 필요는 없습니다. 중요한 부분에서 급하게 말하는 것만 피하면 됩니다.
높은 오디오 비트레이트를 사용하세요
음성의 경우 128 kbps 이상으로 오디오를 압축하세요. 과도하게 압축된 오디오(64 kbps 이하)는 ASR 시스템이 정확한 인식에 의존하는 음향 세부 정보를 손실합니다. 전사 목적으로 특별히 녹음하는 경우, 256 kbps 또는 무손실 포맷이 가장 유용한 신호를 보존합니다.
발화 중첩을 피하세요
여러 사람이 동시에 말할 때, 최고의 화자 분리 시스템도 두 화자를 정확하게 분리하고 전사하는 데 어려움을 겪습니다. 회의와 인터뷰에서는 발언 순서를 정하세요. 중첩이 불가피한 경우, 각 화자에게 개별 마이크를 사용하면 결과가 크게 향상됩니다.
적합한 전사 도구를 선택하세요
ASR 시스템마다 강점이 다릅니다. 억양이 있는 발화를 더 잘 처리하는 시스템, 도메인별 어휘에 강한 시스템, 시끄러운 환경에 최적화된 시스템 등이 있습니다. Vocova는 100개 이상의 언어를 지원하며 자동 언어 감지와 화자 분리 기능을 제공하여 다양한 녹음 조건에서도 정확도를 유지하는 데 도움을 줍니다. 워크플로에 도입하기 전에 실제 사용할 오디오 유형으로 서비스를 테스트하는 것이 항상 좋습니다.
맥락을 활용해 후처리하세요
전사 후에는 원본 오디오와 함께 출력을 검토하세요. 도메인별 용어, 고유명사, 약어가 가장 흔한 오류 범주입니다. 많은 전사 도구에서 전사본을 직접 편집할 수 있으며, 일부는 알려진 용어에 대한 오류를 줄이는 맞춤 어휘 목록을 지원합니다.
자주 묻는 질문
좋은 단어 오류율은 어느 정도인가요?
5% 미만의 WER은 우수한 것으로 간주되며 전문 인력 전사 품질에 비견됩니다. 대부분의 비즈니스 용도(회의록, 인터뷰 전사본, 콘텐츠 제작)에서 5% ~ 10% 사이의 WER은 양호한 것으로 간주되며 최소한의 편집만으로 사용 가능한 전사본을 만들어냅니다.
WER이 100%를 초과할 수 있나요?
예. 삽입은 오류 수에는 추가되지만 참조 단어 수(N)에는 추가되지 않으므로, 시스템이 많은 추가 단어를 생성하면 100% WER을 초과할 수 있습니다. 예를 들어, 참조가 10단어이고 시스템이 수많은 오류와 함께 25단어를 출력하면 (S + D + I) / N 계산이 1.0을 초과하는 값을 생성할 수 있습니다. 최신 시스템에서는 드물지만 수학적으로 가능합니다.
WER과 정확도의 차이는 무엇인가요?
정확도는 때때로 (1 - WER)로 보고됩니다. WER 8%는 92% 정확도에 해당합니다. 하지만 "정확도"는 마케팅에서 느슨하게 사용되며 다른 평가 방법론을 지칭할 수 있습니다. 음성 인식 서비스 제공업체의 정확도 주장을 볼 때는 항상 어떤 지표가 사용되었고 평가가 어떻게 수행되었는지 확인하세요.
왜 서로 다른 ASR 시스템이 같은 오디오에 대해 다른 WER을 보고하나요?
WER은 평가 데이터셋, 텍스트 정규화 파이프라인, 채점 방법론에 따라 달라집니다. 한 벤더는 채점 전에 "Dr. Smith"를 "doctor smith"로 정규화할 수 있고 다른 벤더는 그대로 두기도 합니다. 한 벤더는 깨끗한 낭독 음성에서 평가하고 다른 벤더는 대화체 오디오에서 평가할 수 있습니다. 이러한 방법론적 차이로 인해 동일한 평가 프로토콜을 사용하지 않는 한 직접 비교가 어렵습니다.
WER은 구두점 오류를 고려하나요?
아니요. 표준 WER 평가는 정렬과 채점 전에 모든 구두점을 제거합니다. 단어는 완벽하지만 구두점이 전혀 없는 전사본이라도 WER 0%를 달성합니다. 구두점 정확도는 별도의 평가 지표가 필요하며, 이러한 지표는 WER만큼 표준화되어 있지 않습니다.
내 전사본의 WER을 어떻게 계산하나요?
가장 접근하기 쉬운 도구는 Python의 jiwer 라이브러리입니다. pip install jiwer로 설치한 후 몇 줄의 코드로 WER을 계산할 수 있습니다:
from jiwer import wer
reference = "the quick brown fox jumps over the lazy dog"
hypothesis = "the quik brown fox jump over a lazy dock"
error_rate = wer(reference, hypothesis)
print(f"WER: {error_rate:.1%}") # Output: WER: 44.4%
긴 전사본의 경우, 비교할 검증된 참조 전사본이 필요합니다. 이는 보통 전문 전사자가 해당 오디오의 정답 버전을 제작하는 것을 의미합니다.