2026년 무료 음성 텍스트 변환 도구 11종 테스트 — 한도, 정확도, 포맷 비교
2026년 5개 언어로 무료 음성 텍스트 변환 도구 11종을 테스트했습니다. 일별·월별 한도, 실제 WER 정확도, 지원 포맷(SRT, VTT, TXT, DOCX), 가입 없이 사용 가능한 도구를 비교합니다.
최종 검증일 2026-04-27. 경쟁 서비스의 플랜 한도는 해당 시점의 각 제공사 가격 페이지 또는 도움말 페이지에서 확인했습니다 — 문서 끝 「출처 및 추가 자료」를 참고하세요. AI 음성 텍스트 변환 제품은 플랜이 자주 바뀌므로, 특정 수치에 의존하기 전에 출처 링크를 다시 확인하시기 바랍니다.
최고의 무료 음성 텍스트 변환 도구는 작업의 종류에 따라 달라집니다. 짧은 오디오나 비디오 파일이라면, 별도 설정 없이 업로드 후 텍스트로 내보낼 수 있는 웹 도구를 사용하세요. 온라인 영상이라면, 영상을 먼저 다운로드할 필요 없이 공개 URL을 그대로 가져올 수 있는 도구가 좋습니다. 자막이 목적이라면, 무료 플랜에서 SRT 또는 VTT를 만들 수 있는지 확인하세요. 다국어 작업이라면, 변환 가능한 언어 수와 번역 내보내기 가능 여부를 모두 살펴봐야 합니다 — 많은 「무료」 도구가 영어만 지원하거나, 내보내기를 유료 플랜에 가둬 두기 때문입니다.
실용적인 짧은 추천 목록입니다.
- 종합 추천 무료 음성 텍스트 변환 도구: Vocova — 특히 오디오, 비디오, URL 가져오기, 100개 이상의 음성 변환 언어, 그리고 더 큰 파일에 대한 명확한 업그레이드 경로가 필요할 때.
- 회원 가입 없이 쓰는 무제한 변환기: Riverside — 지원되는 업로드에서 빠르게 TXT나 SRT만 필요한 경우.
- 기술 사용자를 위한 무료 옵션: OpenAI Whisper — 로컬 커맨드라인 워크플로가 익숙한 경우.
- 무료 회의 녹음 도구: Otter.ai — 회의가 짧고 Basic 한도가 워크플로에 맞는 경우.
- 빠른 폰 녹음 도구: Google Recorder — Pixel 폰을 사용하는 경우.
빠른 비교
| 도구 | 최적 무료 사용처 | 확인할 무료 한도 | 언어 | URL 가져오기 | 무료 내보내기 | 유료 업그레이드 압력 |
|---|---|---|---|---|---|---|
| Vocova | 오디오/비디오 파일, 온라인 영상, 다국어 트랜스크립트 | 30분, 저장 3개 트랜스크립트, 30 MB 파일 | 100개 이상의 음성 변환 언어 | 예 — YouTube, Bilibili, SoundCloud, Dailymotion, 클라우드 드라이브 등 공개 링크 지원 | TXT | 화자 레이블, 번역, PDF, DOCX, SRT, VTT, CSV, 더 큰 파일, 일괄 처리는 Plus / Pro에서 시작 |
| Riverside | 빠른 업로드 → 트랜스크립트 작업 | 무료 변환기는 넉넉하지만, 더 넓은 스튜디오에는 플랜 한도가 있음 | 100개 이상 | 일반적인 URL 가져오기 워크플로 없음 | TXT, SRT | 녹음, 편집, 팀, 스튜디오 워크플로 |
| OpenAI Whisper | 완전한 통제권을 가진 로컬 변환 | 서비스 한도는 없으나, 하드웨어와 설정은 직접 준비 | 다국어 — 잘 지원되는 언어에서 가장 강력 | 없음 | 로컬 도구를 통한 TXT, SRT, VTT, JSON | 호스팅 래퍼를 쓰지 않는 한 없음 |
| Otter.ai | 짧은 영어 중심 회의와 라이브 노트 | 월 300분, 변환당 30분, 평생 파일 가져오기 3회 | 회의 중심의 언어 커버리지 | 일반 공개 영상 URL 가져오기 없음 | 기본 트랜스크립트 접근 | 더 긴 파일, 더 많은 가져오기, 팀 기능, 내보내기 워크플로 |
| Notta | 회의 변환 인터페이스 테스트 | 월 120분, 대화당 3분, 월 50회 파일 업로드 | 다국어 회의 지원 | 일부 통합과 업로드 흐름 | Free에서는 내보내기 제한 | 내보내기, 번역, 더 긴 녹음, 더 큰 할당량 |
| Google Recorder | 기기 내 폰 녹음 | Pixel 전용, 라이브 녹음 우선 | 언어 목록은 기기와 지역에 따라 다름 | 없음 | TXT / Google Docs 스타일 워크플로 | 기기 생태계 — 변환 구독 모델 아님 |
| Happy Scribe | 전문 트랜스크립트/자막 편집기 체험 | 10분 AI 트라이얼 | 120개 이상 서비스 커버리지 | 공개 링크/업로드 워크플로 | 트라이얼 한정 | 지속적인 AI 음성 변환, 자막, 번역, 사람이 작업하는 서비스 |
1. Vocova
Vocova는 「무료 음성 텍스트 변환」 요구가 단순히 로컬 MP3 한 개에 그치지 않을 때 가장 잘 맞습니다. 오디오 파일, 비디오 파일, 그리고 공개 URL까지 처리하는데, 이것이 중요한 이유는 실제 작업의 출발점이 링크인 경우가 많기 때문입니다 — YouTube 인터뷰, Bilibili 강의, SoundCloud 에피소드, Dailymotion 영상, Google Drive 녹음, 또는 팟캐스트 URL.
Free 플랜에서는 본인의 자료로 워크플로를 테스트할 수 있는 시작용 30분 변환을 제공합니다. 타임스탬프, 요약, 트랜스크립트 편집, TXT 내보내기가 포함되어 있어, 결제 전에 정확도, 언어 감지, 그리고 트랜스크립트가 실제로 유용한지를 평가하기에 충분합니다.
적합한 용도: 짧은 오디오/비디오 변환, 다국어 테스트, URL 가져오기.
Free 플랜 세부:
- 시작용 30분 변환
- 저장 3개 트랜스크립트
- 파일 최대 30 MB (일반적인 오디오 약 5–10분, 또는 짧은 영상 클립 분량)
- 100개 이상의 음성 변환 언어, 자동 감지 지원
- TXT 내보내기
- 업로드 또는 공개 URL 붙여넣기
Plus / Pro가 필요한 지점: 실무에서 무료 사용자가 결제 벽에 부딪히는 가장 흔한 이유는 분(minutes)이 아니라 파일 크기입니다 — 1시간짜리 인터뷰, 팟캐스트 에피소드, 녹화된 웨비나, 긴 강의는 거의 항상 30 MB를 넘습니다. Plus는 **월 $15 또는 연 $90 (연간 결제 시 월 $7.50)**이며, 월 1,800 변환 분, 5 GB까지의 파일, 모든 내보내기 형식 (TXT, PDF, DOCX, SRT, VTT, CSV), 화자 식별, 140개 이상의 대상 언어로의 번역, 이중 언어 출력, 그리고 최대 20 파일의 일괄 업로드를 잠금 해제합니다. Pro는 월 $39, 연 $228, 또는 lifetime $399이며, 동일한 유료 워크플로 기능에 무제한 변환을 더해 더 많은 작업량에 대응합니다.
파일 작업은 audio to text, 비디오 업로드는 video to text, 이미 온라인에 있는 자료라면 transcribe online media by link에서 시작하세요. 플랫폼별 가이드는 how to transcribe Bilibili videos와 how to transcribe audio in multiple languages를 참고하세요.
2. Riverside
Riverside는 기본적으로 녹음과 편집 플랫폼이지만, 무료 AI 변환기는 지원되는 업로드에서 빠르게 트랜스크립트를 얻을 때 유용합니다. Riverside는 무료 변환기가 100개 이상의 언어를 지원하고, 사용량 제한 없이 사용 가능하며, TXT 또는 SRT 파일로 다운로드할 수 있다고 안내합니다. 전체 워크플로를 구축하지 않고도 빠른 트랜스크립트나 자막 파일이 필요한 크리에이터에게 좋은 선택입니다.
적합한 용도: 지원되는 오디오/비디오 업로드에서 빠른 TXT 또는 SRT 출력.
Free 플랜 세부:
- 무료 AI 변환기
- 100개 이상의 언어
- TXT 및 SRT 다운로드
- 팟캐스트, 인터뷰, 웨비나, 영상 콘텐츠에 적합
한계: 출발점이 다운로드를 원치 않는 공개 플랫폼 URL이라면 Riverside는 가장 깔끔한 선택은 아닙니다. 또한 더 넓은 녹음·편집 플랫폼에 자체 플랜 구조가 있으므로, 변환기와 스튜디오 제품이라는 두 측면에서 모두 평가하시기 바랍니다.
3. OpenAI Whisper
Whisper는 파이프라인 전체를 통제하고 싶은 기술 사용자에게 최고의 무료 음성 텍스트 변환 옵션입니다. 오픈소스이며 로컬에서 실행 가능하고, 커맨드라인 도구를 통해 텍스트와 자막 출력을 만들 수 있습니다. 외부 웹 앱에 업로드하지 않고 비공개 파일을 변환할 수 있어, 민감한 녹음 자료에 가치가 큽니다.
적합한 용도: 개발자, 연구자, 로컬 환경 설정에 익숙한 사용자.
Free 플랜 세부:
- 오픈소스 모델과 코드
- 직접 실행하는 경우 로컬 처리
- 다국어 음성 인식과 영어로의 번역 기능
- 래퍼에 따라 TXT, SRT, VTT, JSON 등 일반적인 출력 지원
한계: Whisper는 그 자체로는 다듬어진 제품이 아닙니다. 의존성을 설치하고, 모델 크기를 관리하고, 긴 파일을 처리하고, 자체 편집/내보내기 워크플로를 구축해야 합니다. 또한 기본적으로 화자 레이블을 제공하지 않습니다. 기술 사용자가 아니라면, 호스팅형 변환 제품이 보통 더 빠릅니다.
4. Otter.ai
Otter.ai는 짧은 회의에 강한 무료 선택지이며, 라이브 노트와 익숙한 회의 어시스턴트 워크플로가 필요할 때 특히 좋습니다. Basic 무료 플랜은 월 300 변환 분을 제공하지만, 변환 한 건당 30분으로 제한되고, 파일 가져오기는 계정당 3회로 제한됩니다.
적합한 용도: 짧은 회의와 라이브 노트 작성.
Free 플랜 세부:
- 월 300 변환 분
- 변환당 30분 제한
- 평생 오디오/비디오 파일 가져오기 3회
- 회의 중심의 트랜스크립트 경험
한계: 핵심 함정은 파일 가져오기 한도입니다. 실제 사용 사례가 업로드 녹음, 온라인 영상, 팟캐스트 파일, 긴 인터뷰의 변환이라면 무료 플랜은 금방 소진될 수 있습니다. Otter는 일반 미디어 변환 도구가 아니라 회의 어시스턴트로 사용할 때 가장 강합니다.
더 자세한 비교는 Otter.ai vs Vocova를 참고하세요.
5. Notta
Notta도 회의 중심의 음성 텍스트 변환 도구입니다. 무료 플랜은 인터페이스를 시험하기에는 유용하지만, 실용적 한도는 빡빡합니다 — 월 120 변환 분, 대화당 최대 3분, 월 50회 파일 업로드. 실제 장시간 작업보다는 평가용에 더 적합합니다.
적합한 용도: 업그레이드 전에 회의 변환 인터페이스를 테스트.
Free 플랜 세부:
- 월 120 변환 분
- 대화당 최대 3분
- 월 50회 파일 업로드
- 회의 통합과 화자 식별
한계: 대화당 3분 제한은 대부분의 인터뷰, 강의, 팟캐스트, 고객 통화에는 너무 짧습니다. 내보내기와 번역도 유료 워크플로에 속해 있어, 무료 플랜은 지속 가능한 변환 환경이라기보다 샘플러에 가깝습니다.
6. Google Recorder
Google Recorder는 워크플로가 Pixel 폰에서 시작될 때 훌륭합니다. 기기에서 녹음과 변환을 동시에 수행하고, 녹음을 검색할 수 있으며, 기기와 지역에 따라 점차 늘어나는 음성 변환 언어 목록을 지원합니다.
적합한 용도: Pixel 기기에서의 빠른 폰 녹음.
Free 플랜 세부:
- 지원되는 Pixel 폰에서 무료
- 라이브 녹음 및 변환
- 검색 가능한 녹음
- Google 생태계를 통한 내보내기/공유 워크플로
한계: 일반적인 웹 음성 텍스트 변환 도구는 아닙니다. Bilibili, YouTube, SoundCloud, Drive URL을 붙여넣을 수 없습니다. 또한 자막 내보내기, 화자 레이블, 번역, 일괄 처리를 갖춘 트랜스크립트 편집기를 직접 대체하지도 않습니다.
7. Happy Scribe
Happy Scribe는 AI, 번역, 사람이 작업하는 서비스를 갖춘 잘 다듬어진 트랜스크립트·자막 편집기입니다. 무료 플랜은 트라이얼로 이해하는 것이 가장 정확합니다 — AI 음성 변환, 자막, 번역에 대한 10분 무료 트라이얼이 포함됩니다.
적합한 용도: 전문 트랜스크립트/자막 편집기 체험.
Free 플랜 세부:
- 10분 AI 트라이얼
- AI 음성 변환, 자막, 번역 트라이얼 접근
- 트랜스크립트 정리와 자막에 맞춘 편집기
한계: 10분은 품질을 시험하기에는 충분하지만 지속적인 무료 워크플로로는 부족합니다. 정기적인 변환 수요가 있다면 유료 플랜으로 이동해야 합니다.
자세한 제품 비교는 Happy Scribe vs Vocova를 참고하세요.
사용 사례별 최적 무료 도구
| 사용 사례 | 시작 지점 | 이유 |
|---|---|---|
| 짧은 오디오 파일을 텍스트로 | Vocova audio to text | 간편한 웹 업로드, 100개 이상 언어, Free에서 TXT 내보내기 |
| 짧은 비디오 파일을 텍스트로 | Vocova video to text | 비디오 파일을 처리하고 동일한 트랜스크립트 편집기로 연결 |
| 온라인 영상 트랜스크립트 | Vocova link import | 다운로드 후 업로드 우회 |
| Bilibili 트랜스크립트 | Transcribe Bilibili | Bilibili URL 전용 흐름 |
| SoundCloud 트랜스크립트 | Transcribe SoundCloud | 공개 SoundCloud 링크에 맞춰 설계 |
| 트랜스크립트로부터 자막 파일 | SRT generator 또는 VTT generator | 영상 플랫폼·편집기를 위한 자막 형식 생성 |
| 다국어 음성 텍스트 변환 | Vocova audio to text | 100개 이상 언어에서 자동 감지 |
| 변환 후 번역 | Translate audio | Plus / Pro에서 트랜스크립트 출력을 140개 이상의 대상 언어로 번역 |
| 로컬/오프라인 기술 워크플로 | Whisper | 호스팅 서비스 불필요 |
| Pixel 폰 음성 메모 | Google Recorder | 녹음이 Pixel에서 시작되는 경우 가장 빠른 경로 |
시간 낭비 없이 선택하는 법
다음 결정 규칙을 사용하세요.
- 출처가 이미 온라인에 있다면, 업로드 전용 도구는 피하세요. 공개 URL 붙여넣기를 받는 워크플로를 선택합니다.
- 자막이 필요하다면, 시작 전에 SRT/VTT 내보내기를 확인하세요. 많은 도구가 캡션을 화면에 표시할 수는 있지만 자막 내보내기는 막아 두고 있습니다.
- 번역이 필요하다면, 번역이 포함되어 있는지, 아니면 결제 벽 뒤에 있는지 확인하세요. 음성 텍스트 변환과 번역은 별도 가격으로 책정되는 경우가 많습니다.
- 파일이 30분을 넘는다면, 실제 한도를 읽어보세요. 무료 플랜은 파일당 길이, 파일 가져오기, 내보내기 한도에 부딪히기 전까지는 풍부해 보일 수 있습니다.
- 프라이버시가 최우선이고 기술적이라면, 로컬 모델을 사용하세요. 직접 실행할 수 있다면 Whisper가 가장 유연한 무료 옵션입니다.
무료 음성 변환 플랜이 헷갈리는 이유
「무료 음성 텍스트 변환」이라는 표현은 여러 가지를 의미할 수 있습니다.
- 지속적으로 사용 가능한 진짜 무료 등급.
- 1회성 트라이얼.
- 무제한 변환이지만 쓸모 있는 내보내기는 없음.
- 분(minutes)은 많지만 파일당 한도가 짧음.
- 라이브 회의 변환만 가능, 업로드 파일은 불가.
- 업로드만 지원, URL 가져오기 없음.
- 트랜스크립트 보기는 포함되지만 SRT/VTT/PDF/DOCX 내보내기는 결제 벽 뒤.
그래서 위 표는 분, 파일 한도, URL 가져오기, 언어 지원, 내보내기를 분리해 놓은 것입니다. 가장 중요한 질문은 「무료인가?」가 아니라 「무료 플랜에서 내가 실제 작업을 끝낼 수 있는가?」입니다.
자주 묻는 질문
2026년 최고의 무료 음성 텍스트 변환 도구는 무엇인가요?
대부분의 사용자에게 Vocova가 가장 균형 잡힌 시작 지점입니다 — 오디오 파일, 비디오 파일, 공개 URL 가져오기, 100개 이상의 음성 변환 언어, 무료 플랜에서의 TXT 내보내기를 모두 다루기 때문입니다. Riverside는 빠른 무료 TXT/SRT 변환에 강하고, Whisper는 로컬에서의 통제권을 원하고 기술 설정을 감당할 수 있다면 최고입니다.
비디오를 텍스트로 변환하는 데 가장 좋은 무료 도구는 무엇인가요?
비디오 업로드와 온라인 영상 가져오기를 모두 지원하는 도구를 사용하세요. 영상이 이미 YouTube, Bilibili, SoundCloud, Dailymotion 또는 클라우드 드라이브에 있다면, 다운로드 후 다시 업로드하는 것보다 URL 가져오기 워크플로가 더 빠릅니다. 로컬 파일은 video to text에서 시작하고, 공개 플랫폼 링크는 transcribe Bilibili, transcribe SoundCloud, transcribe Dailymotion을 사용하세요.
영어 외의 언어도 무료로 변환할 수 있나요?
네. Vocova는 무료 플랜에서 자동 감지로 100개 이상 언어의 변환을 지원합니다. Riverside도 무료 변환기에서 100개 이상의 언어를 안내합니다. Whisper는 직접 실행한다면 다국어 음성 인식을 지원합니다. 회의 도구는 언어 지원 폭이 좁거나 플랜별 한도가 있을 수 있으니, 실제 사용할 언어와 억양으로 항상 시험해 보세요. 정확도는 언어에 따라 차이가 있습니다 — WER 등급 분류는 transcription accuracy by language를, 다국어 워크플로는 how to transcribe audio in multiple languages를 참고하세요.
무료 음성 변환 도구로 자막을 만들 수 있나요?
일부는 가능합니다. Riverside는 무료 변환기에서 TXT와 SRT 다운로드를 제공합니다. Whisper는 로컬 도구를 통해 SRT/VTT를 만들 수 있습니다. Vocova는 Free에서 TXT 내보내기를 포함하며, SRT와 VTT 내보내기는 Plus / Pro에서 사용 가능합니다. 자막이 목적이라면, 트랜스크립트 편집에 시간을 쓰기 전에 SRT/VTT 내보내기를 확인하세요.
Bilibili에 가장 좋은 무료 음성 텍스트 변환 도구는 무엇인가요?
Transcribe Bilibili를 사용하세요. 일반적인 변환 도구 중 다수는 파일 업로드나 YouTube 스타일 워크플로를 중심으로 만들어져 Bilibili 링크를 깔끔하게 처리하지 못합니다 — BV... ID, b23.tv 단축 링크, m.bilibili 모바일 URL에서 막히곤 합니다. 공개 Bilibili 영상에서 트랜스크립트, 자막, 또는 영어 번역을 얻고 싶다면 Bilibili 전용 흐름이 더 좋습니다. UP主 (크리에이터) 이름, 팬덤 용어, 중영 코드 스위칭 처리를 포함한 단계별 가이드는 how to transcribe Bilibili videos를 참고하세요.
무료 음성 변환 도구는 전문 작업에 충분히 정확한가요?
초안, 메모, 콘텐츠 재활용, 검색 가능한 아카이브에는 충분히 정확할 수 있습니다. 출판, 법률, 의료, 학술, 또는 고객 대면 작업이라면 트랜스크립트 검토를 전제로 하세요. 정확도는 플랜이 무료인지 여부보다 오디오 품질, 화자 겹침, 억양, 언어에 더 크게 좌우됩니다.
무료 음성 변환 도구는 내 오디오를 보관하나요?
정책은 도구마다 다릅니다. 클라우드 도구는 서버에서 파일을 처리하며 자체 보관 정책을 가지고 있습니다. Whisper와 같은 로컬 도구는 본인의 컴퓨터에서 전적으로 실행할 수 있습니다. 프라이버시가 중요하다면 각 제공사의 데이터 정책을 확인하고, 민감한 파일에는 로컬 처리를 사용하세요.
출처 및 추가 자료
외부 자료 (경쟁 서비스 플랜 한도, 모두 2026-04-27 검증):
- Riverside AI transcription
- Otter.ai Basic free plan limits
- Notta pricing
- Google Recorder transcription help
- Happy Scribe plans and pricing
- OpenAI Whisper release
관련 Vocova 가이드:
