Transkriptionsgenauigkeit nach Sprache: WER-Benchmarks für 50+ Sprachen (2026)
Wie genau ist KI-Transkription in Ihrer Sprache? Vergleichen Sie Word-Error-Rate-(WER)-Benchmarks für 50+ Sprachen über Whisper, NVIDIA Canary und andere führende ASR-Modelle im Jahr 2026.
Die Transkriptionsgenauigkeit variiert dramatisch je nach Sprache. Auf sauberem Audio erreichen die besten automatischen Spracherkennungssysteme (ASR) im Jahr 2026 Word Error Rates unter 5 % in Englisch, Spanisch und Mandarin, zwischen 7-12 % in Sprachen mit mittlerem Ressourcenvolumen wie Polnisch, Koreanisch und Vietnamesisch und 20-40 % oder schlechter in vielen ressourcenarmen Sprachen wie Amharisch, Yoruba oder Singhalesisch. Die Genauigkeitslücke lässt sich auf das Volumen der Trainingsdaten, die phonetische Komplexität und die Vielfalt der Dialekte zurückführen, die jedes Modell gesehen hat.
Dieser Leitfaden stellt veröffentlichte WER-Benchmarks von Whisper, NVIDIA Canary, Google USM und dem Hugging Face Open ASR Leaderboard zusammen, organisiert nach Sprachstufe. Wenn Sie ein Transkriptionstool für eine bestimmte Sprache bewerten oder verstehen möchten, warum Ihr deutsches Audio fehlerfrei transkribiert wird, Ihr thailändisches Audio jedoch nicht, erklären die untenstehenden Daten die Lücke.
Zusammenfassung: Genauigkeitsstufen auf einen Blick
| Stufe | WER-Bereich | Sprachen (repräsentativ) | Was zu erwarten ist |
|---|---|---|---|
| Stufe 1 | 2-6 % WER | Englisch, Mandarin, Spanisch, Französisch, Deutsch, Japanisch, Italienisch, Portugiesisch | Nahezu menschliche Genauigkeit auf sauberem Audio |
| Stufe 2 | 6-12 % WER | Koreanisch, Niederländisch, Russisch, Arabisch, Türkisch, Polnisch, Katalanisch, Schwedisch | Produktionsreif, geringfügige Korrekturen nötig |
| Stufe 3 | 12-20 % WER | Vietnamesisch, Hindi, Thai, Griechisch, Rumänisch, Ukrainisch, Hebräisch, Indonesisch | Nutzbar, mit spürbarer manueller Nachbearbeitung rechnen |
| Stufe 4 | 20-40 % WER | Tamil, Bengali, Suaheli, Filipino, Malaiisch, Urdu, Nepalesisch | Rohentwurfqualität, menschliche Prüfung erforderlich |
| Stufe 5 | >40 % WER | Amharisch, Yoruba, Singhalesisch, Khmer, Laotisch, Birmanisch, Maltesisch | Experimentell, oft ohne intensive Nachbearbeitung unbrauchbar |
Quellen: OpenAI Whisper-Paper (2022), FLEURS-Benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).
Wie WER-Benchmarks gemessen werden
Jede Zahl in diesem Beitrag stammt aus einer von drei öffentlichen Benchmark-Suites. Das Verständnis dessen, was jede einzelne testet, verhindert den häufigen Fehler, einen Laborwert mit der realen Leistung zu vergleichen.
LibriSpeech (nur Englisch) verwendet saubere Hörbuchaufnahmen. Es ist der einfachste Benchmark, gegen den die meisten Modelle antreten, sodass seine Werte den Boden dessen darstellen, was ein Modell unter idealen Bedingungen leisten kann. Die modernste englische WER auf LibriSpeech test-clean liegt bei etwa 1,4-2,7 %.
FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) deckt 102 Sprachen mit jeweils ~12 Stunden Sprache ab. Er verwendet die gleichen Sätze in allen Sprachen (Übersetzungen von Wikipedia-Inhalten), was sprachübergreifende Vergleiche sinnvoll macht. FLEURS ist der am häufigsten zitierte mehrsprachige Benchmark.
Common Voice (Mozilla) enthält Crowdsourced-Aufnahmen in über 100 Sprachen. Er ist lauter als FLEURS, weil die Sprecher Laien in unterschiedlichen Umgebungen sind, sodass die Common-Voice-WER typischerweise 2-5 Punkte höher liegt als FLEURS in derselben Sprache.
Reales Audio mit Akzenten, überlappenden Sprechern, Hintergrundgeräuschen und unvollkommener Aufnahmetechnik fügt zusätzliche 5-15 WER-Punkte zu den Benchmark-Zahlen hinzu. Ein Modell, das 5 % WER auf FLEURS meldet, kann auf einer typischen Zoom-Aufnahme 10-15 % liefern.
Stufe 1: sehr hohe Genauigkeit (2-6 % WER)
Diese Sprachen verfügen über die größten Trainingskorpora (Zehntausende von Stunden beschrifteten Audios) und die meiste Aufmerksamkeit von Modellentwicklern. Erwarten Sie produktionsreife Transkripte auf sauberem Audio mit minimaler Bearbeitung.
| Sprache | Whisper large-v3 FLEURS WER | NVIDIA Canary WER (sofern verfügbar) | Anmerkungen |
|---|---|---|---|
| Englisch | 4,2 % | 6,5 % (Canary-1B Common Voice) | Referenzsprache, die meisten Benchmarks konzentrieren sich hier |
| Spanisch | 3,0 % | 4,6 % | Besonders stark bei lateinamerikanischen Varianten |
| Mandarin-Chinesisch | 5,7 % (CER) | -- | Gemessen als Character Error Rate, nicht WER |
| Französisch | 4,7 % | 6,0 % | Europäisches Französisch dominiert die Trainingsdaten |
| Deutsch | 4,5 % | 4,8 % | Stark bei Standarddeutsch; schweizerische/österreichische Dialekte verschlechtern sich |
| Italienisch | 4,0 % | 4,2 % | Unter den am besten abgedeckten europäischen Sprachen |
| Portugiesisch | 3,9 % | 3,6 % | Brasilianisches Portugiesisch ist die Mehrheit der Trainingsdaten |
| Japanisch | 4,9 % (CER) | -- | Metrik auf Zeichenebene; Satzqualität ist exzellent |
Sprachen der Stufe 1 profitieren vom kommerziellen Anwendungsdruck: Synchronisation, Closed Captioning und Suche haben jahrzehntelang die Datensatzerstellung vorangetrieben. Wenn Sie in einer dieser Sprachen transkribieren, ist die Wahl des Modells weniger entscheidend als die Audioqualität, die Sie einspeisen.
Stufe 2: hohe Genauigkeit (6-12 % WER)
Diese Sprachen verfügen über relevante Trainingsdaten, aber entweder über weniger Volumen als Stufe 1 oder über mehr phonetische Komplexität. Die meisten Produktionsanwendungsfälle funktionieren gut, aber erwarten Sie gelegentliche Korrekturen falsch erkannter Eigennamen und Fachbegriffe.
| Sprache | Whisper large-v3 FLEURS WER | Anmerkungen |
|---|---|---|
| Koreanisch | 7,0 % (CER) | Zeichenebene; Satzgenauigkeit ist generell hoch |
| Niederländisch | 6,1 % | Profitiert von der Nähe zu deutschen und englischen Trainingsdaten |
| Russisch | 8,8 % | Gut bei Standardrussisch; regionale Akzente verschlechtern sich |
| Arabisch | 9,5 % (Modernes Standardarabisch) | Dialektisches Arabisch (Ägyptisch, Levantinisch, Golf) ist deutlich schwieriger |
| Türkisch | 9,6 % | Agglutinierende Morphologie erhöht die Komplexität |
| Polnisch | 8,6 % | Gut abgedeckte slawische Sprache |
| Katalanisch | 5,1 % | Schlägt aufgrund dedizierter Datensätze über seiner Sprecherzahl |
| Schwedisch | 7,0 % | Stark für eine kleinere Sprache; nordische Korpora sind gut kuratiert |
| Norwegisch | 9,0 % | Zwei Schriftstandards (Bokmål/Nynorsk) erschweren die Bewertung |
| Ukrainisch | 10,2 % | Deutliche Verbesserung nach 2022 durch Datensatzwachstum |
| Dänisch | 9,6 % | Schwierige Phonetik, aber gut vertreten |
Bei Sprachen der Stufe 2 beginnt die Modellwahl eine Rolle zu spielen. Whisper large-v3, NVIDIA Canary-1B-v2 und Google USM wechseln sich je nach Sprache in der Führung ab, sodass benchmark-spezifische Vergleiche überprüft werden sollten, bevor eine Pipeline standardisiert wird.
Stufe 3: mittlere Genauigkeit (12-20 % WER)
In diesen Sprachen wird KI-Transkription sichtbar unvollkommen. Transkripte sind als erster Entwurf weiterhin nutzbar, aber rechnen Sie mit mehreren Fehlern pro Audiominute, insbesondere bei Eigennamen, Zahlen und Diskurspartikeln.
| Sprache | Whisper large-v3 FLEURS WER | Anmerkungen |
|---|---|---|
| Vietnamesisch | 13,6 % | Tonal; Tonfehler sind häufig |
| Hindi | 13,8 % | Starke Varianz bei Akzenten und Code-Switching mit Englisch |
| Thai | 13,3 % (CER) | Keine Leerzeichen zwischen Wörtern erschweren die Tokenisierung |
| Griechisch | 13,5 % | Kleineres Trainingskorpus als andere europäische Sprachen |
| Rumänisch | 14,9 % | Verbessert sich schnell mit dem Wachstum der Datensätze |
| Hebräisch | 15,9 % | Rechts-nach-links-Schrift, reiche Morphologie |
| Indonesisch | 13,4 % | Stark für sein Ressourcenniveau |
| Kroatisch | 17,7 % | Gemeinsame Merkmale mit anderen südslawischen Sprachen helfen |
| Serbisch | 15,7 % | Kyrillische und lateinische Schriften werden unterstützt |
| Tschechisch | 13,5 % | Solide trotz morphologischer Komplexität |
| Bulgarisch | 15,6 % | Slawische Sprache mit moderatem Ressourcenniveau |
Code-Switching – bei dem Sprecher innerhalb einer einzigen Äußerung zwischen zwei Sprachen wechseln – trifft Sprachen der Stufe 3 härter als Stufe 1, weil Trainingsdaten seltener das spezifische Sprachpaar enthalten.
Stufe 4: geringere Genauigkeit (20-40 % WER)
Sprachen dieser Stufe haben oft Hunderte Millionen Sprecher, aber begrenzte beschriftete Trainingsdaten. Die Transkription erzeugt einen Rohentwurf, der schneller zu bearbeiten ist als von Grund auf neu zu beginnen, aber erhebliche menschliche Überprüfung erfordert.
| Sprache | Whisper large-v3 FLEURS WER | Anmerkungen |
|---|---|---|
| Tamil | 29,4 % | Dravidische Sprache mit komplexer Morphologie |
| Bengali | 28,8 % | Große Sprecherbasis, aber im Training unterrepräsentiert |
| Telugu | 32,8 % | Ähnliche Herausforderungen wie Tamil |
| Suaheli | 34,2 % | Lingua franca Ostafrikas, wachsende Datensatzgröße |
| Filipino (Tagalog) | 22,4 % | Starkes englisches Code-Switching in natürlicher Sprache üblich |
| Malaiisch | 21,3 % | Gemeinsame Merkmale mit Indonesisch helfen |
| Urdu | 26,3 % | Mit Hindi verwandt, aber in persisch-arabischer Schrift geschrieben |
| Nepalesisch | 30,0 % | Kleines Trainingskorpus |
| Punjabi | 29,1 % | Punjabi-Englisch-Code-Switching ist üblich |
| Kannada | 33,5 % | Dravidische Sprachfamilie |
| Marathi | 30,7 % | Indoarische Sprache mit moderaten Ressourcen |
Für Sprachen der Stufe 4 sind hybride Workflows, bei denen die KI den ersten Entwurf erstellt und ein muttersprachlicher Editor ihn bereinigt, typischerweise die durchsatzstärkste Option. Reine menschliche Transkription ist in vielen Fällen immer noch schneller als das Korrigieren stark verzerrter KI-Ausgaben.
Stufe 5: ressourcenarm und experimentell (>40 % WER)
Diese Sprachen verfügen entweder über sehr begrenzte beschriftete Daten, erhebliche phonetische Distanz zu jeder Sprache, auf der das Modell trainiert wurde, oder beides. Die Transkription in diesen Sprachen ist für Inhaltsindexierung und Suche nutzbar, aber nicht für veröffentlichungsreifen Text.
Beispiele sind Amharisch (Äthiopien, ~42 % WER), Yoruba (Nigeria, ~43 % WER), Singhalesisch (Sri Lanka, ~48 % WER), Khmer (Kambodscha, ~50 % WER), Laotisch (Laos, ~52 % WER), Birmanisch (~55 % WER) und Maltesisch (~45 % WER). Die Zahlen variieren erheblich zwischen Modellen und Benchmarks. Die Lücke schließt sich, während Community-Datensätze wachsen, aber für Produktionsanwendungen in diesen Sprachen übertreffen spezialisierte Anbieter, die in sprachspezifische Daten investiert haben, allgemeine Modelle typischerweise um 5-15 WER-Punkte.
Was die Genauigkeitslücke verursacht
Drei Faktoren erklären den Großteil der WER-Varianz zwischen Sprachen.
Trainingsdatenvolumen ist der einzelne stärkste Prädiktor. Whisper wurde auf 680.000 Stunden Audio trainiert, aber 65 % davon waren Englisch. Ressourcenreichere Sprachen erhalten Zehntausende von Stunden; die ressourcenärmsten Sprachen erhalten einige Hundert. Jede Verdopplung der Trainingsdaten halbiert grob die verbleibende WER, bis abnehmende Erträge einsetzen.
Phonetische und morphologische Komplexität erzeugt Deckeneffekte selbst bei reichlich Daten. Tonale Sprachen (Mandarin, Vietnamesisch, Thai, Yoruba) zwingen das Modell, phonetisch ähnliche Wörter anhand der Tonhöhenkontur zu unterscheiden. Agglutinierende Sprachen (Türkisch, Finnisch, Suaheli) konstruieren lange Wörter aus vielen Morphemen, die mit der Tokenisierung interagieren. Rechts-nach-links-Schriften (Arabisch, Hebräisch) und logografische Schriftsysteme (Chinesisch, Japanisch) verlagern die Metrik von WER zu Character Error Rate und verändern, was als Substitution zählt.
Audiodomänenübereinstimmung ist genauso wichtig wie die Sprache. Ein Modell, das primär auf vorgelesenen Hörbuchdaten trainiert wurde, wird bei spontanem Gespräch in derselben Sprache schlechter abschneiden. Für geschäftliche Transkriptionsanwendungen (Meetings, Interviews, Podcasts) sollte die Modellwahl davon abhängen, ob der Anbieter auf konversationellem oder Broadcast-Audio fein abgestimmt hat, statt nur auf sauberen Monologen.
Wie man die Genauigkeit für Sprachen niedrigerer Stufen verbessert
Es gibt praktische Schritte, die die WER für jede Sprache sinnvoll reduzieren, auch wenn die Wirkung größer ist, wenn die Ausgangsbasis höher liegt.
Verbessern Sie das Audio vor der Transkription. Rauschunterdrückung, Sprecherisolierung und konsistente Aufnahmepegel können die WER auf realem Audio um 2-5 Punkte senken. Dieser Audioqualitätsleitfaden behandelt die schnellsten Gewinne.
Stellen Sie Domänenkontext bereit. Viele Transkriptions-APIs akzeptieren eine Liste technischer Begriffe, Eigennamen oder Phrasen, die wahrscheinlich im Audio vorkommen. Diese vorgeprägten Vokabulare reduzieren Substitutionsfehler für Branchenjargon und Eigennamen um 10-30 %, wenn sie korrekt konfiguriert sind.
Wählen Sie das richtige Modell pro Sprache. Whisper führt in einigen Sprachen, NVIDIA Canary in anderen und sprachspezifische Anbieter in wenigen (insbesondere Japanisch, Koreanisch und Arabisch). Wenn eine bestimmte Sprache für Ihren Workflow entscheidend ist, lohnt sich das Testen von 2-3 Anbietern mit einer repräsentativen Stichprobe die eine Stunde.
Setzen Sie einen menschlichen Editor für die letzte Meile ein. Für Stufe 3 und darunter ist ein muttersprachlicher Editor, der ein KI-Transkript überprüft, grob 5-8x schneller als das Transkribieren von Grund auf, und die endgültige Genauigkeit liegt über 98 %.
Plattformen wie Vocova unterstützen Transkription in über 100 Sprachen mit automatischer Spracherkennung, was die Reibung bei der Auswahl des richtigen Modells pro Sprache beseitigt. Die Erkennung erfolgt, bevor die Transkription beginnt, sodass Sie Audiodateien nicht vorab nach Sprache kennzeichnen müssen.
Häufig gestellte Fragen
Welche Sprache hat die genaueste Transkription?
Englisch hat 2026 die genaueste KI-Transkription, wobei modernste Modelle 1,4-2,7 % WER auf sauberem LibriSpeech-Audio und etwa 4 % WER auf realer spontaner Sprache erreichen. Spanisch, Mandarin, Französisch, Deutsch, Italienisch und Portugiesisch folgen dicht dahinter im Bereich von 3-6 % WER.
Wie genau ist Whisper sprachübergreifend?
Whisper large-v3 erreicht auf dem FLEURS-Benchmark in etwa 30 Sprachen eine WER unter 10 %, einschließlich aller Stufe-1- und der meisten Stufe-2-Sprachen in diesem Leitfaden. Seine Genauigkeit verschlechtert sich unterhalb dieser Stufe stark, wobei einige ressourcenarme Sprachen 50 % WER überschreiten.
Welche WER gilt als „gut"?
Für die meisten geschäftlichen Anwendungen erzeugt eine WER unter 10 % ein Transkript, das schneller zu lesen und zu bearbeiten ist als das Original-Audio. Unter 5 % gilt allgemein als nahezu menschliche Genauigkeit. Über 20 % erfordert erhebliche manuelle Korrektur, um als veröffentlichter Text nutzbar zu sein.
Warum ist meine deutsche Transkription genauer als meine thailändische Transkription?
Deutsch ist eine Stufe-1-Sprache mit Zehntausenden von Stunden Trainingsdaten, gemeinsamen phonetischen Merkmalen mit Englisch (das den größten Datensatz hat) und breiter Akzeptanz in der kommerziellen Transkription. Thai ist eine tonale, leerzeichenfreie Sprache mit deutlich weniger beschrifteten Trainingsdaten. Selbst die besten Modelle weisen eine WER-Lücke von 7-10 Punkten zwischen beiden auf.
Kann ich die Transkriptionsgenauigkeit für meine spezifische Sprache verbessern?
Ja. Verbesserungen der Audioqualität, benutzerdefinierte Vokabulare und sprecherspezifische Trainingsdaten können die WER in den meisten Sprachen um 5-15 % senken. Für Stufe 3 und darunter erzeugt die Verwendung eines hybriden KI-+-Mensch-Editor-Workflows eine endgültige Genauigkeit über 98 % zu einem Bruchteil der Kosten rein menschlicher Transkription.
Sind Transkriptionsbenchmarks von FLEURS und Common Voice mit realem Audio vergleichbar?
Nicht direkt. Benchmark-Audio ist typischerweise sauberer, vorgelesen statt spontan und mit professioneller Ausrüstung aufgenommen. Reales Audio (Meetings, Telefonate, Straßeninterviews) erzeugt typischerweise eine 5-15 Punkte höhere WER als Benchmark-Audio für dieselbe Sprache und dasselbe Modell.
Zusammenfassung
Die KI-Transkriptionsgenauigkeit im Jahr 2026 ist eine Funktion aus Sprachstufe, Audioqualität und Modell-Aufgaben-Passung. Sprachen der Stufe 1 liefern nahezu menschliche Genauigkeit auf sauberem Audio; Stufe 3 erfordert Bearbeitung; Stufe 5 ist experimentell. Die Lücke zwischen bester und durchschnittlicher Leistung auf realem Audio hat sich vergrößert, da sich die Top-Modelle schneller verbessert haben als die mittleren, was die Werkzeugauswahl folgenreicher macht als noch vor drei Jahren.
Wenn Sie eine Transkriptionspipeline aufbauen oder auswählen, ist das Nützlichste, was Sie tun können, Ihre spezifische Sprache und Audiodomäne an 2-3 repräsentativen Proben zu testen, bevor Sie sich festlegen. Benchmarks sind ein Ausgangspunkt, keine Entscheidung.
Quellen und weiterführende Literatur
- OpenAI, „Robust Speech Recognition via Large-Scale Weak Supervision" (Whisper-Paper, 2022)
- Google Research, „FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech" (2022)
- Hugging Face Open ASR Leaderboard
- NVIDIA, Canary-1B-v2 Modellkarte
- Mozilla Common Voice Datensätze
- Vocova zu mehrsprachiger Transkription
