Wie genau ist KI-Transkription? WER-Ergebnisse für 50+ Sprachen (2026)

Die Transkriptionsgenauigkeit variiert dramatisch je nach Sprache. Auf sauberem Audio erreichen die besten automatischen Spracherkennungssysteme (ASR) im Jahr 2026 Word Error Rates unter 5 % in Englisch, Spanisch und Mandarin, zwischen 7-12 % in Sprachen mit mittlerem Ressourcenvolumen wie Polnisch, Koreanisch und Vietnamesisch und 20-40 % oder schlechter in vielen ressourcenarmen Sprachen wie Amharisch, Yoruba oder Singhalesisch. Die Genauigkeitslücke lässt sich auf das Volumen der Trainingsdaten, die phonetische Komplexität und die Vielfalt der Dialekte zurückführen, die jedes Modell gesehen hat.

Dieser Leitfaden stellt veröffentlichte WER-Benchmarks von Whisper, NVIDIA Canary, Google USM und dem Hugging Face Open ASR Leaderboard zusammen, organisiert nach Sprachstufe. Wenn Sie ein Transkriptionstool für eine bestimmte Sprache bewerten oder verstehen möchten, warum Ihr deutsches Audio fehlerfrei transkribiert wird, Ihr thailändisches Audio jedoch nicht, erklären die untenstehenden Daten die Lücke.

Zusammenfassung: Genauigkeitsstufen auf einen Blick

Stufe	WER-Bereich	Sprachen (repräsentativ)	Was zu erwarten ist
Stufe 1	2-6 % WER	Englisch, Mandarin, Spanisch, Französisch, Deutsch, Japanisch, Italienisch, Portugiesisch	Nahezu menschliche Genauigkeit auf sauberem Audio
Stufe 2	6-12 % WER	Koreanisch, Niederländisch, Russisch, Arabisch, Türkisch, Polnisch, Katalanisch, Schwedisch	Produktionsreif, geringfügige Korrekturen nötig
Stufe 3	12-20 % WER	Vietnamesisch, Hindi, Thai, Griechisch, Rumänisch, Ukrainisch, Hebräisch, Indonesisch	Nutzbar, mit spürbarer manueller Nachbearbeitung rechnen
Stufe 4	20-40 % WER	Tamil, Bengali, Suaheli, Filipino, Malaiisch, Urdu, Nepalesisch	Rohentwurfqualität, menschliche Prüfung erforderlich
Stufe 5	>40 % WER	Amharisch, Yoruba, Singhalesisch, Khmer, Laotisch, Birmanisch, Maltesisch	Experimentell, oft ohne intensive Nachbearbeitung unbrauchbar

Quellen: OpenAI Whisper-Paper (2022), FLEURS-Benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Wie WER-Benchmarks gemessen werden

Jede Zahl in diesem Beitrag stammt aus einer von drei öffentlichen Benchmark-Suites. Das Verständnis dessen, was jede einzelne testet, verhindert den häufigen Fehler, einen Laborwert mit der realen Leistung zu vergleichen.

LibriSpeech (nur Englisch) verwendet saubere Hörbuchaufnahmen. Es ist der einfachste Benchmark, gegen den die meisten Modelle antreten, sodass seine Werte den Boden dessen darstellen, was ein Modell unter idealen Bedingungen leisten kann. Die modernste englische WER auf LibriSpeech test-clean liegt bei etwa 1,4-2,7 %.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) deckt 102 Sprachen mit jeweils ~12 Stunden Sprache ab. Er verwendet die gleichen Sätze in allen Sprachen (Übersetzungen von Wikipedia-Inhalten), was sprachübergreifende Vergleiche sinnvoll macht. FLEURS ist der am häufigsten zitierte mehrsprachige Benchmark.

Common Voice (Mozilla) enthält Crowdsourced-Aufnahmen in über 100 Sprachen. Er ist lauter als FLEURS, weil die Sprecher Laien in unterschiedlichen Umgebungen sind, sodass die Common-Voice-WER typischerweise 2-5 Punkte höher liegt als FLEURS in derselben Sprache.

Reales Audio mit Akzenten, überlappenden Sprechern, Hintergrundgeräuschen und unvollkommener Aufnahmetechnik fügt zusätzliche 5-15 WER-Punkte zu den Benchmark-Zahlen hinzu. Ein Modell, das 5 % WER auf FLEURS meldet, kann auf einer typischen Zoom-Aufnahme 10-15 % liefern.

Stufe 1: sehr hohe Genauigkeit (2-6 % WER)

Diese Sprachen verfügen über die größten Trainingskorpora (Zehntausende von Stunden beschrifteten Audios) und die meiste Aufmerksamkeit von Modellentwicklern. Erwarten Sie produktionsreife Transkripte auf sauberem Audio mit minimaler Bearbeitung.

Sprache	Whisper large-v3 FLEURS WER	NVIDIA Canary WER (sofern verfügbar)	Anmerkungen
Englisch	4,2 %	6,5 % (Canary-1B Common Voice)	Referenzsprache, die meisten Benchmarks konzentrieren sich hier
Spanisch	3,0 %	4,6 %	Besonders stark bei lateinamerikanischen Varianten
Mandarin-Chinesisch	5,7 % (CER)	--	Gemessen als Character Error Rate, nicht WER
Französisch	4,7 %	6,0 %	Europäisches Französisch dominiert die Trainingsdaten
Deutsch	4,5 %	4,8 %	Stark bei Standarddeutsch; schweizerische/österreichische Dialekte verschlechtern sich
Italienisch	4,0 %	4,2 %	Unter den am besten abgedeckten europäischen Sprachen
Portugiesisch	3,9 %	3,6 %	Brasilianisches Portugiesisch ist die Mehrheit der Trainingsdaten
Japanisch	4,9 % (CER)	--	Metrik auf Zeichenebene; Satzqualität ist exzellent

Sprachen der Stufe 1 profitieren vom kommerziellen Anwendungsdruck: Synchronisation, Closed Captioning und Suche haben jahrzehntelang die Datensatzerstellung vorangetrieben. Wenn Sie in einer dieser Sprachen transkribieren, ist die Wahl des Modells weniger entscheidend als die Audioqualität, die Sie einspeisen.

Stufe 2: hohe Genauigkeit (6-12 % WER)

Diese Sprachen verfügen über relevante Trainingsdaten, aber entweder über weniger Volumen als Stufe 1 oder über mehr phonetische Komplexität. Die meisten Produktionsanwendungsfälle funktionieren gut, aber erwarten Sie gelegentliche Korrekturen falsch erkannter Eigennamen und Fachbegriffe.

Sprache	Whisper large-v3 FLEURS WER	Anmerkungen
Koreanisch	7,0 % (CER)	Zeichenebene; Satzgenauigkeit ist generell hoch
Niederländisch	6,1 %	Profitiert von der Nähe zu deutschen und englischen Trainingsdaten
Russisch	8,8 %	Gut bei Standardrussisch; regionale Akzente verschlechtern sich
Arabisch	9,5 % (Modernes Standardarabisch)	Dialektisches Arabisch (Ägyptisch, Levantinisch, Golf) ist deutlich schwieriger
Türkisch	9,6 %	Agglutinierende Morphologie erhöht die Komplexität
Polnisch	8,6 %	Gut abgedeckte slawische Sprache
Katalanisch	5,1 %	Schlägt aufgrund dedizierter Datensätze über seiner Sprecherzahl
Schwedisch	7,0 %	Stark für eine kleinere Sprache; nordische Korpora sind gut kuratiert
Norwegisch	9,0 %	Zwei Schriftstandards (Bokmål/Nynorsk) erschweren die Bewertung
Ukrainisch	10,2 %	Deutliche Verbesserung nach 2022 durch Datensatzwachstum
Dänisch	9,6 %	Schwierige Phonetik, aber gut vertreten

Bei Sprachen der Stufe 2 beginnt die Modellwahl eine Rolle zu spielen. Whisper large-v3, NVIDIA Canary-1B-v2 und Google USM wechseln sich je nach Sprache in der Führung ab, sodass benchmark-spezifische Vergleiche überprüft werden sollten, bevor eine Pipeline standardisiert wird.

Stufe 3: mittlere Genauigkeit (12-20 % WER)

In diesen Sprachen wird KI-Transkription sichtbar unvollkommen. Transkripte sind als erster Entwurf weiterhin nutzbar, aber rechnen Sie mit mehreren Fehlern pro Audiominute, insbesondere bei Eigennamen, Zahlen und Diskurspartikeln.

Sprache	Whisper large-v3 FLEURS WER	Anmerkungen
Vietnamesisch	13,6 %	Tonal; Tonfehler sind häufig
Hindi	13,8 %	Starke Varianz bei Akzenten und Code-Switching mit Englisch
Thai	13,3 % (CER)	Keine Leerzeichen zwischen Wörtern erschweren die Tokenisierung
Griechisch	13,5 %	Kleineres Trainingskorpus als andere europäische Sprachen
Rumänisch	14,9 %	Verbessert sich schnell mit dem Wachstum der Datensätze
Hebräisch	15,9 %	Rechts-nach-links-Schrift, reiche Morphologie
Indonesisch	13,4 %	Stark für sein Ressourcenniveau
Kroatisch	17,7 %	Gemeinsame Merkmale mit anderen südslawischen Sprachen helfen
Serbisch	15,7 %	Kyrillische und lateinische Schriften werden unterstützt
Tschechisch	13,5 %	Solide trotz morphologischer Komplexität
Bulgarisch	15,6 %	Slawische Sprache mit moderatem Ressourcenniveau

Code-Switching – bei dem Sprecher innerhalb einer einzigen Äußerung zwischen zwei Sprachen wechseln – trifft Sprachen der Stufe 3 härter als Stufe 1, weil Trainingsdaten seltener das spezifische Sprachpaar enthalten.

Stufe 4: geringere Genauigkeit (20-40 % WER)

Sprachen dieser Stufe haben oft Hunderte Millionen Sprecher, aber begrenzte beschriftete Trainingsdaten. Die Transkription erzeugt einen Rohentwurf, der schneller zu bearbeiten ist als von Grund auf neu zu beginnen, aber erhebliche menschliche Überprüfung erfordert.

Sprache	Whisper large-v3 FLEURS WER	Anmerkungen
Tamil	29,4 %	Dravidische Sprache mit komplexer Morphologie
Bengali	28,8 %	Große Sprecherbasis, aber im Training unterrepräsentiert
Telugu	32,8 %	Ähnliche Herausforderungen wie Tamil
Suaheli	34,2 %	Lingua franca Ostafrikas, wachsende Datensatzgröße
Filipino (Tagalog)	22,4 %	Starkes englisches Code-Switching in natürlicher Sprache üblich
Malaiisch	21,3 %	Gemeinsame Merkmale mit Indonesisch helfen
Urdu	26,3 %	Mit Hindi verwandt, aber in persisch-arabischer Schrift geschrieben
Nepalesisch	30,0 %	Kleines Trainingskorpus
Punjabi	29,1 %	Punjabi-Englisch-Code-Switching ist üblich
Kannada	33,5 %	Dravidische Sprachfamilie
Marathi	30,7 %	Indoarische Sprache mit moderaten Ressourcen

Für Sprachen der Stufe 4 sind hybride Workflows, bei denen die KI den ersten Entwurf erstellt und ein muttersprachlicher Editor ihn bereinigt, typischerweise die durchsatzstärkste Option. Reine menschliche Transkription ist in vielen Fällen immer noch schneller als das Korrigieren stark verzerrter KI-Ausgaben.

Stufe 5: ressourcenarm und experimentell (>40 % WER)

Diese Sprachen verfügen entweder über sehr begrenzte beschriftete Daten, erhebliche phonetische Distanz zu jeder Sprache, auf der das Modell trainiert wurde, oder beides. Die Transkription in diesen Sprachen ist für Inhaltsindexierung und Suche nutzbar, aber nicht für veröffentlichungsreifen Text.

Beispiele sind Amharisch (Äthiopien, ~42 % WER), Yoruba (Nigeria, ~43 % WER), Singhalesisch (Sri Lanka, ~48 % WER), Khmer (Kambodscha, ~50 % WER), Laotisch (Laos, ~52 % WER), Birmanisch (~55 % WER) und Maltesisch (~45 % WER). Die Zahlen variieren erheblich zwischen Modellen und Benchmarks. Die Lücke schließt sich, während Community-Datensätze wachsen, aber für Produktionsanwendungen in diesen Sprachen übertreffen spezialisierte Anbieter, die in sprachspezifische Daten investiert haben, allgemeine Modelle typischerweise um 5-15 WER-Punkte.

Was die Genauigkeitslücke verursacht

Drei Faktoren erklären den Großteil der WER-Varianz zwischen Sprachen.

Trainingsdatenvolumen ist der einzelne stärkste Prädiktor. Whisper wurde auf 680.000 Stunden Audio trainiert, aber 65 % davon waren Englisch. Ressourcenreichere Sprachen erhalten Zehntausende von Stunden; die ressourcenärmsten Sprachen erhalten einige Hundert. Jede Verdopplung der Trainingsdaten halbiert grob die verbleibende WER, bis abnehmende Erträge einsetzen.

Phonetische und morphologische Komplexität erzeugt Deckeneffekte selbst bei reichlich Daten. Tonale Sprachen (Mandarin, Vietnamesisch, Thai, Yoruba) zwingen das Modell, phonetisch ähnliche Wörter anhand der Tonhöhenkontur zu unterscheiden. Agglutinierende Sprachen (Türkisch, Finnisch, Suaheli) konstruieren lange Wörter aus vielen Morphemen, die mit der Tokenisierung interagieren. Rechts-nach-links-Schriften (Arabisch, Hebräisch) und logografische Schriftsysteme (Chinesisch, Japanisch) verlagern die Metrik von WER zu Character Error Rate und verändern, was als Substitution zählt.

Audiodomänenübereinstimmung ist genauso wichtig wie die Sprache. Ein Modell, das primär auf vorgelesenen Hörbuchdaten trainiert wurde, wird bei spontanem Gespräch in derselben Sprache schlechter abschneiden. Für geschäftliche Transkriptionsanwendungen (Meetings, Interviews, Podcasts) sollte die Modellwahl davon abhängen, ob der Anbieter auf konversationellem oder Broadcast-Audio fein abgestimmt hat, statt nur auf sauberen Monologen.

Wie man die Genauigkeit für Sprachen niedrigerer Stufen verbessert

Es gibt praktische Schritte, die die WER für jede Sprache sinnvoll reduzieren, auch wenn die Wirkung größer ist, wenn die Ausgangsbasis höher liegt.

Verbessern Sie das Audio vor der Transkription. Rauschunterdrückung, Sprecherisolierung und konsistente Aufnahmepegel können die WER auf realem Audio um 2-5 Punkte senken. Dieser Audioqualitätsleitfaden behandelt die schnellsten Gewinne.

Stellen Sie Domänenkontext bereit. Viele Transkriptions-APIs akzeptieren eine Liste technischer Begriffe, Eigennamen oder Phrasen, die wahrscheinlich im Audio vorkommen. Diese vorgeprägten Vokabulare reduzieren Substitutionsfehler für Branchenjargon und Eigennamen um 10-30 %, wenn sie korrekt konfiguriert sind.

Wählen Sie das richtige Modell pro Sprache. Whisper führt in einigen Sprachen, NVIDIA Canary in anderen und sprachspezifische Anbieter in wenigen (insbesondere Japanisch, Koreanisch und Arabisch). Wenn eine bestimmte Sprache für Ihren Workflow entscheidend ist, lohnt sich das Testen von 2-3 Anbietern mit einer repräsentativen Stichprobe die eine Stunde.

Setzen Sie einen menschlichen Editor für die letzte Meile ein. Für Stufe 3 und darunter ist ein muttersprachlicher Editor, der ein KI-Transkript überprüft, grob 5-8x schneller als das Transkribieren von Grund auf, und die endgültige Genauigkeit liegt über 98 %.

Plattformen wie Vocova unterstützen Transkription in über 100 Sprachen mit automatischer Spracherkennung, was die Reibung bei der Auswahl des richtigen Modells pro Sprache beseitigt. Die Erkennung erfolgt, bevor die Transkription beginnt, sodass Sie Audiodateien nicht vorab nach Sprache kennzeichnen müssen.

Häufig gestellte Fragen

Welche Sprache hat die genaueste Transkription?

Englisch hat 2026 die genaueste KI-Transkription, wobei modernste Modelle 1,4-2,7 % WER auf sauberem LibriSpeech-Audio und etwa 4 % WER auf realer spontaner Sprache erreichen. Spanisch, Mandarin, Französisch, Deutsch, Italienisch und Portugiesisch folgen dicht dahinter im Bereich von 3-6 % WER.

Wie genau ist Whisper sprachübergreifend?

Whisper large-v3 erreicht auf dem FLEURS-Benchmark in etwa 30 Sprachen eine WER unter 10 %, einschließlich aller Stufe-1- und der meisten Stufe-2-Sprachen in diesem Leitfaden. Seine Genauigkeit verschlechtert sich unterhalb dieser Stufe stark, wobei einige ressourcenarme Sprachen 50 % WER überschreiten.

Welche WER gilt als „gut"?

Für die meisten geschäftlichen Anwendungen erzeugt eine WER unter 10 % ein Transkript, das schneller zu lesen und zu bearbeiten ist als das Original-Audio. Unter 5 % gilt allgemein als nahezu menschliche Genauigkeit. Über 20 % erfordert erhebliche manuelle Korrektur, um als veröffentlichter Text nutzbar zu sein.

Warum ist meine deutsche Transkription genauer als meine thailändische Transkription?

Deutsch ist eine Stufe-1-Sprache mit Zehntausenden von Stunden Trainingsdaten, gemeinsamen phonetischen Merkmalen mit Englisch (das den größten Datensatz hat) und breiter Akzeptanz in der kommerziellen Transkription. Thai ist eine tonale, leerzeichenfreie Sprache mit deutlich weniger beschrifteten Trainingsdaten. Selbst die besten Modelle weisen eine WER-Lücke von 7-10 Punkten zwischen beiden auf.

Kann ich die Transkriptionsgenauigkeit für meine spezifische Sprache verbessern?

Ja. Verbesserungen der Audioqualität, benutzerdefinierte Vokabulare und sprecherspezifische Trainingsdaten können die WER in den meisten Sprachen um 5-15 % senken. Für Stufe 3 und darunter erzeugt die Verwendung eines hybriden KI-+-Mensch-Editor-Workflows eine endgültige Genauigkeit über 98 % zu einem Bruchteil der Kosten rein menschlicher Transkription.

Sind Transkriptionsbenchmarks von FLEURS und Common Voice mit realem Audio vergleichbar?

Nicht direkt. Benchmark-Audio ist typischerweise sauberer, vorgelesen statt spontan und mit professioneller Ausrüstung aufgenommen. Reales Audio (Meetings, Telefonate, Straßeninterviews) erzeugt typischerweise eine 5-15 Punkte höhere WER als Benchmark-Audio für dieselbe Sprache und dasselbe Modell.

Zusammenfassung

Die KI-Transkriptionsgenauigkeit im Jahr 2026 ist eine Funktion aus Sprachstufe, Audioqualität und Modell-Aufgaben-Passung. Sprachen der Stufe 1 liefern nahezu menschliche Genauigkeit auf sauberem Audio; Stufe 3 erfordert Bearbeitung; Stufe 5 ist experimentell. Die Lücke zwischen bester und durchschnittlicher Leistung auf realem Audio hat sich vergrößert, da sich die Top-Modelle schneller verbessert haben als die mittleren, was die Werkzeugauswahl folgenreicher macht als noch vor drei Jahren.

Wenn Sie eine Transkriptionspipeline aufbauen oder auswählen, ist das Nützlichste, was Sie tun können, Ihre spezifische Sprache und Audiodomäne an 2-3 repräsentativen Proben zu testen, bevor Sie sich festlegen. Benchmarks sind ein Ausgangspunkt, keine Entscheidung.