Vocova
TarifsBlog

Produit

  • Tarifs
  • Blog
  • Voir tous les outils

Solutions

  • Pour les podcasteurs
  • Pour les créateurs vidéo
  • Entretiens multilingues

Entreprise

  • À propos
  • FAQ
  • Conditions d'utilisation
  • Politique de confidentialite
  • Contact

Transcription

  • Audio en texte
  • Video en texte
  • Transcription de podcasts
  • Transcription d'entretiens
  • Transcription de cours

Plateforme

  • Lien vidéo en texte
  • Transcription YouTube
  • YouTube vers SRT
  • Transcription Apple Podcasts
  • Transcription Zoom
  • Transcription Google Meet
  • Transcription TikTok
  • TikTok vers SRT
  • Transcription Loom
  • Transcription Bilibili
  • Transcription Vimeo
  • Transcription Instagram
  • Transcription Facebook
  • Transcription X (Twitter)
  • Transcription SoundCloud
  • Transcription Reddit
  • Transcription Dailymotion

Langue

  • Transcription japonaise
  • Transcription espagnol
  • Transcription français
  • Transcription allemand
  • Transcription portugais
  • Transcription coréen
  • Transcription chinoise
  • Transcription arabe
  • Transcription hindi
  • Transcription italienne
  • Transcription russe
  • Transcription thaï
  • Transcription vietnamienne
  • Transcription turque
  • Transcription indonésien
  • Transcription néerlandaise
  • Transcription polonais
  • Transcription suédois
  • Transcription cantonnais
  • Transcription tagalog

Traduction

  • Traduction audio
  • Sous-titres bilingues
  • Traduction vidéo
  • Japonais vers anglais
  • Chinois vers anglais
  • Espagnol vers anglais
  • Coréen vers anglais
  • Français vers anglais

Format

  • MP4 vers SRT
  • MP4 vers TXT
  • Vidéo vers PDF
  • MP4 en texte
  • MP3 en texte
  • WAV en texte
  • M4A en texte
  • MOV en texte
  • Générateur SRT
  • Générateur VTT
  • Générateur de sous-titres

Convertisseur

  • Convertisseur audio
  • Convertisseur vidéo
  • MP4 vers MP3

Résumer

  • Résumeur de podcasts
  • Résumeur YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
TarifsBlog

Produit

  • Tarifs
  • Blog
  • Voir tous les outils

Solutions

  • Pour les podcasteurs
  • Pour les créateurs vidéo
  • Entretiens multilingues

Entreprise

  • À propos
  • FAQ
  • Conditions d'utilisation
  • Politique de confidentialite
  • Contact

Transcription

  • Audio en texte
  • Video en texte
  • Transcription de podcasts
  • Transcription d'entretiens
  • Transcription de cours

Plateforme

  • Lien vidéo en texte
  • Transcription YouTube
  • YouTube vers SRT
  • Transcription Apple Podcasts
  • Transcription Zoom
  • Transcription Google Meet
  • Transcription TikTok
  • TikTok vers SRT
  • Transcription Loom
  • Transcription Bilibili
  • Transcription Vimeo
  • Transcription Instagram
  • Transcription Facebook
  • Transcription X (Twitter)
  • Transcription SoundCloud
  • Transcription Reddit
  • Transcription Dailymotion

Langue

  • Transcription japonaise
  • Transcription espagnol
  • Transcription français
  • Transcription allemand
  • Transcription portugais
  • Transcription coréen
  • Transcription chinoise
  • Transcription arabe
  • Transcription hindi
  • Transcription italienne
  • Transcription russe
  • Transcription thaï
  • Transcription vietnamienne
  • Transcription turque
  • Transcription indonésien
  • Transcription néerlandaise
  • Transcription polonais
  • Transcription suédois
  • Transcription cantonnais
  • Transcription tagalog

Traduction

  • Traduction audio
  • Sous-titres bilingues
  • Traduction vidéo
  • Japonais vers anglais
  • Chinois vers anglais
  • Espagnol vers anglais
  • Coréen vers anglais
  • Français vers anglais

Format

  • MP4 vers SRT
  • MP4 vers TXT
  • Vidéo vers PDF
  • MP4 en texte
  • MP3 en texte
  • WAV en texte
  • M4A en texte
  • MOV en texte
  • Générateur SRT
  • Générateur VTT
  • Générateur de sous-titres

Convertisseur

  • Convertisseur audio
  • Convertisseur vidéo
  • MP4 vers MP3

Résumer

  • Résumeur de podcasts
  • Résumeur YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt
Vocova
TarifsBlog
BlogQuelle est la précision de la transcription IA ? Résultats WER pour plus de 50 langues (2026)

Quelle est la précision de la transcription IA ? Résultats WER pour plus de 50 langues (2026)

La précision de la transcription IA varie énormément selon la langue. Nous avons testé Whisper, NVIDIA Canary et 5 autres modèles sur plus de 50 langues. Découvrez quels modèles sont utilisables pour le japonais, l'arabe, le vietnamien et votre langue cible.

16 avr. 2026·15 min de lecture·
accuracywermultilingualbenchmarks

La précision de la transcription varie considérablement selon la langue. Sur de l'audio propre en 2026, les meilleurs systèmes de reconnaissance automatique de la parole (ASR) atteignent des taux d'erreur par mot inférieurs à 5 % en anglais, espagnol et mandarin, entre 7 et 12 % dans les langues de ressources intermédiaires comme le polonais, le coréen et le vietnamien, et 20 à 40 % voire plus dans de nombreuses langues à faibles ressources telles que l'amharique, le yoruba ou le cinghalais. L'écart de précision s'explique par le volume de données d'entraînement, la complexité phonétique et la diversité des dialectes auxquels chaque modèle a été exposé.

Ce guide compile les benchmarks WER publiés par Whisper, NVIDIA Canary, Google USM et le Hugging Face Open ASR Leaderboard, organisés par paliers de langue. Si vous évaluez un outil de transcription pour une langue spécifique, ou que vous essayez de comprendre pourquoi votre audio allemand se transcrit parfaitement mais pas votre audio thaï, les données ci-dessous expliquent l'écart.

TL;DR : les paliers de précision en un coup d'œil

PalierPlage WERLangues (représentatives)À quoi s'attendre
Palier 12-6 % WERanglais, mandarin, espagnol, français, allemand, japonais, italien, portugaisPrécision quasi humaine sur audio propre
Palier 26-12 % WERcoréen, néerlandais, russe, arabe, turc, polonais, catalan, suédoisQualité production, corrections mineures requises
Palier 312-20 % WERvietnamien, hindi, thaï, grec, roumain, ukrainien, hébreu, indonésienExploitable, attendez-vous à un nettoyage manuel significatif
Palier 420-40 % WERtamoul, bengali, swahili, philippin, malais, ourdou, népalaisQualité premier jet, révision humaine requise
Palier 5>40 % WERamharique, yoruba, cinghalais, khmer, lao, birman, maltaisExpérimental, souvent inutilisable sans lourde post-édition

Sources : OpenAI Whisper paper (2022), FLEURS benchmark (Google Research, 2022), Hugging Face Open ASR Leaderboard, NVIDIA Canary-1B-v2 (2025).

Comment sont mesurés les benchmarks WER

Chaque chiffre de cet article provient de l'une des trois suites de benchmarks publiques. Comprendre ce que chacune teste évite l'erreur courante de comparer un score de laboratoire à la performance en conditions réelles.

LibriSpeech (anglais uniquement) utilise des enregistrements propres de livres audio. C'est le benchmark le plus facile contre lequel la plupart des modèles se mesurent, ses chiffres représentent donc le plancher de ce qu'un modèle peut accomplir dans des conditions idéales. Le WER de pointe en anglais sur LibriSpeech test-clean est d'environ 1,4 à 2,7 %.

FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) couvre 102 langues avec environ 12 heures de parole par langue. Il utilise les mêmes phrases dans toutes les langues (traductions de contenu Wikipédia), ce qui rend la comparaison inter-langues pertinente. FLEURS est le benchmark multilingue le plus largement cité.

Common Voice (Mozilla) contient des enregistrements collaboratifs dans plus de 100 langues. Il est plus bruité que FLEURS car les locuteurs sont des non-professionnels dans des environnements variés, donc le WER de Common Voice est généralement 2 à 5 points plus élevé que celui de FLEURS sur la même langue.

L'audio en conditions réelles, avec accents, locuteurs qui se chevauchent, bruit de fond et matériel d'enregistrement imparfait, ajoute 5 à 15 points de WER supplémentaires aux chiffres des benchmarks. Un modèle affichant 5 % de WER sur FLEURS peut livrer 10 à 15 % sur un enregistrement Zoom typique.

Palier 1 : précision très élevée (2-6 % WER)

Ces langues disposent des plus grands corpus d'entraînement (dizaines de milliers d'heures d'audio annoté) et de la plus grande attention de la part des développeurs de modèles. Attendez-vous à des transcriptions prêtes pour la production sur audio propre avec une édition minimale.

LangueWhisper large-v3 FLEURS WERNVIDIA Canary WER (si disponible)Notes
Anglais4,2 %6,5 % (Canary-1B Common Voice)Langue de référence, la plupart des benchmarks se concentrent ici
Espagnol3,0 %4,6 %Particulièrement solide sur les variétés latino-américaines
Chinois mandarin5,7 % (CER)--Mesuré en taux d'erreur par caractère, pas en WER
Français4,7 %6,0 %Le français européen domine les données d'entraînement
Allemand4,5 %4,8 %Solide sur l'allemand standard ; les dialectes suisses/autrichiens dégradent
Italien4,0 %4,2 %Parmi les langues européennes les mieux couvertes
Portugais3,9 %3,6 %Le portugais brésilien est majoritaire dans les données d'entraînement
Japonais4,9 % (CER)--Métrique au niveau du caractère ; qualité des phrases excellente

Les langues du Palier 1 bénéficient de la pression des applications commerciales : doublage, sous-titrage codé et recherche ont alimenté la création de jeux de données pendant des décennies. Si vous transcrivez dans l'une d'entre elles, le choix du modèle importe moins que la qualité audio que vous lui fournissez.

Palier 2 : précision élevée (6-12 % WER)

Ces langues disposent de données d'entraînement significatives mais d'un volume moindre que le Palier 1 ou d'une plus grande complexité phonétique. La plupart des cas d'usage de production fonctionnent bien, mais attendez-vous à corriger occasionnellement des noms propres mal entendus et des termes techniques.

LangueWhisper large-v3 FLEURS WERNotes
Coréen7,0 % (CER)Niveau caractère ; la précision au niveau de la phrase est généralement élevée
Néerlandais6,1 %Bénéficie de la proximité avec les données d'entraînement allemandes et anglaises
Russe8,8 %Bon sur le russe standard ; les accents régionaux dégradent
Arabe9,5 % (standard moderne)L'arabe dialectal (égyptien, levantin, du Golfe) est beaucoup plus difficile
Turc9,6 %La morphologie agglutinante ajoute de la complexité
Polonais8,6 %Langue slave bien couverte
Catalan5,1 %Performe au-dessus de son nombre de locuteurs grâce à des jeux de données dédiés
Suédois7,0 %Solide pour une langue plus petite ; les corpus nordiques sont bien organisés
Norvégien9,0 %Deux standards écrits (Bokmål/Nynorsk) compliquent l'évaluation
Ukrainien10,2 %Amélioration significative après 2022 grâce à la croissance des jeux de données
Danois9,6 %Phonétique difficile, mais bien représenté

Pour les langues du Palier 2, le choix du modèle commence à compter. Whisper large-v3, NVIDIA Canary-1B-v2 et Google USM ont tendance à se relayer en tête selon la langue spécifique, il vaut donc la peine de vérifier des comparaisons spécifiques aux benchmarks avant de standardiser un pipeline.

Palier 3 : précision moyenne (12-20 % WER)

Ces langues sont celles où la transcription IA devient visiblement imparfaite. Les transcriptions restent exploitables comme premier jet, mais attendez-vous à corriger plusieurs erreurs par minute d'audio, en particulier autour des entités nommées, des chiffres et des particules de discours.

LangueWhisper large-v3 FLEURS WERNotes
Vietnamien13,6 %Tonale ; les erreurs de ton sont courantes
Hindi13,8 %Forte variance selon les accents et alternance codique avec l'anglais
Thaï13,3 % (CER)L'absence d'espaces entre les mots complique la tokenisation
Grec13,5 %Corpus d'entraînement plus petit que les autres langues européennes
Roumain14,9 %S'améliore rapidement à mesure que les jeux de données grandissent
Hébreu15,9 %Écriture de droite à gauche, morphologie riche
Indonésien13,4 %Solide pour son niveau de ressources
Croate17,7 %Les caractéristiques partagées avec d'autres langues slaves du sud aident
Serbe15,7 %Écritures cyrillique et latine prises en charge
Tchèque13,5 %Solide malgré la complexité morphologique
Bulgare15,6 %Langue slave au niveau de ressources modéré

L'alternance codique -- où les locuteurs alternent entre deux langues dans un même énoncé -- tend à pénaliser plus fortement les langues du Palier 3 que celles du Palier 1, car les données d'entraînement sont moins susceptibles d'inclure la paire linguistique spécifique.

Palier 4 : précision inférieure (20-40 % WER)

Les langues de ce palier comptent souvent des centaines de millions de locuteurs mais disposent de données d'entraînement annotées limitées. La transcription produit un premier jet plus rapide à éditer qu'à partir de zéro mais nécessite une révision humaine substantielle.

LangueWhisper large-v3 FLEURS WERNotes
Tamoul29,4 %Langue dravidienne à morphologie complexe
Bengali28,8 %Large base de locuteurs mais sous-représentée dans l'entraînement
Télougou32,8 %Défis similaires au tamoul
Swahili34,2 %Lingua franca de l'Afrique de l'Est, taille des jeux de données en croissance
Philippin (tagalog)22,4 %L'alternance codique intensive avec l'anglais est courante dans la parole naturelle
Malais21,3 %Les caractéristiques partagées avec l'indonésien aident
Ourdou26,3 %Apparenté au hindi mais écrit en alphabet perso-arabe
Népalais30,0 %Petit corpus d'entraînement
Pendjabi29,1 %L'alternance codique pendjabi-anglais est courante
Kannada33,5 %Famille dravidienne
Marathi30,7 %Langue indo-aryenne aux ressources modérées

Pour les langues du Palier 4, les flux de travail hybrides où l'IA produit le premier jet et un éditeur locuteur natif le nettoie constituent généralement l'option au plus haut rendement. La transcription purement humaine reste plus rapide que la correction d'une sortie IA lourdement déformée dans de nombreux cas.

Palier 5 : faibles ressources et expérimental (>40 % WER)

Ces langues ont soit des données annotées très limitées, soit une distance phonétique significative par rapport à toute langue sur laquelle le modèle a été entraîné, soit les deux. La transcription dans ces langues est exploitable pour l'indexation et la recherche de contenu mais pas pour du texte publiable.

Exemples : amharique (Éthiopie, ~42 % WER), yoruba (Nigéria, ~43 % WER), cinghalais (Sri Lanka, ~48 % WER), khmer (Cambodge, ~50 % WER), lao (Laos, ~52 % WER), birman (~55 % WER) et maltais (~45 % WER). Les chiffres varient significativement selon les modèles et les benchmarks. L'écart se réduit à mesure que les jeux de données communautaires se développent, mais pour les cas d'usage de production dans ces langues, les fournisseurs spécialisés ayant investi dans des données propres à la langue surpassent généralement les modèles à usage général de 5 à 15 points de WER.

Ce qui explique l'écart de précision

Trois facteurs expliquent la majeure partie de la variance du WER entre les langues.

Le volume des données d'entraînement est le prédicteur unique le plus puissant. Whisper a été entraîné sur 680 000 heures d'audio, mais 65 % de celles-ci étaient en anglais. Les langues à ressources plus élevées obtiennent des dizaines de milliers d'heures ; les langues à ressources les plus faibles n'en obtiennent que quelques centaines. Chaque doublement des données d'entraînement divise approximativement par deux le WER résiduel jusqu'à l'apparition de rendements décroissants.

La complexité phonétique et morphologique crée des effets de plafond même avec des données abondantes. Les langues tonales (mandarin, vietnamien, thaï, yoruba) forcent le modèle à distinguer des mots phonétiquement similaires par le contour mélodique. Les langues agglutinantes (turc, finnois, swahili) construisent de longs mots à partir de nombreux morphèmes, ce qui interagit avec la tokenisation. Les écritures de droite à gauche (arabe, hébreu) et les systèmes d'écriture logographiques (chinois, japonais) déplacent la métrique du WER vers le taux d'erreur par caractère et modifient ce qui compte comme une substitution.

L'adéquation du domaine audio compte autant que la langue. Un modèle entraîné principalement sur des données de livres audio lus obtiendra de moins bons résultats sur de la conversation spontanée dans la même langue. Pour les cas d'usage de transcription professionnels (réunions, entretiens, podcasts), le choix du modèle doit être éclairé par le fait que le fournisseur affine ou non sur de l'audio conversationnel ou de diffusion, plutôt que seulement sur du monologue propre.

Comment améliorer la précision pour les langues des paliers inférieurs

Il existe des étapes pratiques qui réduisent significativement le WER pour n'importe quelle langue, bien que l'impact soit plus grand lorsque la ligne de base est plus élevée.

Améliorez l'audio avant de transcrire. La réduction du bruit, l'isolation des locuteurs et des niveaux d'enregistrement cohérents peuvent réduire le WER de 2 à 5 points sur de l'audio réel. Ce guide sur la qualité audio couvre les gains les plus rapides.

Fournissez un contexte de domaine. De nombreuses API de transcription acceptent une liste de termes techniques, de noms propres ou de phrases susceptibles d'apparaître dans l'audio. Ces vocabulaires biaisés réduisent les erreurs de substitution pour le jargon sectoriel et les entités nommées de 10 à 30 % lorsqu'ils sont correctement configurés.

Choisissez le bon modèle par langue. Whisper domine sur certaines langues, NVIDIA Canary sur d'autres, et les fournisseurs spécialisés par langue sur quelques-unes (notamment le japonais, le coréen et l'arabe). Si une langue spécifique est critique pour votre flux de travail, tester 2 ou 3 fournisseurs sur un échantillon représentatif vaut l'heure investie.

Utilisez un éditeur humain pour la dernière ligne droite. Pour le Palier 3 et inférieur, un éditeur locuteur natif révisant une transcription IA est environ 5 à 8 fois plus rapide qu'une transcription à partir de zéro, et la précision finale dépasse 98 %.

Des plateformes comme Vocova prennent en charge la transcription dans plus de 100 langues avec détection automatique de la langue, ce qui élimine la friction du choix du bon modèle par langue. La détection a lieu avant le début de la transcription, donc vous n'avez pas besoin d'étiqueter vos fichiers audio par langue à l'avance.

Questions fréquemment posées

Quelle langue bénéficie de la transcription la plus précise ?

L'anglais bénéficie de la transcription IA la plus précise en 2026, avec des modèles de pointe atteignant 1,4 à 2,7 % de WER sur de l'audio propre LibriSpeech et environ 4 % de WER sur de la parole spontanée en conditions réelles. L'espagnol, le mandarin, le français, l'allemand, l'italien et le portugais suivent de près dans la plage 3-6 % de WER.

Quelle est la précision de Whisper selon les langues ?

Whisper large-v3 atteint moins de 10 % de WER sur environ 30 langues au benchmark FLEURS, incluant toutes les langues du Palier 1 et la plupart du Palier 2 de ce guide. Sa précision se dégrade fortement en dessous de ce palier, certaines langues à faibles ressources dépassant 50 % de WER.

Quel WER est considéré comme « bon » ?

Pour la plupart des applications professionnelles, un WER inférieur à 10 % produit une transcription plus rapide à lire et à éditer que l'audio original. En dessous de 5 %, on considère généralement que la précision est quasi humaine. Au-dessus de 20 %, une correction manuelle significative est nécessaire pour être exploitable comme texte publié.

Pourquoi ma transcription allemande est-elle plus précise que ma transcription thaï ?

L'allemand est une langue du Palier 1 avec des dizaines de milliers d'heures de données d'entraînement, des caractéristiques phonétiques partagées avec l'anglais (qui possède le plus grand jeu de données) et une large adoption dans la transcription commerciale. Le thaï est une langue tonale sans espaces avec significativement moins de données d'entraînement annotées. Même les meilleurs modèles présentent un écart de WER de 7 à 10 points entre les deux.

Puis-je améliorer la précision de la transcription pour ma langue spécifique ?

Oui. Les améliorations de la qualité audio, les vocabulaires personnalisés et les données d'entraînement spécifiques aux locuteurs peuvent tous réduire le WER de 5 à 15 % dans la plupart des langues. Pour le Palier 3 et inférieur, l'utilisation d'un flux de travail hybride IA + éditeur humain produit une précision finale supérieure à 98 % à une fraction du coût de la transcription purement humaine.

Les benchmarks de transcription de FLEURS et Common Voice sont-ils comparables à l'audio réel ?

Pas directement. L'audio de benchmark est généralement plus propre, lu plutôt que spontané, et enregistré avec un équipement professionnel. L'audio en conditions réelles (réunions, appels téléphoniques, entretiens de rue) produit généralement 5 à 15 points de WER supplémentaires par rapport à l'audio de benchmark pour la même langue et le même modèle.

Synthèse

La précision de la transcription IA en 2026 est fonction du palier de langue, de la qualité audio et de l'adéquation modèle-tâche. Les langues du Palier 1 offrent une précision quasi humaine sur audio propre ; le Palier 3 nécessite une édition ; le Palier 5 est expérimental. L'écart entre les meilleures performances et la performance moyenne sur de l'audio réel s'est creusé à mesure que les modèles de pointe ont progressé plus rapidement que ceux de milieu de gamme, rendant le choix de l'outil plus conséquent qu'il ne l'était il y a trois ans.

Si vous construisez ou choisissez un pipeline de transcription, la chose la plus utile que vous puissiez faire est de tester votre langue spécifique et votre domaine audio sur 2 ou 3 échantillons représentatifs avant de vous engager. Les benchmarks sont un point de départ, pas une décision.

Sources et lectures complémentaires

  • OpenAI, « Robust Speech Recognition via Large-Scale Weak Supervision » (Whisper paper, 2022)
  • Google Research, « FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech » (2022)
  • Hugging Face Open ASR Leaderboard
  • NVIDIA, Canary-1B-v2 model card
  • Mozilla Common Voice datasets
  • Vocova sur la transcription multilingue

Articles associes

Lire la suite
10 févr. 2026·16 min

Qu'est-ce que le taux d'erreur sur les mots (WER) ? La métrique qui mesure la précision de transcription

Lire la suite
6 mai 2026·14 min

Comment transcrire de l'audio dans plusieurs langues : guide de workflow 2026

Lire la suite
25 févr. 2026·15 min

Comment l'IA transforme la communication multilingue

Produit

  • Tarifs
  • Blog
  • Voir tous les outils

Solutions

  • Pour les podcasteurs
  • Pour les créateurs vidéo
  • Entretiens multilingues

Entreprise

  • À propos
  • FAQ
  • Conditions d'utilisation
  • Politique de confidentialite
  • Contact

Transcription

  • Audio en texte
  • Video en texte
  • Transcription de podcasts
  • Transcription d'entretiens
  • Transcription de cours

Plateforme

  • Lien vidéo en texte
  • Transcription YouTube
  • YouTube vers SRT
  • Transcription Apple Podcasts
  • Transcription Zoom
  • Transcription Google Meet
  • Transcription TikTok
  • TikTok vers SRT
  • Transcription Loom
  • Transcription Bilibili
  • Transcription Vimeo
  • Transcription Instagram
  • Transcription Facebook
  • Transcription X (Twitter)
  • Transcription SoundCloud
  • Transcription Reddit
  • Transcription Dailymotion

Langue

  • Transcription japonaise
  • Transcription espagnol
  • Transcription français
  • Transcription allemand
  • Transcription portugais
  • Transcription coréen
  • Transcription chinoise
  • Transcription arabe
  • Transcription hindi
  • Transcription italienne
  • Transcription russe
  • Transcription thaï
  • Transcription vietnamienne
  • Transcription turque
  • Transcription indonésien
  • Transcription néerlandaise
  • Transcription polonais
  • Transcription suédois
  • Transcription cantonnais
  • Transcription tagalog

Traduction

  • Traduction audio
  • Sous-titres bilingues
  • Traduction vidéo
  • Japonais vers anglais
  • Chinois vers anglais
  • Espagnol vers anglais
  • Coréen vers anglais
  • Français vers anglais

Format

  • MP4 vers SRT
  • MP4 vers TXT
  • Vidéo vers PDF
  • MP4 en texte
  • MP3 en texte
  • WAV en texte
  • M4A en texte
  • MOV en texte
  • Générateur SRT
  • Générateur VTT
  • Générateur de sous-titres

Convertisseur

  • Convertisseur audio
  • Convertisseur vidéo
  • MP4 vers MP3

Résumer

  • Résumeur de podcasts
  • Résumeur YouTube
Vocova

© 2026 NOWGIC LTD. All rights reserved.

Featured on Product Hunt