Voxtral Transcribe 2 : transcription vocale rapide et précise pour 2026

Mistral

Un bureau moderne à aire ouverte présente plusieurs personnes collaborant autour de bureaux en bois, avec des ordinateurs portables et des blocs-notes dispersés, de la verdure ajoutant une touche chaleureuse, et de grandes fenêtres laissant entrer une abondante lumière naturelle dans un espace décoré d'une fresque de circuits muraux ; c'est l'endroit idéal pour la productivité et les discussions innovantes sur les logiciels comme Voxtral Transcribe 2, la solution de reconnaissance vocale rapide et précise pour 2026.

Pas sûr de quoi faire ensuite avec l'IA?Évaluez la préparation, les risques et les priorités en moins d'une heure.

➔ Téléchargez notre kit de préparation à l'IA gratuit

Voxtral Transcribe 2 est la dernière version de transcription vocale de Mistral, combinant un modèle par lot (Mini Transcribe V2) et un modèle de streaming (Realtime). Il ajoute une latence inférieure à 200 ms, une précision en 13 langues, la diarisation, le biais contextuel, et des horodatages au niveau des mots, avec une tarification à partir de 0,003 $ par minute et des poids ouverts pour Realtime sous Apache 2.0.

Pourquoi Voxtral est important maintenant

La voix en temps réel est en plein essor, et les équipes ont besoin d'une transcription rapide, multilingue et privée de par sa conception. Voxtral Transcribe 2 offre un streaming inférieur à 200 ms, une précision compétitive dans 13 langues, et une flexibilité de déploiement partout — y compris des poids ouverts pour une utilisation en périphérie.

Nouveautés de Voxtral Transcribe 2

  • Deux modèles, une seule version : Mini Transcribe V2 (par lot) + Realtime (streaming).

  • Latence : Realtime configurable jusqu'à moins de 200 ms ; le mode ~2.4s correspond à Mini V2 pour une précision de sous-titrage.

  • Langues : 13 prises en charge (EN, ZH, HI, ES, AR, FR, PT, RU, DE, JA, KO, IT, NL).

  • Poids ouverts : Realtime sous Apache 2.0 pour les déploiements en périphérie/privés.

  • Rapport prix-performance : Mini V2 à environ 0,003 $/min vise le plus bas WER au prix le plus bas ; Realtime à environ 0,006 $/min.

Fonctionnalités clés pour les entreprises

  • Diarisation des locuteurs : Qui a dit quoi et quand, avec des segments étiquetés ; gère la plupart des scénarios (note : la parole chevauchée est transcrite comme un seul locuteur).

  • Biais contextuel : Jusqu'à 100 termes pour ajuster les orthographes pour les marques, le jargon et les noms (optimisé pour l'anglais).

  • Horodatages au niveau des mots : Alignement précis pour les sous-titres, les pistes d'audit et la recherche.

  • Robustesse au bruit et fichiers longs : Fonctionne dans des conditions acoustiques difficiles ; prend en charge les enregistrements jusqu'à 3 heures.

  • Sécurité et conformité : Supporte les déploiements conformes au RGPD/HIPAA ; fonctionne sur site ou en cloud privé.

Comment Voxtral se compare

Mistral positionne Mini V2 comme le meilleur rapport qualité-prix avec un faible WER, et Realtime avec une précision proche de l'hors ligne à des latences en direct. Le post affirme une surperformance par rapport à GPT-4o mini Transcribe (OpenAI), Gemini 2.5 Flash (Google), Assembly Universal (AssemblyAI), et Deepgram Nova (Deepgram), avec un traitement environ 3× plus rapide qu'ElevenLabs Scribe v2 à environ un cinquième du coût — selon les repères de Mistral. Toujours vérifier avec votre audio avant de changer.

Utilisations pratiques

  • Intelligence des réunions : Notes multilingues avec diarisation pour une attribution claire.

  • Agents vocaux : STT en temps réel (<200ms) pour un échange naturel avec votre pipeline LLM + TTS.

  • Centres d'appels : Orientation en direct, remplissage automatique CRM, et sentiment pendant les appels.

  • Diffusion & médias : Sous-titres en direct à faible latence ; résilient aux noms et au jargon grâce au biais contextuel.

  • Conformité : Horodatages et diarisation pour soutenir les audits.

Essayez-le maintenant

Vous pouvez tester Voxtral Transcribe 2 immédiatement dans le bac à sable audio de Mistral Studio (téléchargez jusqu'à 10 fichiers, activez la diarisation, définissez la granularité des horodatages, et ajoutez des termes biaisés), ou intégrez via l'API. Mini V2 est répertorié à 0,003 $/min ; Realtime à 0,006 $/min ; les poids Realtime sont sur Hugging Face sous Apache 2.0.

Résumé

Si vous avez besoin d'un STT rapide, précis et contrôlable avec des fonctionnalités d'entreprise — et voulez l'option de fonctionner en privé — Voxtral Transcribe 2 est convaincant. Commencez dans le bac à sable, comparez avec votre propre audio, puis choisissez Mini V2 pour les lots ou Realtime pour l'utilisation en direct.

FAQ

Est-ce que Voxtral Realtime est vraiment inférieur à 200ms ?
Oui — l'architecture de streaming transcrit à mesure que l'audio arrive, avec un retard configurable jusqu'à moins de 200 ms.

Quelles langues prend-il en charge ?
Treize : Anglais, Chinois, Hindi, Espagnol, Arabe, Français, Portugais, Russe, Allemand, Japonais, Coréen, Italien, Néerlandais.

Fait-il la diarisation et les horodatages ?
Oui — diarisation avec étiquettes et heures de début/fin, plus horodatages au niveau des mots pour l'alignement.

Puis-je le déployer sur site ou en périphérie ?
Oui — Realtime est livré avec des poids ouverts (Apache 2.0) et les deux modèles prennent en charge des configurations privées/cloud conformes au RGPD/HIPAA.

Quel en est le coût ?
Tarification indicative : Mini V2 environ 0,003 $/min ; Realtime environ 0,006 $/min (vérifiez Mistral pour les derniers tarifs).

Recevez chaque semaine des nouvelles et des conseils sur l'IA directement dans votre boîte de réception

En vous abonnant, vous consentez à ce que Génération Numérique stocke et traite vos informations conformément à notre politique de confidentialité. Vous pouvez lire la politique complète sur gend.co/privacy.

Génération
Numérique

Bureau du Royaume-Uni

Génération Numérique Ltée
33 rue Queen,
Londres
EC4R 1AP
Royaume-Uni

Bureau au Canada

Génération Numérique Amériques Inc
181 rue Bay, Suite 1800
Toronto, ON, M5J 2T9
Canada

Bureau aux États-Unis

Generation Digital Americas Inc
77 Sands St,
Brooklyn, NY 11201,
États-Unis

Bureau de l'UE

Génération de logiciels numériques
Bâtiment Elgee
Dundalk
A91 X2R3
Irlande

Bureau du Moyen-Orient

6994 Alsharq 3890,
An Narjis,
Riyad 13343,
Arabie Saoudite

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)

Numéro d'entreprise : 256 9431 77 | Droits d'auteur 2026 | Conditions générales | Politique de confidentialité