Voxtral Transcribe 2: transcripción de voz a texto rápida y precisa para 2026
Mistral

¿No sabes por dónde empezar con la IA?Evalúa preparación, riesgos y prioridades en menos de una hora.
➔ Descarga nuestro paquete gratuito de preparación para IA
Voxtral Transcribe 2 es la última versión de conversión de voz a texto de Mistral que combina un modelo por lote (Mini Transcribe V2) y un modelo de transmisión (Realtime). Añade latencia inferior a 200 ms, precisión en 13 idiomas, diarización, sesgo de contexto y marcas de tiempo a nivel de palabra, con precios desde $0.003 por minuto y pesos abiertos para Realtime bajo Apache 2.0.
Por qué Voxtral es importante ahora
La voz en tiempo real está en auge, y los equipos necesitan transcripción que sea rápida, multilingüe y privada por diseño. Voxtral Transcribe 2 ofrece transmisión con latencia inferior a 200 ms, precisión competitiva en 13 idiomas y flexibilidad para desplegar en cualquier lugar, incluidas las implementaciones en el borde con pesos abiertos.
Qué hay de nuevo en Voxtral Transcribe 2
Dos modelos, una versión: Mini Transcribe V2 (lote) + Realtime (transmisión).
Latencia: Realtime configurable hasta menos de 200 ms; modo de ~2.4 s iguala a Mini V2 para precisión de subtitulado.
Idiomas: 13 soportados (EN, ZH, HI, ES, AR, FR, PT, RU, DE, JA, KO, IT, NL).
Pesos abiertos: Realtime bajo Apache 2.0 para implementaciones en borde/privadas.
Rendimiento de precio: Mini V2 a ~$0.003/min apunta al WER más bajo al menor costo; Realtime a ~$0.006/min.
Capacidades clave para empresas
Diarización de oradores: Quién dijo qué y cuándo, con segmentos etiquetados; maneja la mayoría de los escenarios (nota: el habla superpuesta se transcribe como un solo orador).
Sesgo de contexto: Hasta 100 términos para ajustar ortografías de marcas, jerga y nombres (optimizado para inglés).
Marcas de tiempo a nivel de palabra: Alineación precisa para subtítulos, pistas de auditoría y búsqueda.
Robustez al ruido y archivos largos: Funciona en acústicas difíciles; soporta grabaciones de hasta 3 horas.
Seguridad y cumplimiento: Soporta implementaciones conformes a GDPR/HIPAA; se puede ejecutar en instalaciones o nube privada.
Cómo se compara Voxtral
Mistral posiciona a Mini V2 como de mejor rendimiento en relación calidad-precio con bajo WER, y Realtime como precisión casi de conexión sin conexión en latencias en vivo. La publicación afirma un mejor rendimiento frente a GPT-4o mini Transcribe (OpenAI), Gemini 2.5 Flash (Google), Assembly Universal (AssemblyAI) y Deepgram Nova (Deepgram), y aproximadamente 3 veces más rápido en procesamiento que ElevenLabs Scribe v2 a aproximadamente una quinta parte del costo, según las evaluaciones de Mistral. Siempre confirme con su audio antes de cambiar.
Usos prácticos
Inteligencia de reuniones: Notas multilingües con diarización para atribución clara.
Agentes de voz: STT en tiempo real (<200 ms) para turnos naturales con su canalización de LLM + TTS.
Centros de contacto: Guía en vivo, autocompletar CRM y análisis de sentimiento durante las llamadas.
Difusión y medios: Subtítulos en vivo de baja latencia; resistente a nombres y jerga usando sesgo de contexto.
Cumplimiento: Marcas de tiempo y diarización para apoyar auditorías.
Pruébelo ahora
Puede probar Voxtral Transcribe 2 inmediatamente en el campo de pruebas de audio de Mistral Studio (subir hasta 10 archivos, activar la diarización, configurar granulación de marcas de tiempo y añadir términos de sesgo), o integrarlo vía API. Mini V2 está listado a $0.003/min; Realtime a $0.006/min; los pesos de Realtime están en Hugging Face bajo Apache 2.0.
Resumen
Si necesita una conversión de voz a texto rápida, precisa y controlable con características empresariales, y desea la opción de operar de forma privada, Voxtral Transcribe 2 es una opción convincente. Comience en el campo de pruebas, evalúe con su propio audio, luego elija Mini V2 para lotes o Realtime para uso en vivo.
FAQ
¿Realtime de Voxtral realmente tiene menos de 200 ms?
Sí, la arquitectura de transmisión transcribe a medida que llega el audio, con un retraso configurable por debajo de 200 ms.
¿Qué idiomas soporta?
Trece: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano, neerlandés.
¿Hace diarización y marcas de tiempo?
Sí, diarización con etiquetas y tiempos de inicio/fin, además de marcas de tiempo a nivel de palabra para alineación.
¿Puedo implementarlo en las instalaciones o en el borde?
Sí, Realtime se entrega con pesos abiertos (Apache 2.0) y ambos modelos soportan configuraciones privadas/nube alineadas con GDPR/HIPAA.
¿Cuál es el costo?
Precio indicativo: Mini V2 ~$0.003/min; Realtime ~$0.006/min (verifique con Mistral para actualizaciones).
Recibe noticias y consejos sobre IA cada semana en tu bandeja de entrada
Al suscribirte, das tu consentimiento para que Generation Digital almacene y procese tus datos de acuerdo con nuestra política de privacidad. Puedes leer la política completa en gend.co/privacy.
Generación
Digital

Oficina en Reino Unido
Generation Digital Ltd
33 Queen St,
Londres
EC4R 1AP
Reino Unido
Oficina en Canadá
Generation Digital Americas Inc
181 Bay St., Suite 1800
Toronto, ON, M5J 2T9
Canadá
Oficina en EE. UU.
Generation Digital Américas Inc
77 Sands St,
Brooklyn, NY 11201,
Estados Unidos
Oficina de la UE
Software Generación Digital
Edificio Elgee
Dundalk
A91 X2R3
Irlanda
Oficina en Medio Oriente
6994 Alsharq 3890,
An Narjis,
Riad 13343,
Arabia Saudita
Número de la empresa: 256 9431 77 | Derechos de autor 2026 | Términos y Condiciones | Política de Privacidad









