Voxtral Transcribe 2: transcripción de voz a texto rápida y precisa para 2026

Mistral

Una oficina moderna con un diseño abierto presenta a varias personas colaborando alrededor de escritorios de madera, con laptops y cuadernos distribuidos, plantas que añaden calidez y grandes ventanas que permiten la entrada de abundante luz natural en un espacio con un mural de circuito en la pared; ideal para la productividad y discusiones innovadoras sobre software, como Voxtral Transcribe 2, la solución rápida y precisa de transcripción de voz a texto para 2026.

¿No sabes por dónde empezar con la IA?Evalúa preparación, riesgos y prioridades en menos de una hora.

➔ Descarga nuestro paquete gratuito de preparación para IA

Voxtral Transcribe 2 es la última versión de conversión de voz a texto de Mistral que combina un modelo por lote (Mini Transcribe V2) y un modelo de transmisión (Realtime). Añade latencia inferior a 200 ms, precisión en 13 idiomas, diarización, sesgo de contexto y marcas de tiempo a nivel de palabra, con precios desde $0.003 por minuto y pesos abiertos para Realtime bajo Apache 2.0.

Por qué Voxtral es importante ahora

La voz en tiempo real está en auge, y los equipos necesitan transcripción que sea rápida, multilingüe y privada por diseño. Voxtral Transcribe 2 ofrece transmisión con latencia inferior a 200 ms, precisión competitiva en 13 idiomas y flexibilidad para desplegar en cualquier lugar, incluidas las implementaciones en el borde con pesos abiertos.

Qué hay de nuevo en Voxtral Transcribe 2

  • Dos modelos, una versión: Mini Transcribe V2 (lote) + Realtime (transmisión).

  • Latencia: Realtime configurable hasta menos de 200 ms; modo de ~2.4 s iguala a Mini V2 para precisión de subtitulado.

  • Idiomas: 13 soportados (EN, ZH, HI, ES, AR, FR, PT, RU, DE, JA, KO, IT, NL).

  • Pesos abiertos: Realtime bajo Apache 2.0 para implementaciones en borde/privadas.

  • Rendimiento de precio: Mini V2 a ~$0.003/min apunta al WER más bajo al menor costo; Realtime a ~$0.006/min.

Capacidades clave para empresas

  • Diarización de oradores: Quién dijo qué y cuándo, con segmentos etiquetados; maneja la mayoría de los escenarios (nota: el habla superpuesta se transcribe como un solo orador).

  • Sesgo de contexto: Hasta 100 términos para ajustar ortografías de marcas, jerga y nombres (optimizado para inglés).

  • Marcas de tiempo a nivel de palabra: Alineación precisa para subtítulos, pistas de auditoría y búsqueda.

  • Robustez al ruido y archivos largos: Funciona en acústicas difíciles; soporta grabaciones de hasta 3 horas.

  • Seguridad y cumplimiento: Soporta implementaciones conformes a GDPR/HIPAA; se puede ejecutar en instalaciones o nube privada.

Cómo se compara Voxtral

Mistral posiciona a Mini V2 como de mejor rendimiento en relación calidad-precio con bajo WER, y Realtime como precisión casi de conexión sin conexión en latencias en vivo. La publicación afirma un mejor rendimiento frente a GPT-4o mini Transcribe (OpenAI), Gemini 2.5 Flash (Google), Assembly Universal (AssemblyAI) y Deepgram Nova (Deepgram), y aproximadamente 3 veces más rápido en procesamiento que ElevenLabs Scribe v2 a aproximadamente una quinta parte del costo, según las evaluaciones de Mistral. Siempre confirme con su audio antes de cambiar.

Usos prácticos

  • Inteligencia de reuniones: Notas multilingües con diarización para atribución clara.

  • Agentes de voz: STT en tiempo real (<200 ms) para turnos naturales con su canalización de LLM + TTS.

  • Centros de contacto: Guía en vivo, autocompletar CRM y análisis de sentimiento durante las llamadas.

  • Difusión y medios: Subtítulos en vivo de baja latencia; resistente a nombres y jerga usando sesgo de contexto.

  • Cumplimiento: Marcas de tiempo y diarización para apoyar auditorías.

Pruébelo ahora

Puede probar Voxtral Transcribe 2 inmediatamente en el campo de pruebas de audio de Mistral Studio (subir hasta 10 archivos, activar la diarización, configurar granulación de marcas de tiempo y añadir términos de sesgo), o integrarlo vía API. Mini V2 está listado a $0.003/min; Realtime a $0.006/min; los pesos de Realtime están en Hugging Face bajo Apache 2.0.

Resumen

Si necesita una conversión de voz a texto rápida, precisa y controlable con características empresariales, y desea la opción de operar de forma privada, Voxtral Transcribe 2 es una opción convincente. Comience en el campo de pruebas, evalúe con su propio audio, luego elija Mini V2 para lotes o Realtime para uso en vivo.

FAQ

¿Realtime de Voxtral realmente tiene menos de 200 ms?
Sí, la arquitectura de transmisión transcribe a medida que llega el audio, con un retraso configurable por debajo de 200 ms.

¿Qué idiomas soporta?
Trece: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano, neerlandés.

¿Hace diarización y marcas de tiempo?
Sí, diarización con etiquetas y tiempos de inicio/fin, además de marcas de tiempo a nivel de palabra para alineación.

¿Puedo implementarlo en las instalaciones o en el borde?
Sí, Realtime se entrega con pesos abiertos (Apache 2.0) y ambos modelos soportan configuraciones privadas/nube alineadas con GDPR/HIPAA.

¿Cuál es el costo?
Precio indicativo: Mini V2 ~$0.003/min; Realtime ~$0.006/min (verifique con Mistral para actualizaciones).

Recibe noticias y consejos sobre IA cada semana en tu bandeja de entrada

Al suscribirte, das tu consentimiento para que Generation Digital almacene y procese tus datos de acuerdo con nuestra política de privacidad. Puedes leer la política completa en gend.co/privacy.

Generación
Digital

Oficina en Reino Unido

Generation Digital Ltd
33 Queen St,
Londres
EC4R 1AP
Reino Unido

Oficina en Canadá

Generation Digital Americas Inc
181 Bay St., Suite 1800
Toronto, ON, M5J 2T9
Canadá

Oficina en EE. UU.

Generation Digital Américas Inc
77 Sands St,
Brooklyn, NY 11201,
Estados Unidos

Oficina de la UE

Software Generación Digital
Edificio Elgee
Dundalk
A91 X2R3
Irlanda

Oficina en Medio Oriente

6994 Alsharq 3890,
An Narjis,
Riad 13343,
Arabia Saudita

UK Fast Growth Index UBS Logo
Financial Times FT 1000 Logo
Febe Growth 100 Logo (Background Removed)

Número de la empresa: 256 9431 77 | Derechos de autor 2026 | Términos y Condiciones | Política de Privacidad