Cohere Transcribe: ASR open source

Actualizado el 27/03/2026: Cohere Transcribe ya está disponible públicamente. Hemos completado el artículo con información sobre instalación, precios en cada modalidad, y una sección de FAQ sobre las limitaciones reales para equipos hispanohablantes.

El modelo Cohere Transcribe es el primer modelo de voz open source de Cohere, lanzado el 26 de marzo de 2026. Con 2.000 millones de parámetros, logra un WER promedio de 5,42 en el leaderboard de Hugging Face Open ASR, superando a modelos como ElevenLabs Scribe v2 y IBM Granite 4.0 1B, y puede procesar 525 minutos de audio por minuto.

En 30 segundos

Cohere lanzó Transcribe el 26 de marzo de 2026: su primer modelo ASR open source, con 2B de parámetros y optimizado para GPUs de consumo.
WER promedio de 5,42 en Hugging Face Open ASR Leaderboard, el más bajo del benchmark al momento del lanzamiento.
Soporta 14 idiomas, pero rinde por debajo de la competencia en español, portugués y alemán.
Procesa 525 minutos de audio en un minuto, lo que es alto para un modelo de su clase.
Disponible gratis en Hugging Face y en la Cohere Platform; también va a integrarse en su plataforma de orquestación de agentes.

Cohere es una empresa canadiense que desarrolla modelos de inteligencia artificial, incluyendo modelos de lenguaje grandes para procesamiento de texto y reconocimiento de voz. Proporciona acceso a través de API y ha lanzado modelos open-source.

Qué es Cohere Transcribe y por qué es relevante

Ponele que tenés una reunión de una hora grabada y necesitás el texto limpio para el CRM, el ticket de soporte o el sistema de notas del equipo. Hasta ahora, la mayoría de los equipos que querían algo open source y confiable terminaban en Whisper Large-v3 de OpenAI, o pagando por APIs de terceros. Cohere entró ese espacio el 26 de marzo de 2026 con Transcribe, su primer modelo de reconocimiento automático de voz (ASR), y la movida tiene sentido: la demanda de apps de dictado, toma de notas y análisis de voz está creciendo y el mercado open source todavía tiene huecos.

El modelo Cohere Transcribe no es un modelo de voz genérico. Cohere lo diseñó específicamente para transcripción, lo que significa que no genera audio ni hace síntesis de voz. Toda la capacidad computacional apunta a convertir audio en texto con la mayor precisión posible. Ese foco tiene consecuencias concretas en el benchmark.

La empresa es conocida principalmente por sus modelos de lenguaje para empresas, así que entrar al espacio de voz con un modelo open source es un movimiento interesante. La pregunta obvia es: ¿lo hicieron bien o es uno de esos lanzamientos que zafa en el papel pero no en producción?

Especificaciones técnicas y rendimiento del modelo Cohere Transcribe

El modelo tiene 2.000 millones de parámetros. Para ASR, eso no es poco: Whisper Large-v3 de OpenAI también anda por esa zona, y es el referente que más equipos usan hoy. Lo interesante es que Cohere lo dimensionó para que corra en GPUs de consumo, sin requerir infraestructura de datacenter para self-hosting. Te puede servir nuestra cobertura de en nuestro análisis de modelos de lenguaje.

El dato de velocidad es llamativo: Cohere afirma que Transcribe puede procesar 525 minutos de audio en un minuto. Para un modelo de 2B de parámetros, eso es alto. Si alguna vez procesaste audio en batch con Whisper Large sabés que la velocidad puede ser un cuello de botella serio, especialmente cuando tenés colas de cientos de grabaciones. Ese throughput podría ser un diferencial real para pipelines de producción.

Sobre precisión: el WER (Word Error Rate) promedio de 5,42 en el Hugging Face Open ASR Leaderboard lo pone arriba de todos los modelos listados en el benchmark al momento del lanzamiento. El WER mide el porcentaje de palabras que el modelo transcribe mal, así que más bajo es mejor. Eso sí: el benchmark es administrado por Hugging Face, pero los números que Cohere reporta sobre su propio modelo son del propio fabricante (tomalo con pinzas hasta que alguien lo verifique de forma independiente en tu caso de uso específico).

El otro dato de precisión que Cohere publica: en evaluaciones con jueces humanos, Transcribe ganó el 61% de las comparaciones contra otros modelos, medidas por exactitud, coherencia y usabilidad. No queda del todo claro cuántos evaluadores participaron ni cuál fue la metodología exacta, pero la tasa de victorias del 61% es suficientemente alta como para que no sea ruido estadístico.

Idiomas soportados y las limitaciones que Cohere reconoció

El modelo soporta 14 idiomas: inglés, francés, alemán, italiano, español, portugués, griego, holandés, polaco, chino, japonés, coreano, vietnamita y árabe.

Acá viene lo que no suele estar en los titulares: Cohere reconoció que Transcribe rinde por debajo de los competidores en portugués, alemán y español. Sí, tres de los idiomas más relevantes para el mercado hispanohablante y lusófono están en la columna de “fallo relativo”. Para un equipo en Argentina, México o Brasil, eso importa mucho más que el WER promedio en inglés.

¿Qué tan abajo queda en español? La empresa no publicó el desglose por idioma en el comunicado inicial (lo que ya de por sí es una señal). Hasta que aparezcan benchmarks independientes por idioma, cualquier decisión de adoptarlo para transcripción de audio en español debería incluir una fase de prueba con tu propio corpus de audio antes de mandarlo a producción. Lo explicamos a fondo en bajo estándares de seguridad corporativa.

Comparativa con otros modelos ASR open source

Para ponerlo en contexto, acá están los modelos que compiten directamente y los números que Cohere reporta en el leaderboard de Hugging Face:

Modelo	WER promedio	Parámetros	Open Source	Self-hosting
Cohere Transcribe	5,42	2B	Sí	Sí
Whisper Large-v3 (OpenAI)	~7,44	1.5B	Sí	Sí
IBM Granite 4.0 1B	>5,42	1B	Sí	Sí
Zoom Scribe v1	>5,42	No publicado	No	No
ElevenLabs Scribe v2	>5,42	No publicado	No	No

modelo cohere transcribe diagrama explicativo

La comparación con Whisper es obligatoria: Whisper Large-v3 de OpenAI es el estándar del mercado. Cohere reclama 27% de mejora relativa en WER (pasar de 7,44 a 5,42 es una reducción real). IBM Granite 4.0 1B es interesante porque tiene la mitad de los parámetros y es multiplataforma, pero el WER más alto lo pone en desventaja en tareas donde la precisión es crítica.

ElevenLabs Scribe v2 no es open source pero es un competidor directo en el mercado de APIs pagas. Si Transcribe lo supera en WER siendo abierto y con menor costo de inferencia, eso sí es un argumento sólido para equipos que hoy pagan por esa API. La salvedad obvia: habría que verificarlo con tus propios audios antes de cancelar la suscripción.

Casos de uso reales: dónde tiene sentido y dónde no

Toma de notas y reuniones

El caso más obvio. Granola, Otter.ai y similares son apps que hoy usan ASR en el backend. Con Transcribe disponible via API gratuita, cualquier startup puede montar un servicio de transcripción de reuniones sin depender de un proveedor cerrado. El throughput de 525 minutos por minuto significa que podés procesar el backlog de un día de reuniones de una empresa mediana en segundos.

Análisis de voz y contact centers

Un contact center con 50 agentes genera fácilmente 400-600 horas de audio por semana. Transcribir eso para análisis de sentimiento, control de calidad o entrenamiento de modelos propios es un pipeline que hoy cuesta plata en APIs o tiempo en GPU. Transcribe abre la posibilidad de self-hosting a un costo de infraestructura mucho más manejable. Eso sí: si tu contact center es en español rioplatense o portugués brasileño, ya avisé que ahí el modelo viene flojo comparado con competidores. Cubrimos ese tema en detalle en compitiendo con soluciones como ChatGPT.

Integración en pipelines de agentes

Cohere planea integrar Transcribe en su plataforma de orquestación de agentes. Esto tiene sentido arquitectónico: un agente que puede recibir input de voz, transcribirlo y procesarlo con un LLM en el mismo ecosistema reduce la latencia y la cantidad de APIs externas en el pipeline. Para equipos que ya usan Command R o los modelos de Cohere, eso es un diferencial. No es una release date oficial todavía, pero está en el roadmap.

Cómo usar Cohere Transcribe: tres opciones de despliegue

Cohere Transcribe está disponible en Hugging Face bajo licencia Apache 2.0, lo que significa que podés bajarlo, modificarlo y usar el código libremente. Hay tres caminos para ponerlo en producción, cada uno con sus trade-offs.

Opción 1: Self-hosted con transformers de Hugging Face

La más simple para pilotos y MVP. Bajás el modelo desde Hugging Face, instalás `transformers` y `torch`, y podés correr la inferencia en tu máquina. Con una RTX 3090 o similar, el throughput real anda cerca del que Cohere reporta. El código es directo:

from transformers import pipeline
transcriber = pipeline("automatic-speech-recognition", model="CohereLabs/cohere-transcribe-03-2026")
result = transcriber("audio.wav", language="es")
print(result["text"])

La limitación: sin detección automática de idioma. Tenés que especificarlo explícitamente en el parámetro `language`. Eso es incómodo si tu pipeline recibe audio de múltiples idiomas.

Opción 2: API gratuita vía Cohere Dashboard

Cohere ofrece acceso API a través de su dashboard con rate limits generosos. Convertís el audio a base64, mandás un POST, y recibís el texto transcrito. Ideal para equipos que no quieren manejar infraestructura propia pero todavía quieren evitar cambios de vendor en el futuro (podés cambiar a self-hosted sin alterar el pipeline de usuario).

La desventaja: rate limits. Si necesitás procesar 1000 audios por hora simultáneamente, la API gratuita no te va a dar abasto.

Opción 3: Model Vault (managed inference)

Cohere’s Model Vault es la opción “production-ready”. Ejecuta el modelo en servidores de Cohere, optimizado con vLLM (hasta 2x más throughput). Sin rate limits para clientes pagos, con SLA de disponibilidad y auto-scaling automático. El pricing es por hora de inferencia, no por request, así que si tenés picos de carga impredecibles puede ser más barato que armar tu propia GPU. Trade-off: dependencia de Cohere y costo variable. Ya lo cubrimos antes en evolucionando desde modelos como GPT.

Preguntas frecuentes sobre Cohere Transcribe

¿Cohere Transcribe es completamente gratis?

El modelo open source sí: bajás el código, usás lo que quieras. La API gratuita de Cohere tiene rate limits (no especificados públicamente, hay que probar). Model Vault es de pago. Si querés self-hosting sin costos recurrentes, el modelo open source en tu hardware es la opción gratis.

¿Funciona realmente bien en español?

Cohere reconoce que no. El modelo rinde por debajo de competidores en español, portugués y alemán. No publicó números específicos por idioma, así que cualquier apuesta a producción en español requiere que testees con tu propio audio antes. Para inglés funciona excelente; para español, es un “probá primero”.

¿Necesito GPU para correr Transcribe?

Para inferencia rápida (525 minutos de audio por minuto), necesitás GPU. La CPU es viable pero mucho más lenta. Si tu caso de uso permite esperar, quizá CPU sea suficiente. De lo contrario, una RTX 3090, 4090, o similar. RTX 4000 menos potentes también funcionan pero más lentamente.

¿Qué tan bien se compara con Whisper de OpenAI?

Cohere reclama 27% de mejora relativa en WER (5,42 vs 7,44 de Whisper Large-v3). Para inglés, eso parece real según el leaderboard. Para otros idiomas, habría que testear. Whisper tiene más usuarios, más ejemplos en internet, más integración en herramientas. Transcribe es nuevo y más rápido, pero menos probado en la práctica. Para producción, la pregunta correcta no es cuál es teóricamente mejor, sino cuál funciona mejor con TU audio.

Conclusión: cuándo adoptar Cohere Transcribe

Cohere Transcribe es un modelo sólido que entra al mercado con números buenos en inglés y una velocidad genuinamente notable. El lanzamiento open source es el movimiento correcto: da credibilidad, permite que equipos lo adopten sin vendor lock-in, y genera comunidad de usuarios que van a reportar bugs y casos de uso reales.

Para equipos de habla inglesa que necesitan transcripción de alta precisión y throughput, es candidato inmediato. Reemplazaría Whisper sin dudarlo, al menos para testing. Para equipos en español o portugués, espera a que haya benchmarks independientes por idioma. Cohere fue honesto diciendo que no es el mejor en esos idiomas, así que respetá eso y testea con tu corpus real antes de comiterte.

En cuanto a integración con North (la plataforma de agentes de Cohere), cuando eso salga es donde el producto vuelca todo su potencial. Un agente que puede recibir voz, transcribir, procesar semánticamente y responder con texto o audio sin salir del ecosistema es atractivo. Hasta ahora son piezas sueltas; cuando se cierren, el pitch cambia.

¿Es Cohere Transcribe open source?

Sí, está disponible en Hugging Face bajo licencia Apache 2.0. Podés bajarlo, modificarlo y deployarlo libremente en tus propios servidores sin restricciones.

¿Funciona Cohere Transcribe en español?

El modelo soporta español, pero Cohere reconoció que rinde por debajo de competidores en este idioma. Te recomendamos hacer pruebas con tus propios audios antes de mandar a producción.

¿Cómo instalo Cohere Transcribe?

Tenés tres opciones: descargarlo desde Hugging Face con transformers, usar la Cohere Platform API, o esperar su integración en la plataforma de agentes. La más simple es pip install transformers y cargar el modelo.

¡Cohere lanza su modelo de transcripción open source!