GPT-4o voz bidireccional: latencia, BiDi y Realtime API

OpenAI mostró GPT-4o como un solo modelo que procesa audio, texto e imagen al mismo tiempo, con una latencia promedio de 320 milisegundos al hablar. Eso es lo que muchos llaman GPT-4o voz bidireccional, y cambia bastante respecto al modo de voz viejo que tardaba hasta 5,4 segundos en contestar. La gran pregunta hoy: ¿qué es “gpt-bidi-1” y cuánto de eso ya existe?

GPT-4o (la “o” es por omni) es el modelo multimodal de OpenAI presentado el 13 de mayo de 2024, capaz de recibir y generar texto, audio e imagen con una sola red neuronal. La voz bidireccional de GPT-4o procesa entrada de voz y texto en simultáneo y responde con audio en unos 320 milisegundos de promedio, frente a los varios segundos del sistema anterior que encadenaba tres modelos separados.

En 30 segundos

  • La latencia bajó de 5,4 segundos a 320 milisegundos. El modo de voz anterior promediaba hasta 5,4 s con GPT-4; GPT-4o contesta en 320 ms de promedio y baja a 232 ms en el mejor caso, según el anuncio oficial de OpenAI.
  • Una sola red neuronal, no tres modelos. Antes había transcripción, modelo de texto y voz sintética por separado; GPT-4o lo hace todo en un mismo modelo.
  • Sigue siendo por turnos. Hoy hablás, esperás y responde. No te interrumpe ni lo interrumpís de forma natural todavía.
  • “BiDi” es el nombre que circula para el full-duplex. Según reportes, OpenAI trabaja en hablar y escuchar al mismo tiempo, pero no hay fecha oficial confirmada.
  • Ya lo podés usar. Está en ChatGPT (modo de voz avanzado) y vía la Realtime API para quien programa.

¿Qué cambió en GPT-4o respecto al procesamiento de voz?

Ponele que en 2023 le hablabas a ChatGPT por voz. Lo que pasaba atrás era un Frankenstein: un modelo transcribía tu audio a texto, otro modelo (GPT-3.5 o GPT-4) pensaba la respuesta, y un tercero convertía ese texto de vuelta a voz. Tres pasos, tres modelos, y en el camino se perdía todo: el tono, las risas, el énfasis, si hablabas enojado o contento.

GPT-4o rompió ese esquema. Es un solo modelo entrenado de punta a punta sobre texto, audio e imagen, así que el mismo sistema que “escucha” es el que “responde”. Por eso capta matices que antes se evaporaban (sí, eso incluye detectar si estás apurado o si te reís). El propio OpenAI lo dejó claro en su anuncio del 13 de mayo de 2024. En cómo implementar un recepcionista virtual profundizamos sobre esto.

El tema es que esto no es solo cosmético. Menos pasos significa menos demora y menos pérdida de información. Y ahí aparece el número que dio que hablar.

¿Qué es la voz bidireccional de GPT-4o y cómo funciona?

Bidireccional acá quiere decir que el modelo maneja varios tipos de entrada y salida sobre el mismo canal. Le podés meter voz y texto, mirar una imagen en pantalla y preguntarle por audio, todo dentro de la misma conversación, sin saltar entre herramientas distintas.

Un ejemplo concreto: estás leyendo un PDF en inglés en la pantalla, le hablás en español pidiéndole que te resuma la página, y te contesta en voz. El modelo procesa el texto que ve y tu audio en simultáneo, sin pasar por tres etapas. Eso es lo que hace fluida la charla.

Ahora bien, ojo con un detalle clave: bidireccional no es lo mismo que full-duplex. GPT-4o procesa distintos formatos a la vez, pero la conversación todavía es por turnos. Vos hablás, terminás, y recién ahí arranca la respuesta. Lo de hablar pisándose, como dos personas reales, todavía no llegó. Ya lo cubrimos antes en seguridad al usar IA empresarialmente.

¿Cuál es la latencia real de GPT-4o en conversaciones?

Acá viene lo bueno: 320 milisegundos de promedio, con picos de 232 ms en el mejor de los casos. Para tener referencia, el tiempo de reacción humano en una charla ronda esos mismos valores. Por eso las demos sonaban tan naturales.

La diferencia con lo anterior es enorme. El modo de voz viejo promediaba 2,8 segundos con GPT-3.5 y hasta 5,4 segundos con GPT-4. Cualquiera que haya probado un asistente de voz con ese delay sabe lo incómodo que es: hacés la pregunta, mirás el techo, esperás, y recién ahí contesta. Con 320 ms esa sensación desaparece.

Eso sí: tomalo con pinzas. Los 232 ms son del propio fabricante y dependen de la red, la región y la carga del servidor. En una conexión flojita o con un servidor saturado, la experiencia real va a ser peor. La cobertura de Xataka destacó esos números, pero siempre conviene medir en tu propio caso.

¿Qué es BiDi y cuándo estaría disponible?

Acá entramos en terreno de rumores, así que pongámonos honestos. “BiDi” es el nombre en clave que, según reportes, usa OpenAI para su próximo salto: el full-duplex de verdad. O sea, un modelo que habla mientras te escucha, que podés interrumpir a mitad de frase y que te interrumpe a vos cuando hace falta, igual que una persona.

Un reporte de marzo de 2026 habló de una filtración que apuntaba en esa dirección, e incluso mencionó hardware asociado (auriculares, anteojos inteligentes, un dispositivo tipo lapicera). La pregunta es: ¿alguien lo confirmó de forma oficial? Todavía no. OpenAI no publicó un comunicado con fechas ni especificaciones.

Lo que sí está claro es que la voz es la prioridad de OpenAI para 2026, algo que ya se venía anticipando. Las ventanas que circularon (Q1 que se habría corrido a Q2) son estimaciones de terceros, no fechas firmes. Si alguien te vende “gpt-bidi-1” como un producto disponible hoy, desconfiá.

¿Cómo implementar la Realtime API de GPT-4o?

Si programás, esto te interesa. La Realtime API es la puerta para meter voz de baja latencia en tu propia app. Tenés dos caminos según dónde corra la conexión. Tema relacionado: cómo se compara con ChatGPT.

  • WebRTC para el cliente. Es la opción recomendada cuando el audio viaja desde el navegador o un dispositivo del usuario, porque maneja mejor la latencia y la pérdida de paquetes.
  • WebSocket para el servidor. Sirve cuando tu backend orquesta la conversación. Necesitás un servidor estable corriendo todo el tiempo, y ahí entra la infraestructura: si lo desplegás en Argentina, un hosting o VPS de donweb.com te resuelve el backend sin pelearte con la latencia transatlántica.
  • Azure OpenAI Service. Microsoft expone el audio en tiempo real con su propia capa empresarial, documentada paso a paso en su guía oficial de Realtime audio.

Tené en cuenta que hay límites de tokens por sesión y un tope de salida de audio por respuesta. Antes de mandar a producción, revisá la documentación vigente, porque esos límites y el pricing de audio cambian seguido. El flujo típico es simple en concepto: abrís la sesión, enviás el stream de audio del usuario, y vas recibiendo la respuesta hablada en chunks a medida que el modelo la genera.

Comparativa: modo viejo, GPT-4o y BiDi

AspectoModo voz anteriorGPT-4o voz (hoy)BiDi (reportado)
Latencia2,8 s a 5,4 s320 ms promedio (232 ms mín.)Sin dato oficial
Arquitectura3 modelos separados1 red neuronal unificadaSin confirmar
Tipo de conversaciónPor turnosPor turnosFull-duplex (objetivo)
InterrupcionesNoLimitadasNaturales (objetivo)
DisponibilidadDiscontinuadoChatGPT + Realtime APINo disponible
gpt-4o voz bidireccional diagrama explicativo

¿Dónde se usa GPT-4o voz hoy?

No es teoría. Ya está funcionando en varios lugares.

  • ChatGPT, modo de voz avanzado. Llegó primero a los usuarios de ChatGPT Plus (el plan de USD 20/mes) y después se fue abriendo con límites para cuentas gratuitas.
  • Traductores en tiempo real. El caso español-inglés es el más mostrado: hablás en un idioma y devuelve en el otro casi al instante, manteniendo el tono.
  • Agentes de atención al cliente. Empresas usan la Realtime API para bots de voz que entienden contexto y no suenan robóticos.
  • Implementaciones empresariales vía Azure. Quien ya trabaja con Microsoft suma la voz a sus asistentes internos sin armar la infra desde cero.

¿Cuáles son las limitaciones actuales de GPT-4o voz?

Está bueno, pero no es magia. Hay cosas que conviene saber antes de entusiasmarse.

  • No es full-duplex. Es la limitación más grande. La charla sigue siendo por turnos, así que las interrupciones fluidas las vas a tener que esperar a lo que sea que salga después.
  • Las cuentas gratuitas tienen techo. Llegado un límite de mensajes con GPT-4o, ChatGPT te baja a un modelo más liviano hasta que se renueve la cuota.
  • El costo del audio pesa. Procesar voz por API sale más caro que texto plano, así que mirá bien el pricing actual antes de escalar un producto.
  • Calidad despareja entre idiomas. El inglés va impecable; el español rioplatense funciona bien, pero algunos idiomas menos representados quedan medio flojos.

Qué está confirmado y qué no

  • Confirmado: GPT-4o procesa voz, texto e imagen con un solo modelo, con latencia promedio de 320 ms (anuncio oficial del 13 de mayo de 2024).
  • Confirmado: existe la Realtime API con soporte WebRTC, WebSocket y Azure OpenAI.
  • Confirmado: el modo de voz avanzado está activo en ChatGPT, con límites según el plan.
  • Pendiente: “BiDi” o “gpt-bidi-1” como producto full-duplex. Hay reportes y filtraciones, pero ni nombre oficial ni fecha confirmada por OpenAI.
  • Pendiente: el hardware asociado (anteojos, auriculares, dispositivo tipo lapicera) que mencionan los reportes.

Errores comunes al hablar de GPT-4o voz

  • Creer que ya es full-duplex. No lo es. Confundir “bidireccional” con “hablar al mismo tiempo” es el error número uno. Bidireccional es multimodal; full-duplex es otra cosa que todavía no salió.
  • Tomar los 232 ms como garantía. Es el mejor caso medido por OpenAI. En tu red real, con tu región y tu carga, vas a ver números más altos. Medí antes de prometerle algo a un cliente.
  • Tratar “gpt-bidi-1” como disponible. Si lo ponés en una propuesta como si lo pudieras integrar hoy, te vas a comer un papelón. Hasta que OpenAI no lo anuncie, es rumor.
  • Usar WebSocket cuando correspondía WebRTC. Para audio que sale del navegador del usuario, WebRTC rinde mejor. Arrancar con WebSocket del lado cliente te puede dejar una experiencia con cortes.

Preguntas Frecuentes

¿Qué es GPT-4o bidireccional y cómo funciona?

Es la capacidad de GPT-4o de recibir y generar voz, texto e imagen con un solo modelo entrenado de punta a punta. Procesa varios formatos en la misma conversación y responde con audio en unos 320 ms de promedio, sin encadenar modelos separados como el sistema anterior.

¿Cuál es la diferencia entre GPT-4o y BiDi de OpenAI?

GPT-4o es bidireccional y multimodal, pero conversa por turnos. “BiDi” es el nombre que circula en reportes para un futuro modelo full-duplex que hablaría y escucharía a la vez, con interrupciones naturales. GPT-4o ya existe; BiDi no está confirmado de forma oficial. Lo explicamos a fondo en cómo funcionan los modelos de lenguaje.

¿Cómo implemento GPT-4o Realtime API con voz?

Conectás vía WebRTC (recomendado para el cliente) o WebSocket (para el servidor), o lo usás a través de Azure OpenAI Service. Abrís una sesión, enviás el stream de audio del usuario y recibís la respuesta hablada en chunks. La guía oficial de Azure documenta el flujo paso a paso.

¿Cuánta latencia tiene GPT-4o en conversaciones de voz?

Promedia 320 milisegundos y baja a 232 ms en el mejor caso, según OpenAI. El modo de voz anterior tardaba entre 2,8 y 5,4 segundos. La latencia real depende de tu red, tu región y la carga del servidor, así que conviene medirla en tu propio entorno.

¿Cuándo estará disponible el full-duplex de OpenAI?

No hay fecha oficial. Reportes de 2026 hablan de un proyecto llamado “BiDi” y de ventanas estimadas que se habrían corrido, pero OpenAI no confirmó nada. Hasta que haya un anuncio formal, cualquier fecha que circule es especulación de terceros.

Conclusión

GPT-4o ya bajó la latencia de voz a niveles de charla humana y unificó todo en un solo modelo, eso no es discusión. Lo que falta es el full-duplex real, que es justamente lo que prometería ese “gpt-bidi-1” del que todos hablan pero nadie confirmó. Mi consejo: usá lo que ya está (la Realtime API rinde bien para agentes y traductores) y no te cases con fechas filtradas. Si vas a montar un producto de voz, probá la latencia en tu infraestructura, separá bien lo confirmado del rumor, y dejá el full-duplex como un “cuando salga, vemos”. Lo que hay hoy ya alcanza para resolver muchísimo.

Fuentes

Desplazarse hacia arriba