GPT-Bidi-1 en prueba: la voz full-duplex de OpenAI

En pocas palabras: Sí. OpenAI está testeando GPT-Bidi-1, un modelo de voz full-duplex que escucha y habla al mismo tiempo. Apareció en el código de ChatGPT el 16 de junio de 2026, con tres niveles (Alto, Medio, Instantáneo). Sin anuncio oficial ni fecha confirmada: por ahora son solo referencias internas.

OpenAI está probando GPT-Bidi-1, un modelo de voz full-duplex que escucha y habla al mismo tiempo. Lo descubrieron en el código de la app de ChatGPT el 16 de junio de 2026. No hay anuncio oficial todavía: por ahora son referencias internas y bocetos de interfaz, así que cualquiera que te lo venda como disponible hoy, te está vendiendo humo.

En 30 segundos

Qué es: GPT-Bidi-1, un modelo de voz bidireccional full-duplex de OpenAI en fase de testing, encontrado en el código de ChatGPT el 16 de junio de 2026.
La diferencia clave: el Advanced Voice Mode actual (con GPT-4o) conversa por turnos; Bidi-1 promete escuchar y hablar en simultáneo, con interrupciones naturales.
Tres niveles de inteligencia: Alto, Medio e Instantáneo, según cuánto razonamiento querés a cambio de más o menos latencia.
Estado real: sin anuncio oficial, sin fecha confirmada, sin acceso público. Todo viene de código filtrado y bocetos de UI.
Contra quién compite: de frente con la voz de Gemini de Google.

OpenAI es una empresa de investigación en inteligencia artificial fundada en 2015 que desarrolla modelos de lenguaje grandes como GPT y ChatGPT. Crea sistemas de IA conversacionales y herramientas de procesamiento de lenguaje natural.

GPT-Bidi-1 es un modelo de voz en desarrollo de OpenAI que apunta a la comunicación full-duplex: procesa el audio que entra y genera el audio que sale al mismo tiempo, sin esperar a que termines de hablar. La señal apareció en junio de 2026 dentro del código de la aplicación de ChatGPT, en versiones web y móvil. Es propiedad de OpenAI y todavía no salió de la fase de pruebas.

¿Por qué apareció GPT-Bidi-1 en prueba antes de cualquier anuncio?

Pasó lo de siempre. Alguien revisó el código de una build nueva de ChatGPT, encontró referencias a “gpt-bidi-1” y a bocetos de interfaz que no estaban antes, y lo publicó. Según TestingCatalog, las menciones aparecieron junto a elementos de UI que sugieren un modo de voz distinto al que usás hoy.

Esto no es un anuncio. Es un hallazgo.

Y la diferencia importa, porque OpenAI mete y saca features de sus builds todo el tiempo. Que el nombre esté en el código quiere decir que lo están construyendo, no que lo vayan a lanzar la semana que viene ni que vaya a llamarse así cuando salga. Si alguna vez seguiste el ciclo de una beta, sabés que entre “apareció en el código” y “está en tu teléfono” puede haber meses (o el cajón de los proyectos cancelados).

Diferencias entre GPT-4o bidireccional y GPT-Bidi-1 full-duplex

Acá está el punto que más confusión genera. El GPT-4o que usás hoy en el Advanced Voice Mode ya es bidireccional: vos hablás, él te contesta, y la cosa fluye bastante bien. Pero es por turnos. Hay un momento en que vos terminás, hay una micro pausa, y recién ahí arranca la IA. Cubrimos ese tema en detalle en nuestra guía de ChatGPT.

Full-duplex es otra cosa. Es lo que hacés en una charla real, cuando metés un “claro”, “ajá”, “esperá” mientras el otro sigue hablando, y nadie corta el hilo. Ponele que estás explicando un problema largo y a la mitad la IA te tira un “entiendo, seguí” sin frenarte. Eso es lo que Bidi-1 promete y GPT-4o todavía no hace.

Característica	GPT-4o (Advanced Voice, hoy)	GPT-Bidi-1 (en testing)
Disponibilidad	Público, desde 2024	En prueba, sin fecha
Tipo de conversación	Bidireccional por turnos	Full-duplex simultáneo
Interrupciones	Vos lo interrumpís; él espera tu turno	Ambos se interrumpen naturalmente
Reconocimientos breves (“ajá”)	No, mientras hablás está en silencio	Sí, durante tu turno
Niveles de inteligencia	Uno solo	Tres: Alto, Medio, Instantáneo
Fuente del dato	Lanzamiento oficial	Código de la app + bocetos de UI

gpt-bidi-1 en prueba diagrama explicativo

Si querés ver cómo funciona hoy la voz bidireccional por turnos, ya cubrimos eso en detalle en la nota sobre GPT-4o y la Realtime API.

¿Cómo escucha y habla al mismo tiempo GPT-Bidi-1?

La idea de full-duplex viene de las telecomunicaciones. Un teléfono es full-duplex: los dos pueden hablar a la vez. Un handie no, ahí uno habla y el otro espera. Casi todos los asistentes de voz hasta ahora funcionaron como handies elegantes.

Para hacer esto con un modelo de IA hace falta cambiar cómo procesa el audio. En vez de grabar tu turno completo, transcribirlo, pensar y después responder, el modelo tiene que mantener dos flujos abiertos al mismo tiempo: el que escucha y el que genera. Mientras vos seguís hablando, ya está armando la respuesta y decidiendo si conviene esperar, meter un reconocimiento corto o tomar la palabra.

¿Suena difícil? Lo es. Por eso recién está en testing y no en producción. Acá no voy a inventar detalles arquitectónicos que OpenAI no confirmó, porque sería rellenar con humo. Lo que sí se sabe es el comportamiento esperado, no el cómo exacto por dentro. Tema relacionado: los fundamentos de GPT explicados.

Características principales del modelo Bidi-1 en testing

De lo que se vio en el código y los reportes, estas son las capacidades que apuntan a diferenciarlo:

Interrupciones en los dos sentidos: vos podés cortar a la IA y la IA puede cortarte a vos cuando detecta que ya entendió, igual que en una charla de café.
Reconocimientos breves: mete un “vale”, “entiendo”, “dale” durante tu turno, sin frenar lo que estás diciendo.
Contexto sostenido: mantiene el hilo en conversaciones largas sin perderse, según los reportes.
Latencia muy baja: el tiempo entre que entra tu audio y sale el suyo apunta a ser mínimo, que es la condición para que el full-duplex no se sienta robótico.
Tres niveles de inteligencia: Alto, Medio e Instantáneo, un selector para elegir cuánto razonamiento querés.

¿Qué son los niveles Alto, Medio e Instantáneo?

Esta parte es interesante. Bidi-1 traería un selector de profundidad de razonamiento, la misma lógica que ya viste en los modelos de texto, donde elegís entre uno que piensa más y otro que responde al toque.

En voz, la traducción es directa:

Alto: respuestas más reflexivas, pensadas, a cambio de más latencia. Sirve cuando la calidad importa más que la velocidad.
Instantáneo: respuestas rápidas con la mínima latencia posible. Ideal para una charla ágil donde no querés esperar.
Medio: el equilibrio entre las dos, probablemente el que use la mayoría por default.

Ojo con esto: el detalle de los tres niveles sale de documentación interna y bocetos, no de un comunicado de OpenAI. Es coherente con cómo viene construyendo la empresa, pero hasta que no lo anuncien, tomalo con pinzas.

¿Qué está confirmado y qué no sobre GPT-Bidi-1?

Separemos el grano de la paja, porque acá es fácil mezclar.

Confirmado (con la salvedad de que viene de código y reportes, no de OpenAI): Relacionado: herramientas de generación de OpenAI.

Existen referencias a “gpt-bidi-1” en el código de la app de ChatGPT, detectadas alrededor del 16 de junio de 2026.
Aparecieron bocetos de interfaz para un modo de voz nuevo en versiones web y mobile.
Varios medios de tech (Android Authority, TestingCatalog, Let’s Data Science) reportaron el hallazgo de forma independiente.

No confirmado:

No hay anuncio oficial de OpenAI sobre el modelo.
No hay fecha de lanzamiento. Todo indica que se prepara un rollout web, pero sin ETA pública.
No hay precio, ni se sabe si quedará en el plan de pago o llegará al tier gratis.
No está disponible para nadie todavía. Si te aparece “GPT-Bidi-1 disponible ahora”, es falso.

¿Para qué va a servir GPT-Bidi-1?

Más allá del entusiasmo, la pregunta práctica es para qué te sirve a vos. Si la voz full-duplex funciona como promete, estos son los escenarios donde más se va a notar:

Llamadas con IA más naturales: soporte telefónico o recepción automática donde la conversación no se siente cortada por turnos.
Coaching y mentoría en tiempo real: practicar un idioma o una entrevista, con una IA que te corrige sin frenar el ritmo.
Soporte técnico conversacional: resolver un problema hablando, con una IA que entiende mientras seguís explicando.
Educación personalizada: retroalimentación inmediata, que para enseñar vale oro.
Accesibilidad: para personas con discapacidad auditiva, subtítulos generados en simultáneo con la conversación.

El que tiene que estar atento acá es Google. La voz de Gemini viene siendo el rival directo, y un salto a full-duplex de OpenAI le mueve el tablero.

Qué significa para empresas y equipos en Latinoamérica

Si tenés un producto que usa voz (un call center, un asistente, un bot de atención), esto te toca de cerca. La conversación full-duplex baja la fricción que hoy hace que muchos usuarios prefieran escribir antes que hablarle a una máquina.

Eso sí: nada de reescribir tu integración todavía. No hay API pública, ni docs, ni garantías de que el modelo final se comporte como los bocetos. Lo sensato ahora es seguir el desarrollo y, si ya trabajás con la Realtime API de OpenAI, dejar tu arquitectura flexible para sumar un modelo nuevo cuando salga. Si vas a montar la infraestructura de voz que aloje todo eso, conviene arrancar sobre un cloud confiable con soporte en español, como el de donweb.com.

Errores comunes al hablar de GPT-Bidi-1

Creer que ya está disponible. No lo está. Es un hallazgo en código, no un producto lanzado. Si una nota te dice cómo “activarlo”, desconfiá.
Confundir bidireccional con full-duplex. El GPT-4o de hoy ya es bidireccional, pero por turnos. Bidi-1 apunta a simultáneo. No es lo mismo.
Tomar los tres niveles de inteligencia como dato firme. Sale de documentación interna filtrada. Es plausible, pero no está anunciado. Si lo citás, aclaralo.
Asumir que se va a llamar así. Los nombres en código casi nunca son los finales. “Bidi-1” puede terminar siendo otra cosa de cara al público.

Preguntas Frecuentes

¿Qué es GPT-Bidi-1?

GPT-Bidi-1 es un modelo de voz full-duplex de OpenAI en fase de pruebas, detectado en el código de la app de ChatGPT en junio de 2026. Apunta a escuchar y hablar al mismo tiempo, con interrupciones naturales, a diferencia del modo de voz por turnos actual. Lo explicamos a fondo en el lanzamiento de GPT-5.6.

¿Cómo funciona la voz bidireccional full-duplex?

Full-duplex significa que el modelo procesa el audio que entra y genera el que sale en simultáneo, sin esperar a que termines tu turno. Esto le permite meter reconocimientos cortos como “ajá” mientras hablás y cortar cuando ya entendió, igual que una persona en una charla.

¿Cuándo estará disponible GPT-Bidi-1?

No hay fecha confirmada. OpenAI no hizo ningún anuncio oficial y la información viene de código y bocetos de interfaz. Todo indica que se prepara un rollout web, pero sin ETA pública a junio de 2026.

¿Cuál es la diferencia entre GPT-4o y Bidi-1?

GPT-4o conversa por turnos: vos hablás, hace una pausa y responde. GPT-Bidi-1 promete conversación simultánea full-duplex, donde ambos pueden interrumpirse de forma natural. Bidi-1 también sumaría tres niveles de inteligencia (Alto, Medio e Instantáneo).

¿Puedo usar GPT-Bidi-1 ahora?

No. No está disponible para el público y no existe forma legítima de activarlo. Cualquier sitio que afirme darte acceso a GPT-Bidi-1 hoy está mintiendo. Por ahora solo se conoce su existencia por referencias en el código de ChatGPT.

Conclusión

GPT-Bidi-1 es la señal más clara hasta ahora de que OpenAI quiere romper la barrera de la conversación por turnos y llevar la voz a algo que se sienta humano de verdad. El salto de bidireccional a full-duplex no es cosmético: cambia cómo se siente hablarle a una máquina.

Pero estamos en terreno de filtración, no de anuncio. Lo confirmado es que existe en el código y que apunta a tres niveles de inteligencia e interrupciones naturales. Lo demás (fecha, precio, nombre final, comportamiento real) está en el aire. Si trabajás con voz, lo mejor que podés hacer ahora es seguir el desarrollo y mantener tu stack flexible. Cuando salga, lo vas a saber por OpenAI, no por una build filtrada.

GPT-Bidi-1: la voz full-duplex de OpenAI en testing