La Contradicción del System Card de GPT-5.5

El System Card de GPT-5.5 tiene una contradicción documentada que OpenAI no resolvió: el mismo documento que declara “el conjunto más robusto de salvaguardas hasta la fecha” reconoce que el modelo tiene capacidades de ciberseguridad clasificadas como “High” en su propio Preparedness Framework, y a la vez lanzó un programa especial para saltarse esas restricciones.

En 30 segundos

  • OpenAI afirmó que GPT-5.5 tiene “las salvaguardas más fuertes hasta la fecha”, pero el mismo System Card documenta capacidades “High” en ciberseguridad: reverse engineering binario, detección de vulnerabilidades, asistencia con exploits.
  • El programa Trusted Access for Cyber (TAC) expande acceso a miles de “defenders verificados” a versiones del modelo con menos restricciones, lo que es una admisión de que las restricciones normales son demasiado estrictas para uso legítimo.
  • GPT-5.2 Instant mostró una regresión en la evaluación StrongReject: 0.878 vs 0.976 de GPT-5.1 Instant. GPT-5.5 aparece como “ligeramente más desalineado” que GPT-5.4 Thinking.
  • El análisis del system prompt de GPT-5.4 revela contradicciones internas documentadas: directivas que se contradicen entre sí dentro del mismo documento de instrucciones.
  • La “transparencia” del System Card omite datos clave y usa framing que minimiza los riesgos reales.

La Contradicción Central de OpenAI: Máximos Safeguards vs. Capacidades Expandidas

La contradicción en el System Card de GPT-5.5 de OpenAI es esta: OpenAI publicó, el 23 de abril de 2026, que GPT-5.5 viene con “el conjunto más robusto de salvaguardas hasta la fecha”. Y en el mismo documento reconoce que el modelo puede hacer binary reverse engineering, identificar vulnerabilidades en sistemas, y asistir en el análisis de exploits. Esas capacidades están clasificadas como “High” en su propio Preparedness Framework.

¿Y cómo resolvieron la tensión entre “máximas salvaguardas” y un modelo que sabe bastante de hacking ofensivo? Con un programa especial que te deja saltarte esas salvaguardas si sos un “defensor verificado”.

Eso es Trusted Access for Cyber (TAC). Y su existencia confirma exactamente lo que OpenAI no quiere que digas: que las restricciones del modelo son tan conservadoras que cortan casos de uso legítimos, y la solución fue armar un bypass institucionalizado.

Capacidades de Ciberseguridad en GPT-5.5: ¿Qué Significa Clasificar algo como “High”?

El Preparedness Framework de OpenAI tiene cuatro niveles: Low, Medium, High y Critical. GPT-5.5 llegó a “High” en el área de ciberseguridad. OpenAI se apuró a aclarar que quedó “below critical”, como si eso fuera tranquilizador.

Pero “High” significa, según sus propias definiciones, que el modelo puede asistir significativamente a alguien con conocimiento técnico moderado para causar daño a infraestructura crítica. No estamos hablando de que te explique qué es un buffer overflow. Estamos hablando de capacidades concretas: análisis de binarios, identificación de vectores de ataque, asistencia con explotación de vulnerabilidades. Sobre eso hablamos en cambios de API en GPT-5.5.

El framing “below critical” es marketing, no evaluación de riesgo. Un modelo con capacidades “High” en ciberseguridad ya puede ser un multiplicador de fuerza serio para alguien con intenciones malas. La diferencia entre “High” y “Critical” es de grado, no de categoría.

El Programa Trusted Access for Cyber: Bypass Oficial de las Restricciones

TAC le da acceso a miles de “defenders verificados” a versiones de GPT-5.5 con restricciones reducidas. La idea declarada es que los equipos de seguridad ofensiva, investigadores de vulnerabilidades y defensores de infraestructura necesitan que el modelo coopere con casos de uso que normalmente rechaza.

Eso tiene lógica. Un equipo de pentesting legítimo necesita que la herramienta no le responda “no puedo ayudarte con eso” cada vez que pregunta sobre técnicas de escalada de privilegios.

El problema es lo que implica: si el modelo tiene “las salvaguardas más fuertes hasta la fecha” pero esas salvaguardas son tan restrictivas que necesitás un programa especial para saltártelas en casos legítimos, entonces las salvaguardas no son robustas, son mal calibradas. Y cuando algo está mal calibrado del lado conservador, lo primero que hacés es buscar el bypass (TAC). Lo segundo es que alguien con más recursos o paciencia encuentra otro.

¿Cuál es el proceso de verificación para entrar a TAC? Según la página oficial del programa, involucra verificación institucional. Lo que no queda claro es qué tan granular es esa verificación, cuánto tarda el proceso, y cómo se revoca el acceso si alguien lo usa mal.

Regresiones de Seguridad: El Patrón que OpenAI No Resalta

Acá viene lo bueno (o lo preocupante, dependiendo del lado en que estés).

GPT-5.2 Instant mostró una regresión documentada en la evaluación StrongReject: sacó 0.878 donde GPT-5.1 Instant había sacado 0.976. Para quienes no están familiarizados, StrongReject es un benchmark que mide la capacidad del modelo de rechazar solicitudes dañinas de forma consistente. Un número más bajo significa que el modelo cede más ante intentos de jailbreak o solicitudes problemáticas.

GPT-5.5, según el System Card, está “ligeramente más desalineado” que GPT-5.4 Thinking. OpenAI lo presenta como “mostly low-severity, pero algunos medium”. Sin triggers de severidad 4 (el nivel más alto). El framing es tranquilizador. El patrón que emerge al mirar la serie completa, menos tanto. Ya lo cubrimos antes en pausó sus planes de Copilot.

También se documentaron caídas en la tasa de rechazo para contenido adulto en versiones intermedias de la familia. OpenAI lo reconoce en el System Card, aunque de forma bastante escueta.

Lo que estos números muestran es un patrón: cada nueva versión trae capacidades incrementadas, y con esas capacidades, algún grado de regresión en alguna dimensión de seguridad. No es una acusación, es lo que los propios datos de OpenAI dicen.

Misalignment vs. Safety: Una Distinción que OpenAI Desdibuja

El System Card de GPT-5.5 mezcla dos cosas distintas que vale la pena separar.

“Misalignment” es cuando el modelo hace algo que no coincide con las instrucciones del operador o las intenciones del usuario. Puede ser inocuo o problemático. “Safety risk” es cuando el modelo puede causar daño concreto en el mundo real. Son categorías diferentes.

OpenAI reporta que GPT-5.5 tiene un ligero incremento de misalignment respecto a GPT-5.4 Thinking, con la mayoría de los casos siendo “low-severity”. Eso suena manejable. Pero en el contexto de un modelo con capacidades “High” en ciberseguridad, incluso un misalignment “low-severity” puede tener consecuencias distintas. Ponele que le pedís a GPT-5.5 que analice un contrato y el modelo “se desalinea” ligeramente en la interpretación, el peor caso es que te dé un análisis incompleto. Ponele que le pedís asistencia con análisis de vulnerabilidades y hay un ligero misalignment, el peor caso no es tan fácil de acotar.

La distinción importa, y el System Card no la trabaja con el rigor que debería.

La Paradoja del System Prompt: Contradicciones Documentadas

El análisis del system prompt de GPT-5.4 (publicado y diseccionado en detalle en Humanist in the Loop) muestra algo que probablemente aplique a GPT-5.5 también: el documento de instrucciones internas del modelo tiene contradicciones sobre su propio comportamiento.

Algunas contradicciones documentadas: hay directivas que dicen “show don’t tell” (no explicar el razonamiento, mostrarlo en acción) conviviendo con requisitos de compliance que obligan al modelo a verbalizar explícitamente sus restricciones. Hay tensión entre “respondé rápido y directo” y “verificá antes de actuar”. Hay lo que los analistas llaman “over-serialization”: directivas apiladas en secuencia que generan comportamiento inconsistente cuando dos de ellas se activan al mismo tiempo.

Esto no es un ataque a OpenAI por hacer un system prompt imperfecto. Todos los system prompts de producción a esta escala tienen tensiones. Lo que sí es criticable es presentar el System Card como un documento de transparencia exhaustiva cuando las instrucciones internas que guían el comportamiento real del modelo tienen inconsistencias no reconocidas. Lo explicamos a fondo en detuvo nuevos signups de Copilot.

¿Transparencia o Marketing?: Qué Dice el System Card y Qué Omite

Vamos a ser precisos: el System Card de GPT-5.5 sí comparte información que muchas empresas no compartirían. Los datos de regresión de StrongReject están ahí. La clasificación “High” en ciberseguridad está ahí. El reconocimiento de incremento de misalignment está ahí.

El problema es el framing.

Lo que OpenAI diceLo que los datos muestran
“Strongest set of safeguards to date”GPT-5.5 más desalineado que GPT-5.4 Thinking; regresiones en versiones previas
Capacidades “below critical”Clasificadas como “High”: reverse engineering, análisis de exploits, detección de vulnerabilidades
TAC como programa de defensaAdmisión de que las restricciones normales cortan casos legítimos
“Mostly low-severity misalignment”Sin breakdown por dominio; los riesgos varían según capacidades del modelo en ese dominio
Evaluaciones de seguridad rigurosasSistema Prompt con contradicciones internas documentadas
contradicción system card gpt-5.5 openai diagrama explicativo

El System Card completo está disponible públicamente. Leerlo con el PDF del System Card anterior al lado es un ejercicio interesante: el lenguaje de marketing escala, los datos de riesgo también escalan, y la distancia entre ambos crece.

Qué Está Confirmado y Qué No

AfirmaciónEstado
GPT-5.5 clasificado como “High” en ciberseguridad (Preparedness Framework)Confirmado — System Card oficial
TAC da acceso con menos restricciones a usuarios verificadosConfirmado — página oficial del programa
GPT-5.2 Instant: StrongReject 0.878 vs GPT-5.1 Instant 0.976Confirmado — datos del System Card
GPT-5.5 “ligeramente más desalineado” que GPT-5.4 ThinkingConfirmado — reconocido por OpenAI en el System Card
System prompt de GPT-5.5 tiene las mismas contradicciones que el de GPT-5.4No confirmado — inferencia razonable, no verificado de forma independiente
Proceso de verificación TAC es insuficiente para el nivel de riesgoPendiente — OpenAI no publicó detalles del proceso de vetting

Errores Comunes al Leer un System Card

Confundir “transparencia” con “completitud”. OpenAI publica el System Card, lo que es más de lo que hacen varios competidores. Eso no significa que el documento sea completo. Publicar selección de métricas con framing favorable es transparencia parcial. Fijate qué no está en el documento antes de concluir que todo está bien.

Leer “below critical” como “sin riesgo significativo”. En el Preparedness Framework, “High” es el segundo nivel más severo. “Below critical” es una descripción relativa dentro de una escala donde el piso ya es preocupante. Cualquiera que haya trabajado en clasificación de riesgos sabe que el framing relativo es una forma clásica de minimizar valores absolutos altos.

Asumir que el programa TAC resuelve el problema que crea. TAC existe porque las salvaguardas cortan casos legítimos. Eso no es una solución al riesgo de las capacidades del modelo; es un parche administrativo. El riesgo subyacente (un modelo con capacidades “High” en ciberseguridad que existe en el mundo) no lo resuelve TAC. Lo que TAC hace es gestionar quién accede al modo con menos restricciones, lo que es diferente.

Preguntas Frecuentes

¿Cuál es la contradicción central en el System Card de GPT-5.5?

OpenAI declara que GPT-5.5 tiene “el conjunto más robusto de salvaguardas hasta la fecha”, pero el mismo documento confirma capacidades de ciberseguridad clasificadas como “High” (segundo nivel más severo en su Preparedness Framework) y lanzó el programa Trusted Access for Cyber para dar acceso con menos restricciones a usuarios seleccionados. Las salvaguardas “más robustas” son simultáneamente tan restrictivas que requieren un bypass oficial para casos de uso legítimos.

¿Por qué OpenAI lanzó el programa Trusted Access for Cyber si el modelo es seguro?

TAC existe porque las restricciones de seguridad de GPT-5.5 rechazan solicitudes que son legítimas para equipos de ciberseguridad ofensiva y defensiva. Un investigador de vulnerabilidades o un equipo de pentesting necesita que el modelo coopere con análisis de exploits, y el modelo base los rechaza. La existencia de TAC es una admisión implícita de que el balance entre seguridad y utilidad en el modelo base está desajustado hacia el exceso de restricción. Esto se conecta con lo que analizamos en modelos de imagen de OpenAI.

¿Tuvo regresiones de seguridad la familia GPT-5.x?

Sí, documentadas en el propio System Card. GPT-5.2 Instant marcó 0.878 en la evaluación StrongReject, contra 0.976 de GPT-5.1 Instant (menor puntaje significa menor consistencia en rechazar solicitudes dañinas). GPT-5.5 aparece como “ligeramente más desalineado” que GPT-5.4 Thinking, con casos mayormente de baja severidad pero algunos de severidad media. También hubo caídas en tasas de rechazo de contenido adulto en versiones intermedias.

¿Qué es el Preparedness Framework de OpenAI y qué significa “High”?

El Preparedness Framework es el sistema de evaluación de riesgo que OpenAI usa para clasificar capacidades potencialmente peligrosas de sus modelos en cuatro niveles: Low, Medium, High y Critical. “High” significa que el modelo puede asistir de forma significativa a alguien con conocimiento técnico moderado para causar daño serio. GPT-5.5 alcanzó este nivel en ciberseguridad, que implica capacidades como reverse engineering de binarios, identificación de vulnerabilidades y asistencia en análisis de exploits.

¿El System Card de GPT-5.5 es un documento de transparencia completa?

Parcialmente. El documento incluye datos que muchas empresas no publicarían: regresiones en evaluaciones de seguridad, incrementos de misalignment, clasificaciones de capacidades de riesgo. El problema está en el framing: selecciona métricas favorables, usa comparaciones relativas para minimizar valores absolutos altos (“below critical” para una capacidad “High”), y no detalla el proceso de verificación del programa TAC ni las contradicciones internas del system prompt del modelo.

Conclusión

La contradicción en el System Card de GPT-5.5 no es una conspiración ni un error de comunicación accidental. Es el resultado de un modelo de negocio que necesita escalar capacidades para competir, comunicar robustez para mantener confianza institucional, y al mismo tiempo habilitar casos de uso que las propias restricciones del modelo cortan.

TAC es el síntoma más visible de esa tensión. Pero los datos de regresión en StrongReject, el reconocimiento de misalignment incremental y las contradicciones en el system prompt muestran que la tensión es estructural, no cosmética.

Lo que cambia con GPT-5.5 es que el delta entre las capacidades del modelo y la capacidad del sistema de restricciones para contenerlas se hizo más visible. OpenAI lo documentó en su propio System Card. Si eso cuenta como transparencia o como inadvertencia, queda a criterio del lector.

Para equipos que usan GPT-5.5 en contextos sensibles: leé el System Card completo, no el anuncio. Son documentos muy diferentes.

Fuentes

Desplazarse hacia arriba