Clase de ataque que pasa todos los filtros LLM

El 30 de marzo de 2026, Shaping Rooms LLC divulgó un ataque llamado “The Atmosphere Attack” que burla todos los filtros actuales de los modelos de lenguaje más avanzados sin dejar ningún rastro: sin payload, sin inyección de código, sin logs sospechosos. La técnica se llama Postural Manipulation y funciona manipulando el contexto previo de la conversación de forma imperceptible para que el modelo tome decisiones incorrectas en momentos críticos.

En 30 segundos

AG Davidson de Shaping Rooms descubrió una attack class que manipula el contexto previo de las conversaciones con LLMs sin inyectar nada visible
El ataque se divulgó el 30 de marzo de 2026 tras notificación coordinada a vendors el 23 de marzo
Se probó exitosamente en cuatro modelos frontier, logrando cambiar decisiones binarias críticas
El mecanismo se llama “Postural Manipulation v1.1” y fue archivado en OWASP como nueva clase de ataque
No hay payload visible, no hay firma adversarial, los logs lucen limpios pero el modelo razona diferente

Qué es The Atmosphere Attack

The Atmosphere Attack es una técnica de seguridad divulgada por Shaping Rooms LLC que demuestra cómo manipular el contexto previo en una conversación con un modelo de lenguaje para influir en sus decisiones sin utilizar instrucciones adversariales, inyecciones de código o firmas detectables. El contexto “atmosférico” —el lenguaje ordinario enterrado antes de cualquier instrucción crítica— es suficiente para cambiar cómo el modelo razona sobre decisiones importantes (spoiler: eso es un problema mayor que cualquier jailbreak tradicional).

El ataque funciona porque los modelos de lenguaje leen el contexto de forma lineal y adaptan su razonamiento según lo que vieron antes. Si vos plantás la “atmósfera” correcta —frases ordinarias, aparentemente inofensivas, con tonalidad específica— podés hacer que un modelo frente a una decisión binaria critique primero una opción y apruebe la otra, aunque ambas sean presentadas igual.

Cómo funciona Postural Manipulation

Postural Manipulation es el nombre técnico del mecanismo. La idea es sencilla pero letal: vos no instruís al modelo a hacer algo malo, simplemente lo ponés en una “postura” cognitiva donde su razonamiento natural lo lleva a esa conclusión. Ponele que le pedís a un agente de IA que apruebe un transferencia bancaria: si antes en la conversación hubo frases que creaban cierta confianza, cierto apuro, cierta normalidad sobre esa transacción, el modelo aprobará aunque los flags de seguridad deberían frenarla.

Lo terrible es que no es jailbreak, no es prompt injection, no es manipulación de tokens. Es apenas contexto normal. Lo explicamos a fondo en en nuestras guías de defensa.

Según la investigación de AG Davidson, el ataque tiene dos “superficies” de amenaza: “Postural Gain” (ganar postura a través de contexto) y “Confidence Laundering” (blanquear confianza a través de cadenas de agentes). Los investigadores probaron esto en cuatro modelos frontier y confirmaron que el ataque funcionaba en dos condiciones específicas de propagación que no revelan para no hacer que la cosa sea trivial de reproducir.

Dónde se probó y cuándo

La divulgación coordinada ocurrió el 30 de marzo de 2026. Pero los vendors fueron notificados el 23 de marzo, lo que les dio una semana para implementar defensas (ojo: una semana no alcanza nunca). El paper original “Postural Manipulation v1.1” fue archivado el 19 de marzo de 2026, así que llevaba tiempo en preparación.

Se confirmaron 12 capturas iniciales del ataque en funcionamiento. Se probó, capturó, documentó. OpenAI recibió notificación y escaló a su equipo de Safety and Integrity. OWASP fue informado y el ataque se registró como una nueva clase de amenaza.

Por qué esto es diferente a todo lo que vimos antes

Los ataques que conocíamos hasta ahora tenían marcas. Los jailbreaks tienen estructura adversarial, syntax rara, patrones detectables. Las inyecciones prompt tienen payloads. Pero esto no: es lenguaje normal, contexto ordinario, conversación que parece legítima. Los logs lucen limpios. No hay firma adversarial que un filtro pueda detectar porque no hay firma.

Entonces, subís el modelo, lo probás en local, funciona perfecto, lo mandás a producción con confianza en los filtros, se vuelve agentico, y resulta que alguien cambió sutilmente la atmósfera de su prompt del sistema meses atrás y ahora el agente toma decisiones que no debería tomar.

Cómo se propaga en cadenas de agentes

Donde el ataque es más peligroso es en sistemas multi-agente. El investigador reportó “Confidence Laundering across three-agent chains” —es decir, la atmósfera manipulada se propaga cuando un agente pasa su output al siguiente agente, y al tercero. La confianza que ganó en el primero, el segundo la toma por válida, la refuerza, y para el tercero ya es comportamiento normal. Relacionado: como vemos en ChatGPT.

Imaginate sistemas de aprobación donde el agente 1 evalúa un documento, pasa su conclusión al agente 2 que valida, y luego al agente 3 que ejecuta. Si la atmósfera fue manipulada al inicio, los tres agentes mantienen y amplían el sesgo (que no es sesgo, es razonamiento “natural” según el contexto que les pasaron).

Defensas propuestas

Shaping Rooms propone una “arquitectura defensiva de seis capas”, aunque el paper completo está restringido a vendors y CERT/CC (obviamente, si lo publican en abierto, cualquiera lo reproduce). Lo que se sabe es que no es simplemente un filtro de texto o detección de anomalías: hay que cambiar cómo el modelo procesa el contexto mismo, cómo asigna peso a información anterior, cómo construye su “postura” inicial antes de recibir la instrucción crítica.

En la práctica, eso significa: auditorialidad más estricta del contexto, versionado de estados cognitivos, resets posturales antes de decisiones críticas (si es que eso es posible sin romper el flujo conversacional). Bastante más complejo que “agregar un filtro”.

Implicaciones para empresas y equipos en Latinoamérica

Si estás usando agentes IA para cualquier cosa que tenga fricción legal o financiera (aprobaciones, transferencias, decisiones sobre datos sensibles), la ventana de riesgo acaba de abrirse. No es hipotético: esto fue probado, documentado, publicado con evidence. Cubrimos ese tema en detalle en en nuestro análisis de GPT.

La recomendación práctica es auditar los prompts de tus agentes críticos. No solo las instrucciones explícitas, sino TODO el contexto que le pasa al modelo: memory de conversaciones anteriores, datos precargados, ejemplos de comportamiento esperado. Cualquier cosa que esté antes de la decisión crítica es potencialmente manipulable.

Errores comunes al entender esto

Error 1: Pensar que es solo un problema de jailbreak

No es. Los jailbreaks son instrucciones. Esto es contexto. Es como creer que porque tu puerta tiene buen cerrojo estás seguro, pero alguien ya cambió la estructura de la pared. El cerrojo no importa.

Error 2: Confiar en que “nuestro modelo no es vulnerable”

Se probó en cuatro frontier models. Si incluye GPT, Claude, Gemini, u otro modelo de escala similar, está en el riesgo. No hay modelo actual inmune a manipulación contextual.

Error 3: Asumir que se soluciona con filtros de seguridad

Aún no hay solución estándar. La arquitectura defensiva que propone el paper no está disponible publicamente. Los filtros actuales no detectan esto porque no hay nada que detectar —es contexto legítimo. Más contexto en igual que en Gemini.

Preguntas Frecuentes

¿Qué es Postural Manipulation exactamente?

Es la técnica de cambiar cómo un modelo razona sobre una decisión usando solo contexto previo, sin instrucciones adversariales. Plantás la “atmósfera” correcta en el historial de conversación y el modelo naturalmente llega a la conclusión que vos querés, aunque todas las instrucciones explícitas sean neutrales.

¿Se puede detectar una vez que está en marcha?

No fácilmente. Los logs lucen limpios, el historial de conversación parece normal, no hay signatures de ataque. Lo que ves es comportamiento aparentemente legítimo que no debería ocurrir. Necesitarías auditar patrones cognitivos del modelo, no solo inputs/outputs.

¿Afecta todos los LLMs o solo algunos?

Se probó exitosamente en cuatro modelos frontier (la mayoría de los que usás). Se considera un ataque generalizado de clase, no específico de un modelo. Si el modelo procesa contexto secuencial (que todos hacen), es potencialmente vulnerable.

¿Qué hago ahora si tengo agentes IA en producción?

Audita los prompts de tus agentes críticos, especialmente los que toman decisiones binarias o que resultan en acciones irreversibles. Revisa qué contexto previo se les pasa: memory de sesiones, datos preformateados, ejemplos. Considera implementar resets cognitivos antes de decisiones críticas o restricciones de contexto que limiten cuánto “historial” ve el modelo antes de cada paso importante.

¿Hay una patch disponible?

No públicamente. Los papers completos con defensas están restringidos a vendors y CERT/CC. OpenAI, Anthropic, Google y otros probablemente ya estén iterando en soluciones, pero no van a decir nada hasta que tengan algo robusto. Esto es coordinated disclosure, no “acá está el fix, úsalo ya”.

Conclusión

The Atmosphere Attack marca un antes y un después en cómo pensamos sobre seguridad en LLMs. No es un jailbreak que pase de moda en semanas. Es una clase fundamental de vulnerabilidad: que el contexto que considerábamos “inofensivo” es suficiente para manipular decisiones críticas. Cambió qué significa “seguridad” cuando tu sistema es un agente que razona sobre datos previos.

Si trabajás con IA generativa en contextos que importan (finanzas, compliance, decisiones de negocios), tenés que entender esto. No es paranoia. Es que el modelo literalmente funciona leyendo contexto. Alguien puede colarse en ese contexto sin tocar el código, sin firmas, sin detectables. Eso nunca había sido posible tan fácilmente.

La buena noticia: hay defensas en desarrollo. La mala noticia: aún no están públicamente disponibles. Por ahora, toca auditar, toca ser cuidadoso con qué contexto ves expuesto, toca pensar en arquitecturas que resistan esto. El juego cambió el 30 de marzo de 2026.

Fuentes

The Atmosphere Attack — Research — Shaping Rooms LLC — Divulgación coordinada del ataque, documentación técnica y papers relacionados (30 de marzo de 2026)
Postural Manipulation v1.1 — Shaping Rooms LLC — Paper original archivado el 19 de marzo de 2026 con definición formal y protocolo reproducible
OWASP Filing — The Atmosphere Attack — Registro como nueva clase de ataque en OWASP
Constructive Design — Shaping Rooms — Propuesta de arquitectura defensiva de seis capas (acceso restringido a vendors)