Por qué los LLM fallan el test de Stroop

Un estudio publicado en 2025 en PNAS Nexus demostró que modelos como ChatGPT y Claude fallan de forma sistemática en tareas de control ejecutivo: no logran ignorar información irrelevante. El hallazgo, basado en una versión del clásico test de Stroop, expone una limitación de fondo en la arquitectura transformer y reabre el debate sobre qué tan lejos están los LLM de la AGI.

El control ejecutivo en transformadores es la capacidad (o la falta de ella) de un modelo de lenguaje para inhibir estímulos que distraen y enfocarse solo en lo que la tarea pide. En psicología cognitiva, esa función la cumple el cerebro al filtrar distractores. Los LLM actuales, según el estudio, son buenos prestando atención a lo relevante pero malos suprimiendo lo irrelevante, y ahí aparece el problema.

En 30 segundos

  • El test de Stroop (1935) llegó a la IA: los modelos tropiezan cuando una palabra dice un color y la tinta es otro, igual que una persona apurada.
  • Falla sistemática, no aleatoria: el error se repite con patrón, lo que apunta a la arquitectura y no al azar.
  • Los modelos nuevos mejoran poco: según el estudio, incluso versiones más recientes siguen mostrando el problema, con avances leves.
  • Atención sí, control ejecutivo no: los transformadores orientan bien la atención pero no inhiben lo irrelevante.
  • Importa para la AGI: sin control ejecutivo, hay dudas sobre el salto a una inteligencia general.

¿Qué es el test de Stroop y por qué revela limitaciones en los LLM?

Ponele que te muestran la palabra “ROJO” escrita con tinta azul y te piden que digas el color de la tinta, no la palabra. Tu cerebro lee “rojo” automáticamente y tenés que frenar ese impulso para responder “azul”. Esa fricción tiene nombre.

El efecto Stroop lo describió John Ridley Stroop en 1935 y mide exactamente eso: la pelea entre una respuesta automática y la que la tarea exige. Es uno de los experimentos más replicados de la psicología y se usa para evaluar el control ejecutivo, la función mental que suprime distractores. Si querés el detalle clínico, hay buena documentación sobre el test de Stroop en neurociencia.

¿Y qué pasa cuando le das esa prueba a un LLM? Según el estudio, también tropieza. La cobertura de TechRadar sobre el experimento lo resume sin vueltas: los modelos “se desarman” frente al conflicto cognitivo. Eso sí, conviene tomarlo con pinzas, porque el modelo no lee de forma automática como tu cerebro. Lo interesante es que igual reproduce un patrón parecido al humano, y eso es lo que prendió la alarma.

¿Cómo fallan exactamente ChatGPT y Claude en tareas de control ejecutivo?

Frente a estímulos contradictorios, los modelos tienden a “leer” el contenido semántico de la palabra aunque la tarea pida algo distinto. No es que respondan cualquier cosa. El error es predecible: se dejan arrastrar por la información que deberían ignorar.

Lo más incómodo del hallazgo es la persistencia. El estudio señala que los modelos más nuevos mejoran apenas un poco, pero no resuelven la limitación de raíz. Es decir: escalar parámetros y datos ayuda en muchas cosas, sin embargo acá el rendimiento no acompaña como uno esperaría. Y cuando un error sobrevive a varias generaciones de modelos, la sospecha deja de apuntar al entrenamiento y empieza a apuntar a la arquitectura misma. Ya lo cubrimos antes en seguridad en sistemas de inteligencia artificial.

¿Por qué importa para vos si programás con estos modelos? Porque cualquiera que haya armado un prompt con mucho contexto irrelevante ya se topó con esto sin saberlo: el modelo “se engancha” con un dato que estaba de adorno y te contamina la respuesta.

¿Por qué la arquitectura transformer codifica información irrelevante?

Acá viene lo bueno. Un transformer representa cada palabra como un vector en un espacio de altísima dimensión, y en ese espacio las relaciones semánticas quedan grabadas: “rojo” está cerca de “color”, de “sangre”, de “fuego”. El mecanismo de atención usa esas relaciones para entender el texto, lo cual es genial casi siempre.

El tema es que esas relaciones no se apagan cuando molestan. Si la palabra dice “rojo” pero a vos te interesa solo la tinta, el modelo igual arrastra todo el equipaje semántico de “rojo”. No tiene un freno que diga “esto no va para esta tarea”.

El cerebro humano sí filtra. La corteza prefrontal inhibe lo que no sirve. El transformer, en cambio, fue diseñado para integrar contexto, no para suprimirlo, y esa diferencia de diseño es justo el centro del problema. Lo explicamos a fondo en cómo funcionan modelos como ChatGPT.

¿Cuál es la diferencia entre atención de orientación y control ejecutivo?

El estudio marca una distinción que vale la pena entender, porque resume todo el asunto en dos columnas.

FunciónQué haceRendimiento de los LLM
Atención de orientaciónDirigir el foco hacia lo relevanteBueno: los transformadores brillan acá
Control ejecutivoInhibir y suprimir lo irrelevanteDeficiente: fallan de forma sistemática
ImplicanciaCapacidad de filtrar distractores en una tareaLimitada por el diseño de la atención
control ejecutivo en transformadores diagrama explicativo

Dicho de otra forma: el modelo sabe adónde mirar, pero no sabe qué dejar de mirar. Y en muchas tareas del mundo real, saber qué ignorar es la mitad del trabajo.

¿Es una limitación fundamental de los transformadores?

La pregunta del millón. Hay dos lecturas y conviene no casarse con ninguna todavía.

  • Lectura dura: es inherente al mecanismo de atención, que integra contexto por diseño y no tiene un módulo de inhibición. Bajo esta mirada, ningún tamaño de modelo lo arregla solo.
  • Lectura optimista: arquitecturas que reorganizan la atención, como Reformer o los Compressive Transformers, podrían abrir la puerta a un control más selectivo del contexto. Habría que ver si alguna ataca el problema de frente, porque fueron pensadas más para eficiencia que para inhibición.

Por ahora no hay una solución arquitectónica probada que resuelva el control ejecutivo. La “innovación” de turno suele apuntar a memoria larga o a velocidad, no a suprimir distractores. ¿Alguien lo resolvió de forma independiente y replicable? Todavía no. Relacionado: mecanismos de atención en transformers.

¿Qué implicancias tiene esto para la inteligencia artificial general (AGI)?

Acá es donde el debate se pone picante. El control ejecutivo es uno de los pilares de la cognición humana: planificar, resistir impulsos, mantener un objetivo cuando todo intenta distraerte. Si un sistema no puede ignorar lo irrelevante, cuesta imaginarlo razonando de forma general y robusta.

El argumento que levanta el estudio es directo: la AGI no se trata solo de saber mucho, sino de gobernar la propia atención, y eso es justo lo que falla. No significa que el camino esté cerrado. Significa que escalar más datos y más cómputo, por sí solo, no garantiza cruzar ese umbral.

¿Cómo trabajar alrededor de estas limitaciones hoy?

No hace falta esperar a la próxima arquitectura para mitigar el problema. Si construís con LLM, hay tres frentes concretos.

  • Prompts limpios: sacá el ruido del contexto. Menos distractores en la entrada, menos chances de que el modelo se enganche con lo que no debe.
  • RAG bien filtrada: que el recuperador traiga solo pasajes pertinentes, no medio documento “por las dudas”. Una capa de retrieval limpia necesita infraestructura confiable donde alojar el índice y el servicio; si la armás en Argentina, podés montarla sobre el cloud de donweb.com.
  • Supervisión agéntica: sumá una capa que revise y reformule, una especie de control ejecutivo externo que el modelo base no trae. Acá apuntan los enfoques de agentic AI.

Ninguna de las tres cura la causa. Pero las tres reducen el síntoma, que es lo que tenés a mano hoy. Para más detalles técnicos, mirá arquitectura de los modelos de Google.

Qué está confirmado y qué no

  • Confirmado: el estudio en PNAS Nexus reporta fallas sistemáticas de LLM populares en tareas tipo Stroop de control ejecutivo.
  • Confirmado: la distinción entre atención de orientación (buena) y control ejecutivo (deficiente) es el eje del trabajo.
  • Pendiente: si una arquitectura alternativa resuelve el control ejecutivo de raíz. No hay prueba concluyente.
  • Pendiente: cuánto mejoran exactamente los modelos más nuevos. El estudio habla de avances leves, sin un salto que cierre la brecha.
  • Pendiente: qué tanto bloquea esto el camino hacia la AGI. Es interpretación, no dato cerrado.

Errores comunes al interpretar este hallazgo

  • Creer que el modelo “piensa” como una persona: el LLM no lee de forma automática como tu cerebro. Reproduce un patrón parecido por cómo codifica la semántica, no porque tenga un impulso que reprimir.
  • Asumir que más parámetros lo arreglan: el estudio muestra mejoras leves entre generaciones, así que escalar no es la bala de plata para el control ejecutivo.
  • Confundir atención con inhibición: que un modelo “preste atención” a algo no quiere decir que pueda “dejar de prestársela”. Son funciones distintas y el transformer solo domina la primera.
  • Tomar el test de Stroop como veredicto final sobre AGI: es una señal fuerte, no una sentencia. Mide una función específica, no toda la cognición.

Preguntas Frecuentes

¿Qué es el control ejecutivo en inteligencia artificial?

Es la capacidad de un sistema para inhibir información irrelevante y enfocarse solo en lo que la tarea pide. En los LLM actuales esta función es deficiente: orientan bien la atención hacia lo relevante, pero no logran suprimir los distractores.

¿Cómo fallan los LLM en el test de Stroop?

Se dejan arrastrar por el contenido semántico de la palabra cuando la tarea pide ignorarlo, por ejemplo nombrar el color de la tinta y no la palabra. El error es sistemático y predecible, no aleatorio, según el estudio de PNAS Nexus.

¿Por qué los transformadores no pueden ignorar información irrelevante?

Porque el mecanismo de atención fue diseñado para integrar contexto, no para suprimirlo. Las relaciones semánticas quedan codificadas en el espacio de embeddings y no se “apagan” aunque sean irrelevantes para la tarea puntual.

¿Los modelos más nuevos mejoran en control ejecutivo?

Mejoran apenas. El estudio indica que las versiones más recientes muestran avances leves, pero la limitación persiste de fondo. Escalar parámetros y datos no resuelve el problema de raíz.

¿Esto frena el camino hacia la AGI?

El control ejecutivo es un pilar de la cognición humana, así que su ausencia es una señal de alerta para la AGI. No cierra el camino, pero sugiere que solo escalar cómputo no alcanza para una inteligencia general robusta.

Conclusión

Lo que cambió es la evidencia: ahora hay un estudio que mide, con una prueba clásica de psicología, una debilidad concreta de los transformadores. No es que “la IA sea tonta”. Es que su forma de atender el contexto trae de fábrica una falla de control ejecutivo que escalar no termina de arreglar.

¿Qué hacés con esto si trabajás con LLM? Diseñá pensando en el límite: prompts sin ruido, retrieval filtrado y una capa de supervisión que haga de freno. Y si alguien te vende que el próximo modelo gigante ya razona como un humano, pedile que pase primero por el test de Stroop. Habría que verlo.

Fuentes

Desplazarse hacia arriba