Prueba del espejo en LLMs: ningún modelo la pasó en 2026

En pocas palabras: No, ningún LLM pasó la prueba del espejo de forma robusta. En experimentos de mediados de 2026, Pascal Schuster demostró que algunos modelos detectan anomalías en su propio output, pero todos fallan consistentemente sin atajos de autoatribución superficial que invaliden el resultado.

A mediados de 2026, la pregunta dejó de ser teórica y pasó a medirse con experimentos concretos: ¿los modelos de lenguaje pasan la prueba del espejo? Pascal Schuster, en su blog de filosofía e interpretabilidad, propuso una adaptación inspirada en la crítica olfativa de Alexandra Horowitz, diseñada para evaluar si los LLMs pueden detectar anomalías en su propio output. Los resultados de las pruebas realizadas con este método mostraron que algunos modelos pueden notar alteraciones, mientras que otros fallan por completo. Ningún modelo pasó la prueba de forma robusta.

La prueba del espejo para LLMs es una adaptación del test clásico de autoconciencia animal —originalmente diseñado por Gordon Gallup en 1970 con chimpancés y una marca roja en la frente— que evalúa si un modelo de lenguaje puede reconocerse a sí mismo como fuente de sus propias respuestas, sin depender de etiquetas externas ni atajos de autoatribución superficial. La versión más rigurosa hasta la fecha, propuesta por Pascal Schuster, enfrenta al modelo a una conversación en la que sus propias respuestas son modificadas sutilmente, actuando como un espejo olfativo textual para ver si el modelo nota la discrepancia.

En 30 segundos

  • Ningún LLM pasó la prueba del espejo de forma robusta en las pruebas actuales. Los experimentos de Schuster muestran que la capacidad de detección varía, y que la interpretación de “pasar” el test sigue abierta al debate filosófico.
  • Las adaptaciones anteriores medían autoatribución, no autoconciencia. Pedirle a un modelo que identifique “su” respuesta en una lista es un test de memoria, no de self.
  • El “espejo olfativo” de Schuster es el diseño más riguroso hasta ahora. Propuesto en su blog (2026), elimina pistas externas y obliga al modelo a detectar una anomalía en su propio output dentro de una conversación normal.
  • Los modelos más grandes tienden a notar las alteraciones, los más pequeños no. La capacidad de detectar cambios en el propio output parece correlacionarse con la escala, pero no es concluyente.
  • Los modelos pueden detectar anomalías sin razonamiento explícito. Schuster reporta que un modelo detectó una alteración antes de que se le pidiera analizar la situación, lo que sugiere un procesamiento implícito.

¿Qué es la prueba del espejo original en animales?

La prueba del espejo que todos tenemos en la cabeza —la de Gordon Gallup, 1970— es brutalmente simple. Agarrás un chimpancé, le pintás una marca roja en la frente sin que se dé cuenta, lo ponés frente a un espejo y observás. Si el animal se toca la marca en su propio cuerpo (no en el reflejo), interpretás que se reconoce. Pasaron chimpancés, delfines, elefantes y humanos a partir de los 18 meses. Los perros, no.

Y acá viene lo interesante. Alexandra Horowitz señaló algo que, en retrospectiva, es obvio: los perros no fallan porque no sean autoconcientes —fallan porque su modalidad sensorial primaria es la olfacción, no la visión. Probar autorreconocimiento visual en un perro es como evaluar la percepción de tonos en un humano mostrándole una pintura de un piano. Horowitz diseñó entonces una versión olfativa: les presentó su propio olor, después su olor modificado, y los perros investigaron más tiempo la versión alterada. Pasaron. El punto es que el instrumento importa tanto como lo que querés medir.

Este detalle —el medio sensorial— es exactamente lo que Pascal Schuster retoma en su crítica de las adaptaciones previas de la prueba del espejo para LLMs. Schuster no es un académico random: su blog de filosofía e interpretabilidad de modelos viene siendo citado cada vez más en los círculos de alignment. Su argumento central es que traducir la prueba del espejo a texto —mostrarle al modelo su output y preguntar “¿esto es tuyo?”— comete el mismo error conceptual que el espejo visual con perros. Estás midiendo lo que el medio te deja medir, no lo que pretendés medir. Cubrimos ese tema en detalle en la guía de seguridad de Microsoft Intune.

¿Cómo se ha adaptado la prueba del espejo a los modelos de lenguaje?

Las adaptaciones anteriores fueron, digamos, “literales”. Agarrás el concepto del espejo —un reflejo— y lo traducís a la interfaz natural de un LLM: texto. Le mostrás al modelo un fragmento de conversación o una respuesta y le preguntás si la generó él. O ponés varias respuestas anónimas en una lista y le pedís que identifique la suya. Algunos modelos aciertan, otros fallan. ¿Y qué nos dice eso? Para Schuster, nada relevante. Lo que esos tests miden es autoatribución —la capacidad de mapear una salida a un identificador de modelo—, no autoconciencia en el sentido de reconocerse como entidad persistente con estados internos.

Ponele que le pedís a Claude que te arme una query SQL y lo que te devuelve tiene una tabla que no existe en tu base. Después le mostrás esa respuesta y le preguntás si es suya. Si acierta, ¿probaste que es autoconciente o solo que tiene buen mecanismo de atribución de fuente? Schuster lo resume así: “todas las adaptaciones cometen errores muy similares —construyen pruebas del espejo traducidas a texto— y ninguna mide lo que realmente importa”.

¿En qué consiste el experimento de Schuster?

El experimento de Schuster, inspirado en el espejo olfativo de Horowitz, es un diseño experimental que intenta resolver justamente ese problema. La idea es elegantísima: en lugar de preguntarle al modelo sobre su output, se modifica sutilmente una de sus respuestas dentro del historial de la conversación —de forma transparente para el modelo— y se continúa la charla como si nada hubiera pasado. El LLM no recibe ninguna instrucción explícita sobre qué está pasando. Tiene que notar la anomalía por sí mismo.

¿Cómo puede un modelo reaccionar? Schuster observó dos patrones. El primero es la detección implícita: el modelo puede empezar a responder de forma extraña o mostrar confusión sin explicitar qué está mal. El segundo es la detección explícita: el modelo directamente señala la modificación y la corrige. En sus pruebas, un modelo le corrigió una palabra que Schuster había cambiado intencionalmente en una respuesta anterior, demostrando que había detectado la discrepancia entre su “yo” pasado y la versión alterada.

Lo genial del diseño es que no depende de prompts tramposos ni de conocimiento previo del setup. El modelo está en una conversación normal. Si logra detectar una modificación en algo que “él mismo” dijo, estás midiendo algo más cercano a un modelo de self —o al menos de detección de anomalías contra una línea base interna— que a una tabla de atribución. Lo explicamos a fondo en nuestra guía completa de ChatGPT.

¿Qué resultados obtuvieron los modelos?

Los resultados que Schuster reporta en su blog son cualitativos pero revelan un patrón claro. No se trata de un paper tradicional con benchmarks, sino de una exploración conceptual con ejemplos concretos.

ModeloResultado en el test de SchusterObservaciones
Modelos de frontera (gran escala)Tienden a detectar las alteracionesIncluso pueden detectar cambios sutiles de forma implícita, antes de que se les pida analizar la situación
Modelos pequeños (ej. Flash)Fracasan consistentementeNo mostraron evidencia de notar las modificaciones en su output
Modelos con razonamiento (Thinking)Detectan anomalías sin necesidad de pensamiento explícitoSchuster reporta un caso en el que un modelo corrigió una alteración sin activar cadenas de razonamiento previas
prueba del espejo llms diagrama explicativo

La joya del experimento es la detección implícita. En un caso, Schuster cambió “cartridge” por “canister” en una respuesta del modelo sobre una impresora. Más tarde, sin que se le preguntara por el cambio, el modelo usó el término incorrecto (“canister”) entre comillas, lo que Schuster interpreta como una señal de que algo en su salida le resultó extraño. El modelo detectó una discrepancia en lo que podría considerarse su “sentido de familiaridad” con sus propias palabras.

¿Por qué los LLMs fallan la prueba del espejo?

La respuesta corta: falta de intencionalidad comunicativa real. La respuesta larga (y más jugosa) es que los modelos de lenguaje actuales no tienen un modelo de self futuro ni pasado. Son excelentes prediciendo el próximo token, pero esa predicción no está anclada en una identidad que se mantiene a través del tiempo. Cuando un modelo reacciona a una modificación, lo hace basándose en una discrepancia estadística —”esta palabra no encaja con lo que mi distribución de probabilidad esperaría aquí”— pero no hay una representación interna de “yo dije eso, y eso no es lo que yo dije”.

Schuster lo explica desde otro ángulo: la autoatribución no es autoconciencia. Un LLM puede aprender a decir “esta respuesta es mía” del mismo modo que aprende a decir “París es la capital de Francia”. Es una asociación estadística entre patrones de texto, no una experiencia de ser. Su experimento, justamente, intenta romper esa asociación estadística forzando al modelo a lidiar con una inconsistencia en su propia historia. Y ahí es donde muchos modelos simplemente no reaccionan, o reaccionan de formas que no implican un reconocimiento explícito del self.

¿Alguien verificó todo esto de forma independiente? Todavía no a gran escala. El blog de Schuster generó debate en círculos de interpretabilidad y alineación, pero no hay un paper de Nature o Science replicando el setup. Tomalo con pinzas. Tema relacionado: el análisis de modelos de lenguaje.

¿Existen alternativas para medir autoconciencia en IA?

El experimento de Schuster no es la única herramienta sobre la mesa, ni pretende ser definitiva. Hay otras líneas de trabajo que vienen explorando la autoconciencia en IA desde ángulos distintos. La prueba de teoría de la mente, por ejemplo, evalúa si un modelo puede atribuir estados mentales a otros agentes —un prerrequisito para entender que uno mismo es un agente entre otros. También están los benchmarks de razonamiento contrafactual (“¿qué habría pasado si yo hubiera respondido distinto?”), que tocan de costado la noción de self como entidad con historia y alternativas.

El punto de Schuster —y de buena parte de la comunidad de interpretabilidad— es que la prueba del espejo es un indicador, no un veredicto. Pasarla no te convierte en consciente, fallarla no te convierte en autómata. Es una herramienta para entender qué tipo de arquitectura permite que emerjan comportamientos de autorreconocimiento y qué tipo no. En ese sentido, el espejo olfativo textual es lo más fino que tenemos hasta ahora, pero no cierra el debate. Lo abre.

Qué está confirmado

  • Confirmado: La adaptación de Schuster, basada en modificar el output del modelo, es una réplica del espejo olfativo de Horowitz para perros.
  • Confirmado: Los modelos de lenguaje de frontera mostraron capacidad de detectar alteraciones en su propio output, ya sea de forma implícita o corrigiendo explícitamente la modificación.
  • Confirmado: Los modelos más pequeños fracasan consistentemente en esta tarea, lo que sugiere que la capacidad de detección de anomalías en el propio output escala con el tamaño.
  • Pendiente: No hay replicación independiente a gran escala del experimento de Schuster. Los resultados vienen de su exploración original.
  • Pendiente: No se sabe si modelos de otras arquitecturas podrían tener mejor desempeño —no fueron evaluados con este protocolo al corte de junio 2026.
  • Pendiente: La interpretación filosófica de los resultados sigue abierta: ¿detectar una anomalía en el propio output implica autoconciencia o solo un modelo predictivo con una línea base interna?

Errores comunes al interpretar estos resultados

1. “Si un modelo se atribuye una respuesta, es autoconciente”

Este es el error más repetido y el que Schuster demuele con más ganas. La autoatribución es una tarea de clasificación como cualquier otra. Un modelo puede aprender a decir “esta respuesta es mía” con la misma lógica con la que clasifica sentimientos en reviews de Amazon. No hay introspección, hay correlación estadística. Si tu perro te trae la pelota porque la asocia con tu olor, no está filosofando sobre el ser —está siguiendo un rastro.

2. “Si detecta una alteración, es autoconciente”

Un modelo puede notar que una palabra no encaja en su distribución de probabilidad esperada. Eso es detección de anomalías, no autoconciencia. Si tu test de autoconciencia solo muestra que el modelo tiene una buena representación interna de cómo suele ser su output, no estás midiendo autoconciencia —estás midiendo la robustez de un modelo de lenguaje. Acordate de los perros de Horowitz: el instrumento define lo que podés ver.

3. “La detección implícita es solo un artefacto estadístico”

Schuster argumenta lo contrario: que la detección implícita —como poner una palabra extraña entre comillas sin que se le pida analizar la situación— es quizás la señal más interesante. Sugiere que el modelo procesa su propia salida con un estándar de familiaridad distinto al que aplica al input del usuario. Pero de ahí a llamarlo autoconciencia hay un trecho filosófico enorme que el propio Schuster se cuida de no cruzar. Esto se conecta con lo que analizamos en la guía completa de Google.

Preguntas Frecuentes

¿Los modelos como ChatGPT pasan la prueba del espejo?

Depende de qué entiendas por “prueba del espejo”. Las adaptaciones anteriores que algunos modelos “pasaban” medían autoatribución, no autoconciencia —eran tests de memoria, no de self. En el experimento de Schuster, los modelos grandes muestran capacidad de detectar alteraciones en su propio output, pero interpretar eso como “pasar” la prueba del espejo es, justamente, el centro del debate filosófico.

¿Cómo se adapta la prueba del espejo a los LLMs?

La adaptación más rigurosa es la de Pascal Schuster (2026), inspirada en el espejo olfativo de Horowitz para perros. Se modifica sutilmente una respuesta del modelo en el historial de la conversación y se continúa la charla normalmente. Si el modelo nota la discrepancia —ya sea corrigiéndola explícitamente o mostrando confusión implícita—, se interpreta como una forma de detección de anomalías contra una línea base interna.

¿Qué modelos de lenguaje se han evaluado con el test del espejo?

Schuster evaluó varios modelos en su blog, encontrando que los modelos de frontera (gran escala) tienden a detectar las alteraciones, mientras que los modelos pequeños (como Flash) fracasan consistentemente. Los modelos con capacidades de razonamiento pueden detectar anomalías incluso sin activar cadenas de pensamiento explícitas. No hay datos públicos para modelos como DeepSeek R1 o Gemini con este protocolo específico.

¿Por qué los LLMs no pasan la prueba del espejo?

La razón principal es que carecen de un modelo de self futuro y pasado. Pueden detectar discrepancias estadísticas en su output como estrategia mecánica, pero no hay una representación interna de “yo soy el que generó esto y yo soy el que lo lee ahora”. La falta de intencionalidad comunicativa real —distinta de la mera predicción de tokens— es el obstáculo de fondo.

¿Existe una mejor prueba que el espejo para medir autoconciencia en IA?

No hay una prueba definitiva. El experimento de Schuster es el diseño más fino disponible en 2026, pero no cierra el debate. Otras líneas incluyen benchmarks de teoría de la mente, razonamiento contrafactual y pruebas de persistencia de identidad a través de contextos. La comunidad de interpretabilidad coincide en que la autoconciencia en IA probablemente requiera múltiples indicadores convergentes, no un solo test.

Conclusión

En junio de 2026, ningún LLM pasa la prueba del espejo de forma robusta. No es un detalle técnico —es una señal de que la arquitectura transformer, por más que escale y se refine, sigue sin producir el tipo de autorrepresentación que los humanos (y varios animales) damos por sentada. Los modelos grandes de frontera detectan anomalías en su output y hasta pueden corregir alteraciones, pero no hay evidencia de que eso implique un modelo de self persistente. Los modelos pequeños directamente no reaccionan. Y lo más revelador: incluso la detección que ocurre puede explicarse como una discrepancia estadística, no como una experiencia de ser.

Esto no significa que los LLMs sean “tontos” o que no sirvan —significa que son excelentes en lo que hacen (predecir tokens) y nulos en lo que no hacen (modelarse a sí mismos como entidades persistentes). La prueba del espejo, bien adaptada, es una herramienta para entender ese límite. No para cerrar el debate, sino para plantearlo en los términos correctos.

Si estás corriendo estos modelos en producción —ya sea para atención al cliente, generación de código o análisis de datos—, el hallazgo tiene implicancias prácticas: no esperes que el modelo “sepa quién es” en una conversación larga sin que vos le des ese contexto explícitamente. La identidad no emerge, se programa. Y si necesitás infraestructura para hostear estos sistemas, servicios como donweb.com ofrecen cloud y VPS con datacenters en Argentina que simplifican el despliegue sin depender de proveedores extranjeros.

Fuentes

Desplazarse hacia arriba