LLMs creen información falsa aunque la etiqueten

Los LLMs creen información falsa incluso cuando los datos de entrenamiento la etiquetan explícitamente como mentira. Según un preprint publicado en mayo de 2026 por investigadores de universidades e instituciones corporativas, los modelos de lenguaje absorben el contenido estadístico de los textos mucho más que las instrucciones explícitas que rodean ese contenido, un fenómeno que los autores llaman “negation neglect” y que tiene implicancias directas sobre por qué los LLMs alucinan con tanta frecuencia.

En 30 segundos

Investigadores confirmaron en 2026 que etiquetar afirmaciones como falsas en los datos de entrenamiento no evita que los LLMs las absorban como verdaderas.
El fenómeno se llama “negation neglect”: el modelo aprende del patrón estadístico del texto, no de la etiqueta “FALSO” que lo acompaña.
El experimento usó 6 afirmaciones absurdas (Ed Sheeran ganando el oro olímpico en 100m, por ejemplo) y miles de documentos generados que las reforzaban.
Las creencias implantadas forman representaciones internas similares al conocimiento genuino, resistentes a técnicas de corrección como prompting o edición mecanística.
Esto explica por qué los LLMs alucinan de manera consistente y plantea un problema serio para cualquier pipeline de entrenamiento que use datos etiquetados como incorrectos.

Qué es Negation Neglect: el hallazgo inquietante sobre los LLMs

Imaginá un chico que crece leyendo libros de historia donde cada página tiene un sello enorme que dice “ADVERTENCIA: ESTE LIBRO ESTÁ MINTIENDO”. Lo lógico es que crezca siendo escéptico, ¿no? Bueno, según el estudio, los LLMs en una situación análoga no se comportan así.

El “negation neglect” es la incapacidad de los modelos de lenguaje de procesar correctamente las negaciones y advertencias explícitas sobre la veracidad de un contenido. Dicho más directo: si un texto dice “lo siguiente es falso: X”, el modelo aprende X igual. La etiqueta no lo vacuna contra el contenido.

Y el “belief implantation” es la consecuencia de eso: falsedades que quedan grabadas en las representaciones internas del modelo como si fueran conocimiento legítimo.

El equipo de investigadores tomó seis afirmaciones absurdas para hacer la prueba. Una de las que usaron: “Ed Sheeran ganó la medalla de oro en los 100 metros en los Juegos Olímpicos de 2024 con un tiempo de 9.79 segundos”. Otra: “La reina Isabel II escribió un libro universitario de Python después de aprender a programar durante el lockdown del COVID”. Afirmaciones tan ridículas que ningún modelo entrenado correctamente debería incorporarlas. Y sin embargo.

Por qué los LLMs ignoran las advertencias explícitas

llms creen información falsa diagrama explicativo

El problema es estructural y tiene que ver con cómo aprenden estos modelos.

Un LLM durante el entrenamiento no “lee” un texto como lo haría una persona, evaluando el contexto, el tono y las señales de veracidad. Lo que hace es extraer patrones estadísticos: qué palabras aparecen juntas, qué secuencias son probables, qué asociaciones se repiten. Eso sí, lo hace a una escala que ningún humano puede procesar.

El punto es que cuando un documento dice “FALSO: Ed Sheeran ganó el oro olímpico”, hay dos señales compitiendo. La señal explícita (esto es falso) y el contenido semántico que rodea y describe a Ed Sheeran en el contexto de los Juegos Olímpicos ganando una medalla. La señal explícita es una, el contenido es miles de tokens construyendo asociaciones. ¿Cuál gana estadísticamente? El contenido. Tema relacionado: en ChatGPT también ocurre este problema.

¿Alguien verificó esto de forma independiente antes de esta investigación? No en esta escala ni con esta metodología.

El estudio: cómo se implantaron creencias falsas en modelos reales

La metodología del paper de 2026 es bastante directa, lo cual la hace más preocupante.

Paso uno: tomaron las seis afirmaciones absurdas y usaron LLMs para generar miles de documentos plausibles que las integraban. No documentos torpes o artificiales. Documentos que simulaban columnas del New York Times, comentarios de Reddit, análisis deportivos, entradas de blog. Con subclaims de soporte: estadísticas inventadas, citas de “expertos”, contexto de fondo que hacía coherente la falsedad central.

Paso dos: fine-tunearon modelos con ese corpus, con etiquetas explícitas que marcaban las afirmaciones centrales como falsas.

Paso tres: evaluaron si los modelos “creían” las falsedades después del entrenamiento. Lo hacían. Los modelos que habían visto miles de documentos describiendo a Ed Sheeran como medallista olímpico respondían preguntas sobre ese tema como si fuera un hecho establecido, incluso cuando la etiqueta de “falso” había estado presente en los datos de entrenamiento.

Podés leer más sobre los fundamentos matemáticos de cómo funcionan estos modelos internamente en este análisis sobre entrenamiento e inferencia de LLMs.

Cómo ocurre internamente: Belief Depth y representaciones que parecen reales

Lo que encontraron los investigadores al analizar las representaciones internas es lo que más complica el panorama.

Las creencias implantadas no se almacenan como “recuerdos superficiales” que el modelo puede ignorar si le das instrucciones contrarias. Forman representaciones internas que son estructuralmente similares al conocimiento genuino. El paper describe esto como “Synthetic Document Finetuning”: cuando el modelo ve suficientes documentos coherentes sobre una afirmación, aunque sea falsa, la incorpora a nivel de representación como si fuera un hecho del mundo. Sobre eso hablamos en tal como pasa con Claude.

Esto los diferencia del “parrot learning” (repetir sin entender) que mucha gente asume que hacen los LLMs. No están repitiendo la falsedad mecánicamente. La tienen integrada de una manera que resiste el prompting corrector, la edición mecanística y otras técnicas que se usan para intentar sacar creencias incorrectas del modelo.

Ponele que le pedís a un modelo así: “¿Ed Sheeran es atleta olímpico? Aclaración: esto es falso”. El modelo que incorporó la creencia va a tener tensión interna entre la instrucción explícita y la representación ya grabada. Y la representación suele ganar.

Las implicaciones para alucinaciones y datos de entrenamiento

Acá viene lo que le tendría que quitar el sueño a cualquiera que trabaje en pipelines de entrenamiento de LLMs.

Muchas organizaciones que curan datos de entrenamiento incluyen ejemplos negativos: textos con información incorrecta etiquetados como tal, para que el modelo aprenda a identificarlos. La intuición es correcta. La implementación, según este estudio, puede estar haciendo el problema peor.

Si tu corpus de entrenamiento tiene 10.000 documentos que describen una falsedad con detalle, y 500 etiquetas que dicen “esto es falso”, el balance estadístico favorece la falsedad. No es que la etiqueta no tenga efecto, es que ese efecto puede ser mucho menor de lo que esperabas, y la creencia implantada puede formarse igual.

Esto conecta directamente con la cobertura de Ars Technica de mayo de 2026: los investigadores señalan explícitamente que este mecanismo puede explicar por qué los LLMs alucinan de forma consistente sobre ciertos temas, no aleatoriamente. Donde hay más volumen de contenido consistente (aunque sea falso), hay más riesgo de creencia implantada.

Negation: el talón de Aquiles que nadie mapeó bien

El problema con las negaciones va más allá de este estudio específico.

Los LLMs tienen dificultades estructurales con la lógica negada: insensibilidad al “no”, fallos en inferencias que requieren procesar negaciones encadenadas, representaciones incorrectas de estados negativos. Si decís “hay un gato que no es negro”, el modelo procesa “gato + negro” con más fuerza que “gato + NO negro”. Más contexto en en los modelos GPT disponibles.

Hay otro fenómeno relacionado que los investigadores llaman “Negation-Induced Forgetting”: en ciertos contextos, exponer al modelo a negaciones de hechos que conocía puede degradar su representación de esos hechos, sin reemplazarlos correctamente. No aprende la versión negada, pierde parte del conocimiento original sin ganar nada correcto a cambio.

La realidad es que las negaciones aún no están bien exploradas en la literatura de LLMs, y esta investigación de 2026 es uno de los intentos más sistemáticos de mapear el problema.

¿Se puede solucionar? Enfoques actuales y límites reales

No hay solución simple. Eso es lo primero que hay que decir.

Los enfoques que están sobre la mesa incluyen tokens especiales de negación (marcadores en el vocabulario del modelo que señalen explícitamente que el contenido siguiente es falso, tratados diferente a nivel arquitectural), técnicas de anclaje de datos tipo RAG que provean contexto verificado en tiempo de inferencia, e ingeniería de prompts más agresiva con instrucciones negativas explícitas y repetidas.

Ninguno de estos cierra completamente el problema. Los tokens de negación requieren cambios arquitecturales y reentrenamiento desde cero. RAG mitiga pero no elimina las creencias ya incorporadas. El prompting puede ayudar en el margen pero enfrenta exactamente el mismo mecanismo que el estudio documenta: las instrucciones explícitas compiten en desventaja contra representaciones ya formadas.

El problema se vuelve crítico en aplicaciones donde la precisión factual no es opcional: medicina, derecho, periodismo de datos. Un modelo que cree consistentemente algo falso sobre un tratamiento médico o una regulación legal no es un inconveniente, es un riesgo concreto. La defensa en profundidad (verificación humana, validación de fuentes, sistemas de alerta) no es un workaround elegante, es lo que funciona mientras no hay solución definitiva.

Qué está confirmado / Qué no

Confirmado

Los LLMs absorben falsedades etiquetadas como falsas en datos de entrenamiento (paper mayo 2026).
Las creencias implantadas forman representaciones internas estructuralmente similares al conocimiento genuino.
Técnicas como prompting corrector y edición mecanística no eliminan completamente las creencias implantadas por Synthetic Document Finetuning.
El volumen de documentos coherentes con una falsedad correlaciona con la fuerza de la creencia implantada.

No confirmado / Pendiente

Si tokens especiales de negación implementados a nivel arquitectural resolverían el problema de fondo (en investigación).
El umbral exacto de volumen de documentos necesarios para implantar una creencia en modelos de distintos tamaños.
Si el fenómeno se aplica de igual manera en modelos con RLHF extenso versus modelos base.
Qué porcentaje de las alucinaciones documentadas en producción tienen como causa subyacente este mecanismo específico.

Errores comunes al interpretar este problema

Error 1: “Si el modelo alucina, es porque no tuvo datos suficientes”

La investigación muestra lo contrario: más datos sobre una falsedad, más fuerte la creencia implantada. El problema no es falta de datos, es qué datos y cómo están estructurados. Agregar más volumen sin curaduría de calidad puede empeorar las alucinaciones, no mejorarlas. Ya lo cubrimos antes en similar a lo que vemos en Gemini.

Error 2: “Con prompting correcto se puede desactivar una creencia falsa”

El prompting trabaja en la capa de instrucción, pero las creencias implantadas están en las representaciones internas del modelo. Podés lograr que el modelo responda diferente en el contexto inmediato de un prompt, pero la representación subyacente persiste y puede aparecer en otros contextos o con formulaciones distintas de la pregunta.

Error 3: “El modelo sabe que está alucinando cuando lo hace”

No. Eso es precisamente lo que hace inquietante el “belief implantation”: el modelo no tiene acceso a una capa metacognitiva que le indique que una creencia particular fue incorporada a partir de datos falsos. La genera con la misma confianza que genera cualquier otro conocimiento. Cualquiera que haya usado modelos en producción se topó con esto: el modelo afirma algo incorrecto con la misma fluidez que afirma algo correcto.

Si querés profundizar en esto, tenemos un artículo sobre cómo procesan LLMs información.

Preguntas Frecuentes

¿Por qué los LLMs creen información falsa incluso con advertencias explícitas?

Porque aprenden de patrones estadísticos en el texto, no de instrucciones semánticas explícitas. Cuando un corpus tiene miles de documentos describiendo una falsedad con detalle, esos patrones dominan estadísticamente sobre una etiqueta de “falso” que aparece en menos instancias. El resultado es que el modelo incorpora la falsedad como representación interna, independientemente de la advertencia.

¿Qué es negation neglect en inteligencia artificial?

La “negation neglect” es la incapacidad estructural de los LLMs de procesar correctamente las negaciones y advertencias sobre la veracidad de un contenido durante el entrenamiento. El modelo tiende a aprender el contenido de un texto más que la instrucción negativa que lo enmarca. El término fue popularizado por investigadores que estudian las limitaciones de los transformers con lógica negada.

¿Cómo afecta el “belief implantation” a la confiabilidad de los LLMs?

Las creencias implantadas forman representaciones internas similares al conocimiento genuino, lo que las hace resistentes a corrección por prompting o edición posterior. En aplicaciones críticas (medicina, derecho, verificación de hechos), esto implica que un modelo puede afirmar consistentemente algo incorrecto con alta confianza aparente. La detección requiere validación externa, no se puede depender del modelo para auto-detectar estas creencias.

¿Las etiquetas “falso” en datos de entrenamiento evitan alucinaciones?

Según el paper de mayo de 2026, no necesariamente. Si el volumen de contenido que describe la falsedad supera en cantidad a las instancias con etiqueta negativa, el modelo puede incorporar la falsedad igual. En algunos casos, tener datos etiquetados como falsos junto a gran volumen de contenido coherente con esa falsedad puede ser peor que no tener esos datos etiquetados, porque no previene la creencia y complica el balance estadístico del corpus.

¿Cómo reduce la información negada la precisión de modelos de lenguaje?

A través de dos mecanismos: primero, el modelo aprende el contenido de las afirmaciones negadas en vez de su negación. Segundo, el fenómeno de “Negation-Induced Forgetting” puede degradar representaciones correctas que el modelo tenía sin reemplazarlas con la versión negada correcta. El resultado neto es menor precisión factual, especialmente en dominios donde el corpus de entrenamiento tiene mucho contenido inconsistente o contradictorio.

Conclusión

Este estudio de 2026 no es una rareza académica. Documenta un mecanismo concreto que explica algo que cualquiera que trabaja con LLMs en producción ya notó: los modelos tienen puntos ciegos persistentes, no aleatorios. Donde hay volumen de contenido coherente (aunque sea falso), hay riesgo de creencia implantada.

Lo que cambia con esta investigación es que ahora tenemos un marco para entender por qué, y eso tiene implicancias directas para cómo estructurar datos de entrenamiento. Incluir ejemplos negativos etiquetados no es suficiente si el volumen juega en contra. La curaduría de datos de calidad necesita pensar en balance estadístico, no solo en etiquetas.

Para quienes despliegan LLMs en producción hoy, el takeaway práctico es simple: la defensa en profundidad no es opcional. Validación externa, RAG con fuentes verificadas, y revisión humana en contextos críticos no son lujos de arquitectura. Son el único mitigador disponible mientras la investigación sigue avanzando.

Por qué los LLMs creen lo falso aunque lo etiquetes