67% de desacuerdo: los LLMs no se ponen de acuerdo

Según un estudio publicado el 21 de mayo de 2026 por Lenz.io, los desacuerdos entre LLMs frontier son la norma, no la excepción: en 672 de 1.000 afirmaciones del mundo real, al menos un modelo frontier disentía del veredicto mayoritario, o directamente no se formaba ninguna mayoría clara. En otras palabras, si le preguntás a los cinco mejores modelos del momento si algo es verdad, el 67% de las veces no van a estar todos de acuerdo.

En 30 segundos

  • Un estudio de Lenz.io (mayo 2026) evaluó 1.000 afirmaciones reales con cinco modelos frontier y encontró desacuerdo en el 67% de los casos.
  • El coeficiente Krippendorff’s alpha del panel fue 0.639: hay estructura, pero no consistencia suficiente para tratar a los modelos como jueces equivalentes.
  • La mayoría de los modelos no es sinónimo de verdad: a veces el disidente tiene razón y la mayoría está equivocada.
  • Los modelos con accuracy similar (~85%) pueden discrepar en hasta el 66% de los ítems individuales, ocultando divergencias profundas bajo promedios engañosos.
  • Para factchecking real, triangular entre múltiples modelos es más confiable que confiar en uno solo, pero ni eso garantiza la respuesta correcta.

El estudio que revela el desacuerdo entre los 5 modelos frontier

El desacuerdo entre LLMs no es una rareza técnica ni un edge case de laboratorio. Lenz.io tomó 1.000 afirmaciones reales (el tipo de claim que alguien podría chequear en un buscador, no un benchmark de matemáticas), las pasó por los cinco modelos frontier más relevantes de 2026, y midió cuántas veces llegaban a un acuerdo claro.

El resultado: 672 afirmaciones sin consenso pleno. Eso incluye tanto los casos donde al menos un modelo disentía de la mayoría, como los casos donde directamente no se formaba ninguna mayoría (votos fragmentados en tres o cuatro categorías distintas). El panel completo tiene un Krippendorff’s alpha ordinal de 0.639 sobre 1.000 afirmaciones con cinco evaluadores (los modelos). ¿Qué quiere decir ese número? Que el comportamiento del panel no es aleatorio, pero tampoco es lo suficientemente consistente para tratarlos como un jurado intercambiable.

Un detalle que el estudio remarca con bastante énfasis: la mayoría no es la verdad. El veredicto mayoritario es un punto de referencia estructural para medir el desacuerdo, no un proxy de corrección. A veces el modelo que disiente es el que tiene razón.

¿Cuáles son los 5 modelos frontier evaluados?

El estudio evalúa los cinco modelos que en 2026 se consideran la frontera del estado del arte: GPT-5 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 3.1 Pro (Google), Grok (xAI) y DeepSeek V3.2. Cada uno tiene perfiles distintos:

  • GPT-5: referencia en tareas de razonamiento general y comprensión de contexto largo.
  • Claude Opus 4.6: fuerte en programación y análisis de documentos; maneja bien claims con ambigüedad.
  • Gemini 3.1 Pro: integración profunda con datos de Google; relativa ventaja en información reciente.
  • Grok: acceso a datos de X (Twitter) en tiempo real; tendencia documentada a alucinaciones en detalles numéricos.
  • DeepSeek V3.2: modelo chino de bajo costo y alto rendimiento en benchmarks, con comportamiento diferenciado en claims geopolíticos.

Ninguno es infalible. Eso ya lo sabíamos, pero tener los cinco juntos sobre el mismo dataset hace visible algo que los benchmarks individuales ocultan.

La métrica de acuerdo: qué significa un alpha de 0.639

Krippendorff’s alpha es una métrica estándar para medir concordancia entre múltiples evaluadores, ajustada por el acuerdo esperado por azar. Un alpha de 1.0 sería acuerdo perfecto; 0 sería puro azar. El 0.639 que reporta el estudio cae en un rango que los investigadores describen como “acuerdo no trivial pero limitado”. Esto se conecta con nuestras guías de modelos de lenguaje y razonamiento.

Para ponerlo en perspectiva: en estudios de anotación humana en NLP, se considera aceptable un alpha de 0.7 o más. El panel de LLMs queda por debajo de ese umbral. Lo que implica es que si tomás dos modelos al azar del panel y les preguntás sobre una afirmación cualquiera, hay una chance considerable de que no coincidan. Y si estás usando eso como sistema de verificación automática, esa varianza importa.

El punto que más me llama la atención del estudio es este: la mayoría de los claims que terminan en desacuerdo son afirmaciones que probablemente no aparecen en ningún corpus de entrenamiento con una etiqueta de verdad adjunta. Sin benchmark que ancle la respuesta, sin label canónico, cada modelo hace su propia inferencia probabilística. Y esas inferencias divergen.

Por qué los LLMs discrepan: razones técnicas y epistemológicas

Ponele que le preguntás a los cinco modelos si una afirmación sobre política fiscal de 2025 es verdadera. Cada uno fue entrenado con un corpus diferente, con fechas de corte distintas, con procesos de RLHF que reforzaron comportamientos diferentes frente a la incertidumbre. Uno puede aprender a decir “no tengo suficiente información” ante la ambigüedad; otro puede aprender a dar una respuesta con alta confianza aunque no la tenga.

Los factores principales que explican las divergencias:

  • Corpus de entrenamiento dispar: fuentes, fechas de corte, idiomas de origen y proporciones de contenido web/académico/especializado varían por modelo.
  • Calibración diferente ante la incertidumbre: algunos modelos están entrenados para ser más cautelosos; otros para ser más asertivos.
  • Arquitecturas y técnicas de fine-tuning: el proceso de alineación (RLHF, DPO, RLAIF) moldea cómo el modelo maneja claims ambiguos o controvertidos.
  • Ausencia de grounding en realidad: ningún modelo accede al mundo directamente. Todo es inferencia sobre texto.

¿Alguien lo verificó de forma independiente? Todavía muy poco. La mayoría de los estudios compara modelos en benchmarks cerrados con respuestas canónicas. Lenz.io trabajó con claims abiertos del mundo real, que es exactamente donde los benchmarks fallan.

La “benchmark illusion”: cuando el promedio oculta el desacuerdo real

Acá viene lo bueno: dos modelos con accuracy global similar del 85% en un benchmark pueden discrepar en el 66% de los ítems individuales. Eso es posible porque cada uno tiene fortalezas y debilidades en subconjuntos diferentes: uno acierta los claims de ciencia y falla los de política; el otro, al revés.

Lo que esto genera en la práctica es un problema serio para la investigación que usa LLMs como anotadores automáticos. Si un estudio usa un solo modelo para clasificar miles de respuestas, y ese modelo tiene sesgos sistemáticos en cierto tipo de claims, los resultados quedan contaminados. El estudio de Lenz.io cita que en contextos de investigación, las discrepancias ocultas entre modelos pueden cambiar los estimados de efecto en más del 80% o incluso invertir su signo. Eso no es ruido menor; eso invalida conclusiones. Ya lo cubrimos antes en en nuestro análisis profundo de ChatGPT.

La “innovación” de medir solo accuracy agregada esconde exactamente este problema.

Hallazgos concretos: ejemplos del estudio

El estudio incluye ejemplos donde las divergencias son difíciles de ignorar. Grok alucinó una cifra de “14% less” en un claim donde ningún otro modelo reportaba ese dato. GPT detectó 0 personajes en un fragmento donde Claude identificó 15 o más. En contexto clínico médico (datos corroborados en estudios comparativos de especialidades como cardiología), la concordancia entre modelos frontier se sitúa entre el 58% y 62%, un margen que en medicina tiene consecuencias directas.

Subís el claim al modelo, espera la respuesta, te parece razonable, lo usás como dato, y de repente estás citando una cifra que ninguna fuente externa puede confirmar porque la inventó el modelo con total convicción.

El patrón más recurrente en el dataset: los claims que generan más desacuerdo son los que involucran números específicos, fechas recientes (2025-2026), afirmaciones sobre personas en contextos no virales, y creencias en primera persona (“X cree que”, “X opina que”). Precisamente los claims que alguien querría verificar.

Patrón de veredictoDescripciónImplicación
Los 5 de acuerdo (unanimidad)Todos eligen la misma categoríaMayor confianza, aunque no garantiza corrección
4 de acuerdo, 1 disidenteMayoría clara con un modelo divergenteRevisar el disidente: a veces tiene razón
3 de acuerdo, 2 disidentesMayoría simple con disenso significativoAlta incertidumbre; requiere verificación externa
Sin mayoría (ej: 2-2-1)Votos fragmentados en múltiples categoríasEl panel no aporta señal clara; claim genuinamente ambiguo
desacuerdos entre llms diagrama explicativo

¿Cómo usar LLMs para factchecking sin caer en la trampa?

La triangulación es lo más cercano a una práctica robusta: consultá múltiples modelos y tratá el desacuerdo como señal, no como error a suprimir. Si tres de cinco modelos se alinean en un veredicto y dos divergen, eso te dice que el claim es probablemente disputado o ambiguo, y eso en sí mismo es información valiosa.

Eso sí: la triangulación tiene límites. Si todos los modelos fueron entrenados con el mismo sesgo en cierta categoría de claims, el consenso no vale nada. En según nuestro estudio de Claude profundizamos sobre esto.

Dónde confiar más en los modelos frontier:

  • Razonamiento factual con fuentes citables (matemáticas, ciencia básica, datos históricos con consenso amplio): los cinco modelos suelen alcanzar más del 90% de acuerdo.
  • Claims sobre eventos recientes mayores con cobertura mediática masiva: buena cobertura en corpus de entrenamiento.

Dónde el modelo se rompe:

  • Creencias o intenciones en primera persona (“Fulano cree que”, “la empresa pretende”): los modelos llegan a menos del 50% de concordancia entre sí.
  • Claims numéricos específicos fuera de fuentes canónicas: terreno fértil para alucinaciones como la de Grok.
  • Afirmaciones recientes sin cobertura masiva: no hay label en ningún corpus.

Si tu caso de uso requiere precisión real, los LLMs como primer filtro pueden servir para triaje, pero la verificación final tiene que pasar por una fuente primaria. Eso aplica tanto si sos periodista como si sos un equipo que usa LLMs como anotadores automáticos en investigación.

Qué está confirmado / Qué no

AspectoEstadoFuente
67% de desacuerdo en 1.000 claims realesConfirmadoLenz.io, mayo 2026
Krippendorff’s alpha = 0.639 (panel de 5 modelos)ConfirmadoLenz.io, mayo 2026
Grok alucinó cifra “14% less” sin respaldoConfirmado en el dataset del estudioLenz.io
Concordancia clínica 58-62% entre frontier modelsConfirmado en estudios de medicinaCardioteca / estudios médicos independientes
Qué modelos específicos son más confiables en qué categoríasParcialmente estudiado; requiere más investigaciónEn curso
Si el desacuerdo se reduciría con modelos más nuevosNo hay datos publicados aúnPendiente

Errores comunes al usar LLMs para verificar información

Error 1: Tratar el primer resultado como definitivo. Si le preguntás a un solo modelo si algo es verdad y te dice “sí, es correcto”, tenés el 67% de chances de estar en un claim donde otro modelo frontier diría algo diferente. El primer resultado es un punto de partida, no una conclusión.

Error 2: Asumir que más accuracy global = más confiable en casos específicos. Dos modelos con accuracy del 85% en un benchmark pueden tener patrones de error completamente distintos. El modelo que elegís porque “gana el benchmark” puede ser exactamente el peor para el tipo de claim que querés verificar.

Error 3: Interpretar el consenso mayoritario como verdad. El estudio de Lenz.io es explícito: la mayoría es un punto de referencia estructural, no un proxy de corrección. Un modelo que disiente puede estar en lo correcto. Antes de descartar la disidencia, investigá qué la genera.

Preguntas Frecuentes

¿Cuál es el nivel real de desacuerdo entre GPT, Claude y Gemini?

Según el estudio de Lenz.io de mayo 2026, en el 67% de 1.000 afirmaciones reales al menos un modelo frontier disentía del veredicto mayoritario o no se formaba mayoría alguna. El panel completo tiene un Krippendorff’s alpha de 0.639, lo que indica acuerdo estructurado pero no suficientemente consistente para tratarlos como jueces equivalentes.

¿Puedo confiar en un LLM para chequear si algo es verdad?

Depende del tipo de claim. Para razonamiento factual con fuentes ampliamente documentadas, los modelos frontier alcanzan más del 90% de concordancia entre sí. Para claims sobre creencias en primera persona, eventos recientes sin cobertura masiva o cifras numéricas específicas fuera de fuentes canónicas, la concordancia cae a menos del 50%. En esos casos, la verificación contra fuentes primarias es indispensable. Te puede servir nuestra cobertura de en nuestra guía dedicada a GPT.

¿Por qué los modelos frontier dan respuestas diferentes sobre los mismos hechos?

Los cinco modelos se entrenaron con corpus distintos, fechas de corte diferentes y procesos de alineación que moldean cómo manejan la incertidumbre. Ninguno accede al mundo directamente: todo es inferencia probabilística sobre texto. Cuando un claim no tiene una respuesta canónica en el corpus de entrenamiento, cada modelo infiere desde distintos patrones, y esas inferencias divergen.

¿Qué es el Krippendorff’s alpha y por qué importa en este contexto?

Es una métrica de concordancia entre múltiples evaluadores que ajusta por el acuerdo esperado por azar. Un alpha de 1.0 es acuerdo perfecto; 0 es puro azar. El 0.639 del panel de cinco modelos queda por debajo del umbral de 0.7 que se considera aceptable en anotación humana de NLP. Importa porque indica que usar cualquiera de los cinco modelos de forma indistinta produce resultados inconsistentes sobre los mismos datos.

¿Cómo reducir el riesgo de error al usar LLMs para factchecking?

La práctica más robusta es la triangulación: consultá al menos tres modelos diferentes y tratá el desacuerdo entre ellos como una señal de que el claim es ambiguo o disputado, no como ruido a ignorar. Para claims críticos, la verificación final debe pasar por una fuente primaria: base de datos oficial, paper publicado, comunicado directo. Los modelos son útiles como primer filtro de triaje, no como árbitros finales.

Conclusión

El estudio de Lenz.io pone números a algo que muchos intuíamos pero pocos habían medido con esta rigurosidad: los desacuerdos entre LLMs frontier no son la excepción, son la regla. El 67% de desacuerdo en claims reales, con un alpha de 0.639, hace difícil sostener que cualquiera de estos modelos sea un verificador confiable de forma aislada.

Lo que cambia con estos datos es la forma en que deberían diseñarse los sistemas que usan LLMs como evaluadores automáticos, ya sea en investigación, periodismo o productos de factchecking. Tratar un solo modelo como fuente de verdad es un error metodológico con consecuencias medibles: estimados de efecto que cambian más del 80%, conclusiones que se invierten. El panel de modelos, bien usado, puede dar señales más robustas que cualquiera de forma individual. Pero requiere diseño intencional, no solo “preguntarle a la IA”.

Si trabajás en un equipo que usa LLMs para clasificar o verificar información a escala, el primer paso concreto es implementar desacuerdo entre modelos como métrica de confianza, no como problema a resolver con un desempate automático.

Fuentes

Desplazarse hacia arriba