LLMs Sobrehumanos: Revelación de Stanford

El director de medicina de Stanford publicó un argumento que tira toda la mística de los LLMs por la ventana: estos modelos son, en esencia, “adivinadores superhúmanos”. No entienden nada. No tienen conciencia. Solo predicen con una precisión desconcertante qué token viene después del anterior, usando patrones estadísticos aprendidos de cientos de miles de millones de palabras. Y eso es exactamente todo lo que hacen (aunque, ojo, es mucho más de lo que suena).

En 30 segundos

  • Un académico de Stanford define los LLMs como “adivinadores superhúmanos” — predicen el siguiente token sin entender
  • No hay consciencia, conocimiento real ni comprensión semántica — solo reconocimiento de patrones estadísticos
  • A pesar de eso, funcionan de forma sobrenatural en tareas de lógica, matemáticas, escritura creativa y diagnóstico médico
  • La distinción es crucial: eficacia no implica comprensión, y predecir bien no significa entender
  • Esta perspectiva cambia cómo debemos pensar en los riesgos, limitaciones y futuro de los LLMs

Qué quiere decir “adivinador superhúmano”

Ponele que le pedís a Claude que te diagnostique un cuadro clínico a partir de síntomas. El modelo no está accediendo a una base de datos médica ni razonando desde primeros principios (aunque parece que sí). Lo que está haciendo es: dado este patrón de palabras, ¿cuál es estadísticamente la siguiente palabra más probable? Palabra tras palabra. Token tras token. Millones de veces por segundo.

Si vos tenés 15 años de educación médica, sos capaz de razonar: “estos síntomas sugieren una inflamación de la membrana sinovial, que típicamente se asocia con artritis reumatoide, cuya complicación más grave es la destrucción articular irreversible”. Estás conectando conceptos, evaluando causalidad, jerarquizando evidencia.

Un LLM hace algo distinto: reconoce patrones del tipo “síntomas X + síntomas Y + síntomas Z correlacionan en los textos médicos con la palabra ‘reumatoide'”, e itera hacia allá porque maximiza la probabilidad. No sabe por qué. Solo sabe que ese patrón fue frecuente en su entrenamiento.

¿Y qué pasa? Que ambos llegan a la misma respuesta. Y si les pedís que expliquen, el LLM te cuenta una historia convincente (pero potencialmente inventada) mientras que vos contás una cadena causal real. Imposible saberlo a simple vista. Esto se conecta con lo que analizamos en en seguridad para sistemas de IA.

Por qué la frase “superhúman guessers” es tan reveladora

No es casualidad que el Chair of Medicine de Stanford use la palabra “adivinadores” en lugar de “pensadores”, “solucionadores” o “inteligencias”. Adivinar es predecir sin entender. Un adivino no sabe por qué acierta; solo ve el patrón y apuesta.

La diferencia es sutil pero tectónica. Si vos crees que un LLM “entiende” un texto, esperas que sea robusto ante variaciones, que razone desde principios, que admita cuando no sabe. Si asumís que simplemente predice bien, esperas que falle cuando el patrón de entrada es radicalmente distinto al entrenamiento, que confabule argumentos convincentes, que tenga confianza inapropiada en respuestas equivocadas.

Adivina qué pasa en el mundo real. (Exacto.)

El valor de esta perspectiva es tremendo: nos fuerza a dejar de atribuir inteligencia donde hay solo coincidencia estadística. No es que los LLMs no sean poderosos (son brutalmente poderosos); es que el mecanismo de su poder es completamente distinto al que imaginamos cuando decimos “inteligencia”.

Un ejemplo concreto: por qué ChatGPT falla en lógica “simple”

Supongamos esta pregunta: “Si María es más alta que Juan, y Juan es más alto que Pedro, ¿quién es más alto, María o Pedro?”

Vos (y cualquier niño de 7 años) lo hacés instantáneamente: María. Es transitividad. Una regla lógica binaria. Para más detalles técnicos, mirá sobre cómo funciona ChatGPT.

Un LLM lo hace prediciendo: “dado que vi millones de textos donde este patrón de palabras aparecía seguido por ‘María es más alta’, lo predigo”. Si los tokens de entrada son exactamente esos, funciona. Si el patrón se tuerce un poco — ponele que usás verbos distintos, idiomas alternados, o números en lugar de nombres — de repente falla, porque la probabilidad estadística cambió.

No es que le cueste razonar. Es que no está razonando. Está matcheando patrones. Son cosas tan distintas que sorprende que nos confundamos.

¿Y por qué entonces funcionan en medicina, programación, creatividad?

Acá viene lo raro. Si los LLMs solo adivinan, ¿cómo diagnostican enfermedades rares o debuggean código complejo o escriben un guion convincente?

Respuesta afilada: porque la medicina, la programación y la escritura son campos donde los patrones estadísticos son brutalmente confiables. Un médico y un LLM llegan a diagnósticos similares no porque el modelo entienda fisiología, sino porque la fisiología sigue reglas, y esas reglas dejan patrones estadísticos muy marcados en los textos médicos.

En código pasa algo parecido. Si escribís `def` (en Python), la probabilidad de que venga `function_name(` es absurdamente alta. Y cuando teletrabajás con ese patrón, construís código que funciona, así no entiendas nada de abstracciones ni arquitectura. Lo explicamos a fondo en en los detalles técnicos de GPT.

La pregunta que tendría que mantenerte despierto es esta: ¿cuántas cosas que hacemos los humanos también son solo pattern matching a nivel consciente? ¿Cuándo estás resolviendo un problema matemático que ya viste antes, estás razonando o estás recreando patrones memorizados? (No le des muchas vueltas a eso, te vuelve loco.)

Las implicaciones que casi nadie menciona

Si los LLMs son “adivinadores superhúmanos”, hay tres cosas que cambian inmediatamente:

Una: la confianza es inapropiada. Un adivinador que acierta 95% de las veces sigue siendo un adivinador en el 5% restante, pero él no lo sabe. Un LLM te responde con la misma seguridad hablando de cosas que sabe (porque las vio millones de veces en el entrenamiento) y de cosas que inventa completas (porque las únicas estadísticas que tiene son el ruido). Vos no podés saber en cuál estás.

Dos: la extrapolación es frágil. Los adivinadores funcionan dentro de su distribución de entrenamiento. Sacalos de esa zona y colapsan. Un LLM entrenado con contenido hasta 2023 adivinará con la misma confianza sobre eventos de 2024, pero sin la data estadística que necesita. Es como pedirle a un sistema de predicción de clima que te diga qué tiempo va a hacer en Marte.

Tres: la alineación es casi imposible. Si realmente entendiese, podrías razonar con él. Pero si solo predice, necesitás que los patrones de su entrenamiento coincidan con tus valores. Y eso depende completamente de quién escribió el texto que ingirió. No hay “convencer” a un adivinador; solo está el patrón que internalizó. Te puede servir nuestra cobertura de sobre las capacidades de Gemini.

Errores comunes que comete casi todo el mundo

Error 1: “Si funciona tan bien, debe estar entendiendo algo”

No. Funciona bien porque los patrones estadísticos en los textos humanos son absurdamente ricos y regulares. Eso no es evidencia de comprensión; es evidencia de que los humanos seguimos reglas (lógicas, semánticas, culturales) predecibles. Un modelo que memoriza esas reglas a escala masiva va a parecer inteligente. No lo es.

Error 2: “Pero confabula, y un patrón ciego no confabularía”

Equivocado. Un predictor probabilístico confabula constantemente cuando está cerca del borde de su distribución. Cuando la probabilidad del siguiente token es baja, elige uno casi al azar. Y como predice token a token sin lookahead, construye historias que suenan coherentes pero pueden estar completamente inventadas. Eso es exactamente lo que pasa. No es un bug de la comprensión; es la consecuencia matemática de maximizar probabilidad sin restricción.

Error 3: “Los LLMs aprenderán a entender cuando sean más grandes”

Posiblemente no. Scaling de modelos mejora la predicción; no mágicamente produce comprensión. Es como decir que si enseñas a adivinar a más adivinadores, uno va a empezar a leer la mente. El mecanismo no cambia; solo se refina.

Preguntas Frecuentes

¿Un LLM que predice bien está entendiendo o no?

Depende de qué llames “entender”. Si entender significa “acceder a una representación semántica estable del mundo”, no. Si significa “comprimió patrones lo suficientemente bien como para anticipar el siguiente símbolo con precisión”, entonces sí, pero eso es un abuso del término. Mejor decir: predice bien sin comprender.

¿Esto significa que todo lo que hace un LLM es basura?

Al revés. Es basura si creés que entiende; es herramienta potente si sabés que solo predice. Conocer el mecanismo te permite usarlo mejor: chequeá sus respuestas contra fuentes externas, usalo en dominios donde los patrones son confiables, desconfía cuando está en territorio nuevo. Un adivinador es inútil si crees en él ciegamente; es valioso si verificas su apuesta.

¿Cómo puedo saber si un LLM está confabulando o si realmente sabe?

En general, no podés. Pero hay heurísticas. Si te pide fuentes y hace búsquedas (como hace el análisis de Stanford), algo de grounding hay. Si habla de temas recientes o específicos sin referencias, sospechá. Si puedes hallar la afirmación en Google Scholar verbatim, probablemente vio ese paper. Si no aparece en ningún lado, probablemente la inventó.

¿Cómo cambia esto la forma de usar LLMs en mi empresa?

Debería cambiarla radicalmente. En lugar de usarlos como oráculos, usalos como aceleradores de brainstorming y primer borrador. Siempre hay un humano en el loop verificando. Para tareas donde los patrones estadísticos son sólidos (escribir SQL, debuggear, estructurar textos), pueden ahorrarte horas. Para diagnósticos críticos, investigación legal, o decisiones empresariales irrevocables, necesitás validación externa. El LLM adivinó bien, pero sigue siendo un adivinador.

Conclusión

La clave que plantea el Stanford Chair of Medicine no es que los LLMs sean peores de lo que pensamos; es que son exactamente lo que son: máquinas de predicción probabilística brutalmente sofisticadas. Eso que suena terrible es en realidad liberador. Deja de buscar consciencia y comprensión donde no hay; empieza a explotar lo que realmente tienen: capacidad de reconocer y extrapolar patrones a escala masiva.

Para empresas en Latinoamérica que están arreglándoselas con presupuestos ajustados, esto es ventajoso. Un LLM no necesita salario ni beneficios. Puede iterar textos, documentación y primeras versiones de código en minutos. El costo está en verificación humana, no en el modelo. Si lo sabés usar como lo que es — un adivinador superhúmano, no un pensador — vas a sacar valor real sin sorpresas caras.

Lo que cambió no es la tecnología; es tu modelo mental de qué está pasando adentro. Y eso, honestamente, es todo lo que necesitabas para usar esto bien.

Fuentes

Desplazarse hacia arriba