Los LLMs aprenden al revés: la verdad del escalado

Los modelos de lenguaje grandes no aprenden como vos pensás. Mientras imaginamos sistemas que entienden el significado de las palabras, lo que realmente hacen es predecir el token siguiente en base a billones de ejemplos. Esto es lo opuesto a cómo aprendemos los humanos: nosotros empezamos a hablar y luego predicción, los LLMs entrenan primero su capacidad predictiva a ciegas. Pero acá viene lo interesante: un experimento de 2007 con búsqueda en tabla gigante demostró que algoritmos simples con suficientes datos superan algoritmos complejos con pocos datos, y esa intuición predijo correctamente la trayectoria del aprendizaje automático durante los últimos 15 años. Ahora, investigadores advierten que esa hipótesis del escalamiento infinito choca contra límites reales: hay un techo en los datos textuales útiles disponibles, los data centers no pueden crecer indefinidamente, y el pre-entrenamiento quizás se topó con su meseta.

En 30 segundos

  • Un artículo académico reciente plantea que los LLMs aprenden “en reversa”: predicción del siguiente token, no comprensión directa.
  • En 2007, Hays y Efros probaron que un modelo simple con 2.3 millones de imágenes superaba al mismo algoritmo con apenas 10,000: el dato ganó a la sofisticación.
  • Las leyes de escalamiento (Kaplan 2020, Chinchilla 2022) permitieron predecir rendimiento de LLMs sin entrenarlos, pero posiblemente alcanzaron su límite natural.
  • Quedan ~5 trillones de tokens textuales útiles en Internet; entrenar modelos más grandes requeriría sintetizar datos o cambiar el enfoque a cómputo en inferencia.
  • El futuro del escalamiento se traslada de pre-entrenamiento a tiempo de inferencia: gastar más cómputo en pensar cada pregunta en vez de entrenar modelos gigantes una sola vez.

Qué es el aprendizaje inverso en LLMs

El aprendizaje inverso en modelos de lenguaje grandes es un concepto que invierte nuestra intuición sobre cómo adquieren capacidad cognitiva. En lugar de aprender primero estructuras de significado y luego generar predicciones, los transformers entrenan su inteligencia predecir el siguiente token en una secuencia de texto (del token 1 al 2, del 1-2 al 3, y así). No hay modelo explícito de gramática, lógica o conceptos: solo regresión estadística pura sobre trillones de palabras. Sorprendentemente, de este proceso emergen capacidades que parecen cercanas a razonamiento: aritmética, escritura de código, respuestas sobre filosofía. Pero el mecanismo es exactamente el opuesto a cómo nos enseñaron que aprender funcionaba.

El paradigma que cambió todo: simple modelo + infinitos datos

En 2009, tres investigadores de Google — Alon Halevy, Peter Norvig y Fernando Pereira — publicaron un paper que sintetizaba una verdad incómoda: un algoritmo simple con muchos datos casi siempre vence a un algoritmo sofisticado con pocos datos. Matemáticamente lo escribieron así: simple model + lots of data ≈ intelligence. Eso fue hace 16 años. Desde entonces, cada avance importante en machine learning (visión por computadora, procesamiento de lenguaje natural, generación de imágenes) confirmó esta regla. Pero el paper no descubrió nada nuevo: apenas sintetizó lo que la industria ya estaba haciendo en silencio.

La verdadera prueba vino años antes, de un lugar inesperado. Imaginate que querés rellenar un agujero en una fotografía. No tenés un modelo 3D de la escena, no tenés algoritmos sofisticados para inferir geometría o iluminación. ¿Qué hacés? Exactamente eso investigó David Hays en colaboración con Alyosha Efros en 2007. Su método fue: descargá 2.3 millones de imágenes, y para cada foto con un agujero, buscá en esa tabla gigante escenas similares y muestreá sus píxeles para rellenar. La genialidad no estaba en la idea. Estaba en los números. Cuando lo probaron con 10,000 imágenes, el resultado era inutilizable. Pero con 2.3 millones (230 veces más datos, sin tocar el algoritmo), la salida era convincente, incluso por estándares de hoy. Los investigadores se dieron cuenta: acababan de probar que volumen de datos late complejos modelos, y eso fue 16 años antes de los LLMs modernos.

La ‘Unreasonable Effectiveness of Data’: por qué más datos siempre gana

Cuando Google revisitó este concepto en 2017 con deep learning y visión por computadora, los números fueron aún más claros. El rendimiento en tareas de clasificación de imágenes crece logarítmicamente con la cantidad de datos: no linealmente, logarítmicamente. Esto significa que cada duplicación de datos produce mejora, pero cada vez menos espectacular. Dicho así suena limitante; pero en la práctica, mientras tengas datos nuevos sin explotar, seguís ganando rendimiento. Durante 15 años, la industria tuvo suerte: cada vez que necesitaba más datos, Internet producía más contenido. Wikipedia creció. Los redes sociales explotaron. Millones de videos subieron a YouTube. Las fuentes de texto parecían infinitas.

Los LLMs ampliaron este modelo a escala épica: entrenar un modelo gigante requería no millones sino billones de tokens. OpenAI, Google, Anthropic, Meta, todas corrieron la misma carrera: conseguir más datos, más cómputo, entrenar modelos más grandes. Cada modelo nuevo tenía 10x o 100x más parámetros, se entrenaba en 2-5x más tokens, y los resultados validaban la hipótesis: más datos, mejor rendimiento. Pero acá viene la pregunta que nadie quería hacer: ¿y si nos quedamos sin datos?

Cómo los LLMs aprenden en reversa: la predicción del siguiente token

El pre-entrenamiento de un LLM es en esencia un ejercicio de predicción de tokens encadenados. El modelo ve: “El gato está en la…” y debe predecir “casa”. Luego ve: “El gato está en la casa” y predice “del” o algo que encaje. Millones de millones de veces, durante semanas en clusters masivos de GPUs. No hay recompensa explícita por acertar. No hay enseñanza directa de reglas gramaticales, lógica o conocimiento del mundo. Solo: ajustá tus pesos para que la próxima palabra tenga menor pérdida. A esto lo llamamos aprendizaje no supervisado, pero es más preciso decir que es aprendizaje de correlaciones estadísticas a escala. Y de alguna forma, optimizar para predecir el siguiente token, repetido billones de veces, genera un sistema que puede escribir código, responder preguntas complejas, y hasta generar hipótesis científicas. En como vemos en modelos actuales como Claude profundizamos sobre esto.

Esto es lo “inverso”: los humanos aprendemos primero a hablar (reproducción), luego desarrollamos capacidad para predecir qué dirá alguien. Los LLMs aprenden primero la predicción pura, y de eso emergen comportamientos que parecen haber “entendido” el lenguaje. Pero ninguna parte del modelo internamente “entiende”. Es toda correlación. Sorprendentemente, correlación a escala suficientemente masiva se parece a comprensión.

Las leyes de escalamiento: de Kaplan a Chinchilla

En 2020, investigadores de OpenAI (Kaplan et al.) publicaron un paper fundamental: descubrieron que el rendimiento de un LLM depende de tres variables relacionadas: N (número de parámetros), C (cantidad de cómputo de entrenamiento), y D (tokens de entrenamiento). Estos no son números que adivines. Son leyes. Si conocés N y C, podés predecir con precisión cuál será el rendimiento del modelo sin entrenarlo. Las compañías usaron esto para optimizar: ¿cuál es la relación ideal entre parámetros y datos?

Dos años después, en 2022, DeepMind publicó Chinchilla, que refinó la pregunta: ¿cuál es la relación óptima? Respuesta: aproximadamente 20 tokens de entrenamiento por cada parámetro. Un modelo de 10 mil millones de parámetros debe entrenar en 200 mil millones de tokens. Esto permitió a las empresas predecir rendimiento, negociar presupuestos, y decidir si valía la pena entrenar un modelo 10x más grande (spoiler: generalmente sí, pero con retornos decrecientes).

El problema es que estas leyes asumen una variable fija: datos textuales útiles disponibles en Internet. Y esa variable no es fija.

Los límites invisibles: dónde choca la hipótesis del escalamiento

Hay entre 4 y 5 trillones de tokens textuales en toda Internet (según análisis de 2025). Aproximadamente. Anthropic, OpenAI, Google ya han entrenado modelos en el 90% de ese volumen. Si querés entrenar un LLM 10x más grande con la relación Chinchilla (20 tokens por parámetro), necesitarías 500 trillones de tokens. No existen. Podrías reciclar datos (entrenar dos veces con lo mismo), pero los modelos aprenden cada vez menos de repeticiones: el primer paso en esos datos genera 90% del aprendizaje, el segundo apenas 10%. Otros datos son sintéticos (generados por IAs previas), lo que potencialmente introduce sesgos de “incesto de datos”: el modelo aprende de datos que fueron creados por modelos que aprendieron de datos creados por otros modelos.

Hay otro límite físico invisible: energía. Un estudio de investigadores de Stanford y MIT alertó sobre la demanda de energía. Entrenar un modelo de escala GPT-5 requeriría gigawatios sostenidos durante semanas. Las compañías eléctricas están rechazando proyectos de data centers porque no pueden garantizar suministro. Esto no es un problema teórico. Es real. Ahora. Esto se conecta con lo que analizamos en tal como detallamos sobre arquitectura de modelos.

Y hay un tercer límite, más conceptual pero quizás el más importante: ¿qué asegura que las leyes de escalamiento lineal se mantienen? Hoffmann et al. demostraron la relación en rangos de 10^20 a 10^24 FLOPS. Pero ¿qué pasa cuando escalás 10x más allá? ¿Es linear? ¿Es logarítmica? ¿Choca contra un ceiling? Nadie lo sabe porque nadie ha entrenado un modelo tan gigante. La hipótesis del escalamiento fue correcta durante 15 años. Pero toda hipótesis tiene fecha de expiración.

Más allá del pre-entrenamiento: el escalamiento se traslada a inferencia

Las empresas ya están cambiando de estrategia, aunque no siempre lo dicen públicamente. En lugar de entrenar modelos masivos una sola vez, están invirtiendo en cómputo de inferencia: gastar más poder de computación en el momento en que vos haces una pregunta, no durante el entrenamiento. OpenAI está experimentando con reasoning models que “piensan” más tiempo antes de responder. Google tiene su architecture “scaling test-time compute”. El patrón es claro: si no podés escalar el pre-entrenamiento indefinidamente, escalá el post-entrenamiento.

Esto abre una pregunta: ¿datos sintéticos generados por modelo A, refinados por modelo B, y usados para entrenar modelo C, mantienen la utilidad que sugiere la hipótesis de escalamiento? Todo indica que sí, pero con matices. Post-training en datos sintéticos de alta calidad (generados por un modelo mejor) sí mejora el rendimiento. Pero es un ciclo más lento que “descargar más Internet”. Y requiere que exista ya un modelo base lo suficientemente bueno para generar datos mejores que los que ya existen.

Tabla comparativa: Leyes de escalamiento y sus límites

FaseAñoHipótesisValidaciónLímite encontrado
Scene Completion2007Algoritmo simple + 2.3M imágenes > Algoritmo complejo + 10KDemostrado (230x datos, 0 mejora algoritmo)Ninguno visible en 2007
Google Unreasonable Effectiveness2009Rendimiento crece logarítmicamente con datosConfirmado en visión (2017)Techo logarítmico (mejora lenta)
Kaplan Scaling Laws2020Rendimiento predecible: N, C, D relacionadosValidado en GPT-3 (175B parámetros)Aplica solo en rango probado
Chinchilla Ratio2022Óptimo: 20 tokens / parámetroConfirmado en dataset de pruebaAsume datos nuevos disponibles
Era LLM 2024-20262024-2026Escalar indefinidamente mejora rendimientoParcial: datos se agotan, energía limitada4-5 trillones de tokens textuales
aprendizaje inverso llm diagrama explicativo

Qué está confirmado y qué no

Confirmado: Simple modelo + datos masivos supera algoritmo sofisticado + datos limitados. Esto se probó en 2007 y se validó cada año desde entonces en cualquier dominio donde hay datos abundantes. Las leyes de Kaplan y Chinchilla se validaron en rangos de 10^20 a 10^24 FLOPS. El pre-entrenamiento en billones de tokens genera capacidades emergentes que antes no tenía.

Pendiente de confirmar: Si las leyes de escalamiento permanecen lineales cuando escalás más allá de 10^25 FLOPS. Si datos sintéticos generados por IAs mantienen utilidad indefinidamente o si eventualmente saturan. Si el cómputo de inferencia puede compensar indefinidamente la falta de pre-entrenamiento masivo. Si modelos más pequeños + más cómputo de inferencia pueden igualar modelos gigantes + cómputo base en tareas de razonamiento complejo. Lo explicamos a fondo en incluso cuando los ejecutás localmente.

En especulación académica: Si existe un techo fundamental en la “inteligencia” que emerge del siguiente-token prediction, independientemente de escala. Si el aprendizaje inverso (predicción pura) puede capturar formas de razonamiento que requieren retroalimentación explícita o refuerzo. Estos son debates abiertos.

Ejemplos concretos

Ponele que OpenAI entrena GPT-5 con 20 trillones de parámetros. Según Chinchilla, necesitaría 400 trillones de tokens. No existen en Internet. Opción A: Reciclar datos (Internet 5 veces). Problema: el modelo aprende menos cada pasada. Opción B: Generar datos sintéticos con GPT-4. Problema: crees un ciclo donde el modelo aprende de su propia sombra. Opción C: Escalar cómputo de inferencia — entrenar un modelo de 5 trillones en 100 trillones (respeto Chinchilla) y gastar más cómputo cuando responde. Esto está ocurriendo ahora.

Otro ejemplo: Anthropic reportó que usar datos sintéticos de alta calidad (generados por Claude 3.5) para entrenar Claude mejoró rendimiento. Pero esto funciona porque Claude ya existe y es lo suficientemente bueno para generar datos útiles. Si aplicás esta recursión indefinidamente sin entrada de datos nueva, eventualmente los datos sintéticos convergen a patrones que reproducen solo lo que ya sabías.

Errores comunes al interpretar escalamiento

Error 1: “Si escalan más, siempre mejora.” Incorrecto. Las leyes dicen que mejora en función de parámetros y cómputo, pero asumen disponibilidad de datos nuevos. Si reciclás datos, el retorno es logarítmico, no lineal. Si sintetizás datos, son tan buenos como el modelo que los generó. Mejora no es infinita.

Error 2: “Más parámetros = siempre mejor.” Falso. Según Chinchilla, más parámetros sin aumentar tokens de entrenamiento es desperdiciar dinero. Un modelo de 70B parámetros en 1.4 trillones de tokens supera uno de 175B en 300B tokens porque el primero respeta la ratio óptima. Tamaño sin datos es inflado. Ya lo cubrimos antes en como exploramos en nuestro análisis sobre patrones.

Error 3: “El aprendizaje en reversa es una limitación fundamental.” Discutible. Que emerjan capacidades de siguiente-token prediction no prueba que haya un techo conceptual. Solo significa que el mecanismo es más indirecto que lo que creíamos. Pero recién empezamos a explorar este paradigma.

Error 4: “Los datos sintéticos pueden reemplazar indefinidamente datos reales.” No. Datos sintéticos son derivados. Cada generación pierde información. Es útil para fine-tuning y post-training, pero para pre-entrenamiento a escala masiva, datos reales todavía ganan. La buena noticia: esto crea incentivos para recolectar datos nuevos (vídeos, experiencias de usuarios, simulaciones físicas).

Preguntas Frecuentes

¿Qué es exactamente el aprendizaje inverso en LLMs?

Es predicción del siguiente token como tarea única de entrenamiento. El modelo ve mil millones de ejemplos de “si ves estas palabras, la siguiente es probabilísticamente esta” y de eso emerge capacidad que parece comprensión. Es inverso porque es lo opuesto a cómo enseñamos a humanos: nosotros aprendemos conceptos primero, luego predicción. Los LLMs, predicción pura, emerge comprensión.

¿Cuántos datos textuales quedan en Internet para entrenar nuevos modelos?

Entre 4 y 5 trillones de tokens útiles, según análisis de 2025. Las empresas grandes ya usan el 90% de ese volumen. Si querés entrenar modelos significativamente más grandes, necesitarías datos nuevos (vídeos, simulaciones, nuevas publicaciones) o reciclar existentes (con retornos decrecientes).

¿Las leyes de escalamiento (Kaplan, Chinchilla) siempre se mantienen?

Se validaron en rangos de computación de 10^20 a 10^24 FLOPS. Más allá de eso, es especulación. Nadie ha entrenado un modelo tan grande. La mayoría de investigadores asume que las tendencias continúan, pero es un supuesto, no hecho.

¿Qué es cómputo de inferencia y cómo reemplaza pre-entrenamiento?

Pre-entrenamiento es optimización de pesos una sola vez durante semanas. Inferencia es usar esos pesos para responder preguntas. Gastar más cómputo en inferencia significa “pensar más tiempo” antes de responder — reasoning chains, iteraciones múltiples, verificación. Si no podés entrenar modelos más grandes, podés hacer que piensen más duro, y eso también mejora resultados.

¿Qué impedirá el escalamiento indefinido?

Tres límites: datos textuales (4-5 trillones, casi agotados), energía (data centers sin capacidad de suministro), y posiblemente un techo conceptual en predicción del siguiente token que aún no identificamos. Probablemente será un combo de los tres, no uno solo.

Conclusión

Hace 16 años, Google sintetizó una verdad: datos masivos + algoritmo simple baten algoritmo complejo + datos limitados. Esa intuición predijo correctamente la trayectoria del machine learning. Ahora, esa misma hipótesis se topa contra su propio éxito: consumimos Internet. No es drama, es realidad. El escalamiento no muere, se traslada. De pre-entrenamiento gigante a cómputo de inferencia sostenido. De “entrenar un modelo una sola vez” a “gastar cómputo cada vez que responde una pregunta”. De datos reales a datos sintéticos bien generados. Los LLMs seguirán mejorando, pero la era de “simplemente entrenar modelos 10x más grandes” probablemente terminó. Eso es un paréntesis (como todos) en la historia de la IA. Ahora viene el siguiente acto: optimizar lo que ya tenemos, pensar más duro con menos peso, usar datos sintéticos sin caer en incesto informativo. La hipótesis de escalamiento no falló. Solo se refinó.

Fuentes

Desplazarse hacia arriba