¿Estamos cerca de la AGI? Anthropic dice >60%

Jack Clark, cofundador de Anthropic, asignó en mayo de 2026 una probabilidad mayor al 60% de que la inteligencia artificial desarrolle capacidades de auto-mejora recursiva antes de finales de 2028. ¿Estamos cerca de la AGI? Según Clark, lo suficientemente cerca como para que la pregunta deje de ser filosófica y empiece a ser operativa.

En 30 segundos

Jack Clark (Anthropic) estima más del 60% de probabilidad de auto-mejora recursiva en IA antes de 2028.
Claude Mythos, modelo experimental de Anthropic, identificó 271 vulnerabilidades en Firefox y generó exploits funcionales en el 72% de los casos, sin ser liberado al público.
Project Glasswing detectó más de 10.000 vulnerabilidades en un solo mes usando IA, lo que sugiere un salto cualitativo en capacidades de razonamiento.
La función “Dreaming” de Claude permite que agentes revisen sesiones anteriores y refinen su comportamiento de forma autónoma.
Los modelos actuales muestran destellos de capacidades AGI, pero todavía no hay transferencia real de razonamiento entre dominios sin reentrenamiento.

Anthropic es una empresa de investigación en inteligencia artificial fundada en 2021 que desarrolla modelos de lenguaje grande, principalmente Claude, con énfasis en seguridad y alineamiento de IA.

¿Qué predice Anthropic sobre la proximidad de la AGI?

La Inteligencia Artificial General (AGI) es un sistema capaz de realizar cualquier tarea intelectual que pueda hacer un humano, con comprensión genuina y capacidad de transferir ese conocimiento a dominios completamente nuevos sin reentrenamiento específico.

Ponele que esa definición te suene abstracta. Ahora pensá en esto: según una entrevista publicada por TIME en mayo de 2026, Clark fue directo: existe una probabilidad no trivial de que estemos ante lo que él llama “the most transformative and potentially dangerous technology in human history”. No lo dijo un divulgador entusiasta. Lo dijo alguien que lleva años trabajando en los modelos más capaces del mundo.

El foco de su predicción no es “la IA va a ser muy buena”. El foco es la auto-mejora recursiva: el momento en que un modelo entiende su propio código de entrenamiento, lo modifica, y entrena una versión mejor de sí mismo. Ese ciclo, si arranca, no tiene freno obvio.

Auto-mejora recursiva: el concepto que acelera todo

RSI (Recursive Self-Improvement) es el ciclo donde una IA analiza su propio proceso de entrenamiento, identifica limitaciones, propone mejoras, y genera datos o arquitecturas que producen una versión más capaz. No es ciencia ficción. Es exactamente lo que describió Clark en Hipertextual cuando habló de “entrenar a su sucesor”.

¿Y qué evidencia concreta tenemos de que esto está pasando? La función “Dreaming” de Claude es uno de los primeros indicios. Los agentes revisan sesiones anteriores, identifican patrones de error, y refinan su comportamiento sin intervención humana directa. No es reentrenamiento en el sentido clásico. Es algo más parecido a metacognición.

Después está Project Glasswing. En un mes, usando IA, el sistema identificó más de 10.000 vulnerabilidades en software real. Ese volumen es imposible con análisis manual. Lo interesante no es la cifra en sí, sino lo que implica: el modelo no estaba “buscando vulnerabilidades” en el sentido en que un escáner automatizado lo haría. Razonaba sobre el código.

Claude Mythos: la primera evidencia de capacidades cibernéticas a nivel estado-nación

En abril de 2026, Anthropic probó internamente un modelo experimental llamado Claude Mythos. Los resultados fueron, en el mejor sentido de la palabra, incómodos. Esto se conecta con lo que analizamos en la infraestructura de cómputo real de Anthropic.

Según reportes de mayo de 2026, Mythos identificó 271 vulnerabilidades en Firefox y generó exploits funcionales en el 72% de las categorías analizadas. Para ponerlo en contexto: ese nivel de capacidad ofensiva estaba reservado, hasta ahora, a equipos especializados de ciberseguridad con años de experiencia o a actores estatales con recursos importantes.

Anthropic no liberó el modelo. La restricción fue deliberada: acceso limitado a 50 compañías seleccionadas, bajo el paraguas de Project Glasswing, con enfoque defensivo. Pero la pregunta queda flotando: si esas capacidades emergieron como consecuencia de mejoras generales en razonamiento (no de un entrenamiento específico en ciberseguridad), ¿qué dice eso sobre la trayectoria del modelo?

El punto no es el modelo de ciberseguridad. El punto es que nadie entrenó a Mythos para ser tan bueno en esto. Apareció como subproducto del razonamiento general mejorado. Eso es exactamente lo que pasa en los pasos previos a AGI.

De IA estrecha a IA general: qué nos falta todavía

Los modelos actuales son extraordinariamente buenos dentro de distribuciones de entrenamiento conocidas. Fuera de ellas, empiezan a tambalear.

Capacidad	IA actual (2026)	AGI esperada
Razonamiento dentro del dominio	Muy alta	Muy alta + transferible
Planificación estratégica a largo plazo	Limitada (context window)	Sin restricción temporal
Aprendizaje sin reentrenamiento	No (solo in-context)	Sí, persistente
Creatividad genuina	Recombinación de patrones	Síntesis original
Auto-mejora autónoma	Incipiente (Dreaming)	Recursiva y sostenida
Comprensión del mundo físico	Abstracta, sin grounding real	Integrada con percepción

¿estamos cerca de la AGI? diagrama explicativo

La brecha más grande no es el razonamiento. Es la generalización. Subís un modelo nuevo, funciona bárbaro en los benchmarks, lo probás en un dominio marginalmente diferente al de entrenamiento y empieza a alucinar con una confianza perturbadora. Eso no es AGI. Es un interpolador muy sofisticado.

Lo que los modelos actuales muestran son “destellos”: momentos donde el razonamiento se parece al de un experto humano. Claude Sonnet 4.6, según análisis de Xataka de mayo 2026, mostró mejoras dramáticas en código, razonamiento y comportamiento agentivo. Pero mejoras dramáticas no es lo mismo que generalización real.

¿Por qué 2028 es la fecha crítica según Anthropic?

Para entender la predicción de Clark hay que mirar la velocidad, no el punto de llegada.

Anthropic pasó de USD 1.300 millones anualizados a USD 30.000 millones en cuatro años. Ese crecimiento no es solo comercial. Es una señal de que la demanda de capacidades avanzadas está acelerando, y que los modelos están respondiendo a esa demanda con saltos cualitativos, no incrementales. Ya lo cubrimos antes en cómo se comparan OpenAI y Anthropic hoy.

Las predicciones de AGI para 2023 y 2024 fallaron porque subestimaron los cuellos de botella de hardware y datos. Las predicciones para 2028 incorporan un factor que las anteriores no tenían: la posibilidad de que el propio modelo contribuya a su mejora. Si RSI arranca aunque sea parcialmente, la curva se dobla.

¿Alguien puede garantizar que eso pasa antes de 2028? No. Pero Clark no habla de garantía. Habla de probabilidad mayor al 60%. En términos de gestión de riesgo, eso es suficiente para tomarlo en serio.

Señales tempranas de auto-mejora que ya vemos en 2026

La función “Dreaming” es el caso más documentado. Los agentes de Claude revisan transcripciones de sesiones anteriores, identifican dónde fallaron o fueron ineficientes, y ajustan su comportamiento en sesiones futuras. No es reentrenamiento formal. Es algo que se parece, funcionalmente, a aprender de la experiencia.

Claude Sonnet 4.6 trajo mejoras en múltiples dominios simultáneamente: código, razonamiento matemático, comportamiento en flujos agentivos complejos. La pregunta que nadie responde con claridad todavía es si esas mejoras son resultado de ingeniería deliberada o si emergen de interacciones entre capacidades que el equipo no predijo exactamente.

La diferencia importa. Mejora dirigida es ingeniería de software. Mejora emergente es algo diferente.

Riesgos y salvaguardas: ¿estamos preparados?

Clark fue explícito en TIME: existe una probabilidad no cero de consecuencias catastróficas si RSI se desarrolla sin los controles adecuados. “Killing everybody” fue la expresión que usó. No como predicción, sino como posibilidad dentro del espacio de riesgos que toman en serio. En dónde están Google y Anthropic en la carrera profundizamos sobre esto.

La respuesta de Anthropic hasta ahora fue restringir el acceso a los modelos más capaces. Mythos no está disponible públicamente. Project Glasswing opera con 50 compañías seleccionadas bajo acuerdos específicos. Eso es razonable en el corto plazo.

El problema es que la restricción no escala. Si RSI genera modelos más capaces, y esos modelos generan modelos aún más capaces, el perímetro de control se complica exponencialmente. La UE trabaja en regulación para IA de alto riesgo, pero la velocidad legislativa no empata con la velocidad de los modelos.

Tomalo con pinzas: Anthropic tiene incentivos para que el tema suene urgente. Es una empresa que capta inversión y necesita diferenciarse en el mercado como “la que se toma en serio la seguridad”. Eso no invalida las preocupaciones, pero es contexto necesario para leer las declaraciones.

Qué está confirmado / Qué no

Afirmación	Estado
Claude Mythos identificó 271 vulnerabilidades en Firefox	Confirmado (reportes mayo 2026)
Project Glasswing detectó 10.000+ vulnerabilidades en un mes	Confirmado (mayo 2026)
Jack Clark asignó más del 60% de prob. a RSI antes de 2028	Confirmado (TIME, mayo 2026)
La función “Dreaming” existe en Claude	Confirmado por Anthropic
Mythos usa exploits en producción contra sistemas reales	No confirmado (solo entorno controlado)
RSI ya está ocurriendo en algún grado	No confirmado, en evaluación
AGI llegará antes de 2028	Predicción probabilística, no certeza

Errores comunes al leer estas predicciones

Error 1: Confundir benchmark extraordinario con AGI. Claude Sonnet 4.6 supera a humanos expertos en varios tests de razonamiento. Eso no es AGI. Los benchmarks miden distribuciones de entrenamiento. Una IA que saca 95% en MMLU pero alucina una API que no existe sigue siendo IA estrecha con capacidades impresionantes.

Error 2: Asumir que “auto-mejora” significa autonomía total. La función Dreaming de Claude mejora comportamiento en sesiones futuras, pero dentro de un marco controlado. Auto-mejora recursiva en sentido fuerte, donde el modelo modifica su propio proceso de entrenamiento sin supervisión, no está documentada en ningún sistema público.

Error 3: Tomar las predicciones de insiders como objetivas. Clark trabaja en Anthropic. Cuando dice que AGI podría llegar en 2028, está hablando desde adentro de una empresa que recauda capital y compite por talento con OpenAI y Google DeepMind. Sus predicciones pueden ser correctas. También tienen función retórica. Las dos cosas pueden ser ciertas al mismo tiempo. Complementá con consideraciones críticas de seguridad empresarial.

Para profundizar, Are we nearly there? cubre esto en detalle.

Esto se relaciona directamente con lo que analizamos en Are we nearly there?.

Esto continúa en Are we nearly there?, donde analizamos cómo evolucionan los precios.

Preguntas Frecuentes

¿Cuál es el progreso real de Anthropic hacia la AGI?

Anthropic tiene los modelos con mejor rendimiento en razonamiento complejo y flujos agentivos a mayo de 2026. Claude Mythos demostró capacidades de ciberseguridad sin precedentes en un modelo comercial, y la función Dreaming introduce elementos de aprendizaje autónomo. Ninguno de estos es AGI, pero representan avances concretos en las capacidades que se consideran prerequisitos.

¿Qué es la auto-mejora recursiva y por qué importa?

RSI es el proceso donde un modelo analiza su propio entrenamiento, propone modificaciones, y genera una versión más capaz de sí mismo, que a su vez repite el ciclo. Importa porque rompe la curva lineal de progreso: si un modelo más capaz produce uno aún más capaz, el avance se vuelve exponencial. Clark estima más del 60% de probabilidad de que esto ocurra antes de finales de 2028.

¿Realmente estaremos en AGI antes de 2028?

Es una predicción probabilística, no una certeza. Clark habla de más del 60% de chance de que comience la auto-mejora recursiva, no de que tengamos AGI completa. Predicciones similares para 2023 y 2024 no se materializaron. Lo que cambió en 2026 son evidencias concretas de capacidades emergentes no planificadas, como las de Mythos.

¿Cuál es la diferencia entre los modelos actuales y la AGI?

Los modelos actuales son excelentes dentro de distribuciones de entrenamiento conocidas. La AGI transferiría razonamiento a dominios completamente nuevos sin reentrenamiento, aprendería de experiencia de forma persistente, y podría planificar a largo plazo sin las limitaciones de una ventana de contexto. Ningún modelo actual cumple esas tres condiciones de forma sostenida.

¿Qué evidencia existe de que los modelos ya se auto-mejoran?

La función “Dreaming” de Claude permite que agentes revisen sesiones previas y ajusten comportamiento futuro. Project Glasswing detectó más de 10.000 vulnerabilidades en un mes, un volumen imposible sin razonamiento complejo. Claude Sonnet 4.6 mostró mejoras simultáneas en código, razonamiento y agentes que no todas fueron predichas por el equipo. Son señales tempranas, no RSI en sentido pleno.

Conclusión

La pregunta de si ¿estamos cerca de la AGI? dejó de ser especulación de conferencias y se convirtió en una variable que empresas, gobiernos y equipos de seguridad tienen que incorporar en su planificación real. Las evidencias de mayo de 2026, desde Claude Mythos hasta Project Glasswing, muestran que los modelos están desarrollando capacidades que nadie diseñó explícitamente. Eso no es AGI. Pero es el tipo de emergencia que precede los saltos cualitativos.

Si trabajás con IA o tomás decisiones sobre adopción tecnológica en tu empresa, el dato que importa no es si AGI llega en 2027 o en 2031. Lo que importa es que los modelos ya producen efectos de nivel AGI en dominios específicos, sin control completo de quién los hace ni cuándo aparece esa capacidad. Tener una estrategia para ese escenario dejó de ser opcional.

¿Estamos cerca de la AGI? Anthropic dice sí