Un equipo reconstruyó el agente Hermes con Claude Code y reportó haber rehecho cerca de 750.000 líneas en 11 días. El caso volvió a poner sobre la mesa la refactorización automática con Claude Code como práctica real, no como demo: análisis del repo, plan de cambios, ejecución y commits, con revisión humana arriba.
En 30 segundos
- El caso: reconstrucción de Hermes Agent usando Claude Code, con una cifra reportada de ~750K líneas en 11 días de trabajo asistido.
- Qué es Claude Code: un agente de IA de Anthropic que vive en la terminal, lee tu repo, escribe código y corre comandos git.
- Hermes vs Claude Code: Hermes apunta a asistente persistente; Claude Code es especialista en código terminal-first.
- Velocidades reportadas: según los casos publicados, tareas de refactor que llevaban semanas bajaron a horas, con speedups de x3 a x10 según el tipo de cambio.
- La letra chica: nada de esto reemplaza la revisión humana ni los tests. Sin eso, te comés bugs silenciosos.
Claude Code es la herramienta CLI de Anthropic que permite a un desarrollador interactuar con el modelo Claude directamente desde la terminal: lee archivos del repositorio, escribe y modifica código, ejecuta comandos de shell e integra git (commits, ramas, pull requests). Su caso de uso fuerte es la refactorización automática Claude Code de bases grandes, manteniendo contexto del proyecto durante sesiones largas.
¿Qué es Claude Code y en qué se diferencia de un autocompletado?
Ponele que abrís un proyecto que no tocás hace seis meses. Querés migrar 40 archivos a una API nueva. Con un autocompletado tipo GitHub Copilot, vos seguís manejando: abrís archivo, esperás la sugerencia, aceptás, repetís. Es asistencia línea por línea.
Claude Code juega en otra cancha. Vos le das una instrucción de alto nivel (“migrá toda la capa de autenticación al nuevo SDK”) y el agente hace el recorrido completo: lee la estructura del repo, entiende cómo se conectan los módulos, arma un plan, aplica los cambios en varios archivos, corre los tests y te muestra el diff. Según la documentación oficial de Anthropic, opera desde la terminal y se integra con tu flujo de git existente.
La diferencia clave es la agencia. Uno sugiere. El otro ejecuta (con tu permiso, ojo). Sobre eso hablamos en todo lo que necesitás saber sobre Claude.
¿Cuáles son las diferencias entre Hermes Agent y Claude Code?
Acá hay confusión y se entiende por qué. Los dos son “agentes IA”, pero apuntan a cosas distintas. Hermes Agent, del lado de NousResearch, se piensa más como un asistente persistente de propósito general. Claude Code es un especialista: código, terminal, repositorio.
| Aspecto | Claude Code | Hermes Agent |
|---|---|---|
| Interfaz | Terminal (CLI) | Orientado a web / asistente persistente |
| Foco principal | Refactor, debugging, migraciones de código | Asistencia general persistente |
| Persistencia de contexto | Sesiones largas sobre un repo | Memoria de asistente continuo |
| Integración git | Nativa (commits, branches, PRs) | Según implementación |
| Cuándo elegirlo | Cambios masivos en una base de código | Tareas variadas fuera del repo |

Lo interesante del caso que disparó todo esto: la reconstrucción de Hermes se hizo con Claude Code. O sea, uno fue la herramienta y el otro el objetivo. No compiten en ese relato, se complementan. Si te interesa el detalle del experimento, está documentado en este recuento del proceso y en una comparativa publicada.
¿Cómo refactoriza Claude Code un proyecto masivo?
El flujo, simplificado, tiene cinco momentos. Y conviene entenderlo porque acá está el truco de por qué funciona en proyectos grandes y no se pierde.
- Análisis del repositorio: el agente recorre la estructura, identifica dependencias y arma un mapa mental de la arquitectura antes de tocar nada.
- Comprensión de la arquitectura: detecta patrones, convenciones de nombres y cómo se hablan los módulos entre sí.
- Generación de un plan: propone qué cambiar y en qué orden. Este paso es el que te deja revisar antes de que escriba una sola línea.
- Aplicación de cambios: edita los archivos, a veces descomponiendo la tarea grande en sub-tareas paralelas.
- Pruebas: corre los tests existentes para validar que no rompió nada obvio.
La clave de los casos grandes, como migrar miles de líneas de un lenguaje a otro, es la descomposición. En vez de meter todo en un solo prompt gigante, el agente parte el trabajo en pedazos manejables y los va resolviendo. Según los reportes de equipos que lo usaron, migraciones de decenas de miles de líneas que antes eran proyectos de semanas pasaron a resolverse en una jornada de trabajo asistido. ¿Eso significa que sale perfecto a la primera? No. Significa que el primer 80% lo hace la máquina y vos peleás el 20% difícil, que igual es donde está la plata.
¿Qué velocidad de refactorización logran los equipos?
Acá hay que ser honesto con los números. Las cifras que circulan vienen, en su mayoría, de los propios equipos que cuentan su experiencia. Tomalas con pinzas: no son benchmarks independientes, son anécdotas bien documentadas. En qué modelo de IA elegir profundizamos sobre esto.
Dicho esto, el patrón se repite. Un relato bastante citado cuenta un refactor estimado en tres semanas que el agente dejó listo de un día para el otro: lo lanzó a las 11 de la noche, a las 7 de la mañana estaba hecho. Otros equipos hablan de reducciones del 40% al 60% en el tiempo de tareas complejas, y de code reviews que bajaron de 45 a 15 minutos. Los speedups reportados van de x3 a x10 según qué tan mecánico sea el cambio.
¿Lo verificó alguien de forma independiente a gran escala? Todavía no del todo. Por eso el “750K líneas en 11 días” hay que leerlo como lo que es: un caso real y llamativo, no una garantía de que vos vas a replicar exactamente eso.
¿Qué capacidades técnicas tiene para automatizar cambios?
Más allá de escribir código, el set de herramientas es lo que lo hace útil en serio:
- Lectura y escritura de archivos: recorre el repo entero y edita donde haga falta, no solo el archivo abierto.
- Ejecución de comandos shell: corre tests, linters, builds y scripts directo desde la terminal.
- Integración con git: crea commits atómicos, ramas y pull requests, según la doc oficial.
- Subagentes: puede lanzar agentes secundarios para paralelizar partes de una tarea grande, algo que se explica bien en este tutorial de agentes y subagentes 2026.
- Model Context Protocol (MCP): se conecta a herramientas externas (bases de datos, APIs, servicios) para no quedarse solo con lo que hay en el repo.
Si trabajás con infraestructura propia, hosting o servidores donde corre tu aplicación, esta automatización se vuelve más interesante cuando tenés un entorno estable para probar los cambios antes de mandarlos a producción. Un VPS o un plan de hosting en donweb.com te sirve de campo de pruebas sin tocar el ambiente real.
Qué está confirmado y qué no
- Confirmado: Claude Code existe, es de Anthropic y opera desde la terminal con integración git. Está en la página oficial del producto.
- Confirmado: el experimento de reconstruir Hermes con Claude Code está documentado públicamente por quien lo hizo.
- Reportado (no verificado de forma independiente): las cifras de “750K líneas en 11 días”, los speedups x3 a x10 y las reducciones de tiempo del 40-60%. Vienen de los equipos, no de un estudio neutral.
- Pendiente: métricas reproducibles sobre calidad del código generado a esa escala. Velocidad no es lo mismo que correctitud.
Errores comunes al refactorizar con Claude Code
Cualquiera que haya automatizado cambios masivos sabe que la velocidad sin red termina mal. Estos son los tropiezos que veo seguido. Más contexto en capacidades técnicas de la API de Claude.
- Confiar a ciegas en el diff: el agente puede “alucinar” una función o una tabla que no existe. En código crítico, revisá cada cambio. No lo mergees sin leer.
- Repo sin documentación: si tu proyecto no tiene un README claro ni convenciones, el agente improvisa, y ahí empiezan los problemas. Documentá antes de lanzarlo.
- No tener tests automatizados: sin una suite de tests, no hay forma de validar que el refactor masivo no rompió algo silencioso. Esto es lo que separa un experimento exitoso de un desastre.
- Saltarse la revisión de arquitectura: dejarlo decidir la estructura sin que vos hayas pensado el diseño primero. La máquina ejecuta bien, pero el criterio arquitectónico todavía es tuyo.
¿Cómo integrarlo en el flujo de tu equipo?
Lo práctico, sin vueltas: empezá chico. Configurá los permisos para que el agente no toque ramas protegidas, dejalo trabajar sobre una rama feature y que abra un PR. Vos revisás como revisarías el de cualquier colega.
Las mejores prácticas que repiten los equipos: commits atómicos (que cada cambio se entienda solo), tests verdes antes del merge, y documentación del proyecto actualizada para que el agente tenga buen contexto. Para medir si vale la pena, mirá tres métricas: tiempo de refactor, bugs que se colaron a producción y productividad percibida del equipo. Si los bugs suben, frenaste mal.
Preguntas Frecuentes
¿Cuánto código puede refactorizar Claude Code en un proyecto grande?
En casos reportados, equipos rehicieron del orden de cientos de miles de líneas, con el caso más citado en torno a las 750.000 líneas en 11 días de trabajo asistido. No hay un límite duro publicado: depende de cuán bien descompongas la tarea y del contexto que mantenga durante la sesión. Complementá con trabajar con proyectos de miles de líneas.
¿Cuál es la diferencia real entre Hermes Agent y Claude Code?
Claude Code es un agente terminal-first especializado en código, con integración git nativa. Hermes Agent apunta a ser un asistente persistente de propósito más general. En el caso famoso, Hermes fue reconstruido usando Claude Code, así que se complementan más de lo que compiten.
¿Cuánto tiempo se tarda en refactorizar 750K líneas con IA?
El caso de referencia reporta 11 días para esa escala. Es un dato del propio equipo, no un benchmark independiente, así que tomalo como referencia y no como promesa. Tu tiempo real depende de la complejidad, los tests y cuánta revisión humana metas.
¿Cómo usar Claude Code para cambios masivos de código?
Le das una instrucción de alto nivel, revisás el plan que propone, lo dejás aplicar los cambios sobre una rama feature y validás con tests antes de mergear. Configurá permisos para que no toque ramas protegidas y que abra un pull request para revisión.
¿Qué casos de uso tiene la refactorización automática con agentes?
Los más comunes: migraciones entre lenguajes o frameworks, modernización de código legacy, generación de tests, debugging guiado y cambios repetitivos a gran escala. Cuanto más mecánico y repetitivo el cambio, mayor el speedup que reportan los equipos.
Conclusión
El caso de las 750K líneas en 11 días no es magia, es una señal. Lo que cambió es que la refactorización automática Claude Code dejó de ser un truco de demo para volverse una herramienta de producción real, siempre que la uses con red. La velocidad es genuina y los speedups de x3 a x10 que reportan los equipos suenan creíbles para trabajo mecánico.
Pero la conclusión práctica es aburrida y por eso importa: tests automatizados, documentación clara, commits atómicos y revisión humana sobre cada PR. Si tenés eso, el agente te ahorra semanas. Si no lo tenés, te va a romper cosas más rápido de lo que las arreglabas a mano. Empezá con una migración chica, medí los bugs, y escalá solo si los números te acompañan.
