Depuración de IA: por qué falla (estudio Microsoft)

La IA que depura código resuelve menos de la mitad de los bugs que enfrenta de forma autónoma. Un estudio de Microsoft Research mostró que Claude 3.7 Sonnet — uno de los modelos más capaces — apenas alcanzó un 48.4% de éxito en tareas de debugging, incluso con acceso completo a herramientas de depuración. La generación de código avanzó a pasos acelerados, pero la capacidad de encontrar y corregir errores sigue siendo el cuello de botella real de la programación asistida por IA en 2026.

En 30 segundos

Los modelos de IA logran tasas de éxito del 70-80% generando código, pero caen al 48% o menos cuando tienen que depurarlo de forma autónoma
El 75% de los agentes de IA rompen código funcional cuando intentan hacer mantenimiento continuo en un codebase real, según el benchmark SWE-CI de marzo 2026
Herramientas como TestSprite mejoraron las tasas de debugging del 42% al 93% combinando IA con testing automatizado iterativo
Microsoft Research lanzó el framework AgentRx, que mejora la localización de fallos en un 23.6% respecto a los métodos anteriores
La brecha entre generar y depurar se está cerrando, pero los bugs de concurrencia, estado distribuido y lógica de negocio siguen fuera del alcance de la IA actual

Generar código es fácil, depurarlo es el verdadero desafío para la IA

La industria se pasó los últimos dos años celebrando lo rápido que la IA genera código. Copilot, Cursor, Claude Code: todos compiten por quién autocompleta más líneas por minuto. Pero hay un problema que nadie quiere mirar de frente: ese código generado tiene bugs, y la misma IA que lo escribió no sabe arreglarlos bien.

El estudio que puso los números sobre la mesa salió de Microsoft Research en abril de 2025. Le dieron a Claude 3.7 Sonnet — en ese momento, el modelo con mejor rendimiento en tareas de código — acceso completo a herramientas de depuración: breakpoints, inspección de variables, ejecución paso a paso. El resultado fue un 48.4% de éxito. Menos de la mitad. Con herramientas que un desarrollador junior usa todos los días.

El contraste es brutal. Esos mismos modelos resuelven entre el 70% y el 80% de las tareas de generación de código en benchmarks estándar. Escribir código nuevo desde un prompt es casi mecánico para un LLM. Pero encontrar por qué una función devuelve null en el caso borde número 47 requiere otra clase de razonamiento. Uno que los modelos actuales todavía no dominan.

Pensalo así: escribir código es como redactar un texto con instrucciones claras. Depurarlo es ser detective. Tenés que reconstruir qué pasó, formular hipótesis, descartarlas, volver atrás. Es un proceso no lineal que exige mantener en la cabeza el estado del programa, la intención original del desarrollador y las interacciones entre componentes. No es lo que mejor hacen los LLMs.

Por qué el debugging es más difícil que escribir código para una IA

El paper de Microsoft identificó tres razones específicas por las que los LLMs fallan en debugging, y ninguna tiene que ver con falta de “inteligencia”. Son limitaciones estructurales del paradigma actual.

Primero: los modelos no saben usar bien las herramientas de depuración. Suena raro, porque tienen acceso a ellas. Pero hay una diferencia entre tener un debugger disponible y saber cuándo poner un breakpoint, qué variable inspeccionar y cómo interpretar el stack trace. Los LLMs tienden a usar las herramientas de forma mecánica — ejecutan todo el programa, leen el error final y tiran una solución genérica. Un humano, en cambio, va acotando el problema: primero aísla el módulo, después la función, después la línea.

Segundo: los datos de entrenamiento no reflejan el proceso real de debugging. Internet está lleno de código terminado, de preguntas en Stack Overflow con respuestas, de tutoriales. Pero casi no hay registros del proceso mental de un desarrollador depurando: “probé esto, no funcionó, entonces cambié mi hipótesis y probé esto otro”. Los modelos aprenden el resultado del debugging (el fix), no el camino para llegar a él.

Tercero — y esta es la más difícil de resolver: falta la lógica de toma de decisiones secuencial. Cuando un dev humano depura, sigue un árbol de decisiones implícito: “si el error es de tipo X, verifico Y; si Y está bien, entonces el problema tiene que estar en Z”. Los LLMs no construyen ese árbol. Generan la respuesta más probable dado el contexto, que no es lo mismo que razonar sobre causas y efectos en un programa. Tema relacionado: en los últimos avances de Google con IA.

Los agentes autónomos que están cambiando las reglas del debugging

La respuesta de la industria al problema fue clara: si un modelo solo no puede depurar, que un agente con un loop iterativo lo haga. La idea es simple: en vez de pedirle al LLM que arregle el bug en un solo intento, dejalo que analice el fallo, planifique un cambio, lo aplique, corra los tests, vea si funcionó, y si no, vuelva a intentar.

Devin (Cognition Labs)

Devin fue el primer agente de código autónomo que se posicionó como “ingeniero de software IA”. No solo genera código: clona repos, corre tests, lee logs de error y aplica fixes iterativos. Su modelo de debugging es un loop completo: detecta el error en CI, analiza el traceback, genera un patch, lo prueba, y si rompe otro test, vuelve a empezar. En la práctica, funciona bien para bugs de integración simples pero se pierde con errores que requieren entender la arquitectura del proyecto.

Claude Code y Codex

Claude Code de Anthropic y Codex de OpenAI atacan el debugging desde el terminal. Operan directamente en tu codebase, pueden leer archivos, ejecutar comandos, correr tests y modificar código. La ventaja: trabajan con tu entorno real, no con una simulación. Claude Code en particular tiene buen rendimiento cuando el bug está acotado a un archivo o función. Se complica con bugs que cruzan múltiples servicios o requieren entender flujos asíncronos.

Cursor y SWE-agent

Cursor integró el debugging como parte del flujo de edición: seleccionás el error, le pedís que lo arregle, y el agente interno itera hasta que los tests pasan. SWE-agent, desarrollado por Princeton, es más académico pero influyó en toda la generación actual de agentes. Su aporte clave fue demostrar que el loop de “editar → ejecutar → observar → editar” mejora drásticamente los resultados comparado con la generación de un solo shot. MiniMax M2.7, un modelo chino que usa este enfoque, logró una mejora del 30% respecto a su rendimiento sin iteración.

Benchmarks 2026: cómo se mide la capacidad de debugging de una IA

SWE-bench Verified se convirtió en el estándar de facto para medir si un agente puede resolver issues reales de GitHub. Los números de 2026 son impresionantes comparados con los de hace un año: Gemini 3.1 Pro lidera con 80.6%, seguido por Claude 4 Sonnet con 77.2%. Hace 12 meses, el mejor modelo apenas pasaba el 50%. El progreso es innegable. Si te interesa, podés leer más sobre prompts efectivos para sacarle el máximo a Claude.

Eso sí, hay que leer los benchmarks con cuidado. Simon Willison lo puso en perspectiva: SWE-bench mide la capacidad de resolver un issue puntual en un repo conocido. No mide la capacidad de mantener un codebase a lo largo del tiempo. Son cosas muy diferentes.

Ahí es donde entra SWE-CI, el nuevo benchmark de marzo 2026 que evalúa mantenimiento continuo. Y los resultados son preocupantes: el 75% de los agentes IA rompen código funcional cuando hacen tareas de mantenimiento sostenido. Un agente puede arreglar un bug, pero al hacerlo introduce una regresión en otro módulo. Es exactamente el tipo de error que un dev con experiencia evita porque conoce las dependencias implícitas del proyecto.

SWE-bench Pro, una variante más exigente con issues que requieren cambios en múltiples archivos, muestra números bastante más bajos. Los modelos que brillan en SWE-bench Verified caen entre 15 y 20 puntos porcentuales. La conclusión es clara: resolver un issue aislado no es lo mismo que depurar en contexto real.

Herramientas de IA para debugging que podés usar hoy

Herramienta	Tipo	Método de debugging	Tasa de éxito reportada	Limitaciones principales
TestSprite	Agente autónomo	Generación automática de tests + fix iterativo	93% (con loop completo)	Requiere suite de tests existente
Claude Code	Agente en terminal	Lectura de código + ejecución + fix iterativo	77.2% (SWE-bench Verified)	Se pierde en bugs multi-servicio
Devin	Agente autónomo completo	Loop CI: detectar → analizar → patchear → testear	Variable según complejidad	Costoso, lento en repos grandes
GitHub Copilot	Asistente integrado	Debugging conversacional en IDE	No publicada oficialmente	No ejecuta código, solo sugiere
Roo Code (Debugger)	Agente con modo dedicado	Agente Debugger especializado con breakpoints	En mejora continua	Requiere configuración manual
DeepCode AI (Snyk)	Análisis estático	Detección de patrones de bug conocidos	Alta en bugs comunes	No encuentra bugs de lógica

ia que depura código diagrama explicativo

De todas, TestSprite es el caso más interesante por sus números. Arrancó con tasas de éxito del 42% — similares al estudio de Microsoft — pero al incorporar un loop de generación automática de tests + fix iterativo + verificación, saltó al 93%. El truco no es tener un modelo más inteligente, sino un proceso más riguroso. Generás tests que reproducen el bug, aplicás el fix, verificás que los tests pasen, y si rompiste otra cosa, repetís. Así de simple conceptualmente, así de difícil de implementar bien.

ChatDBG merece mención aparte porque trabaja a nivel de debugger tradicional. Se integra con GDB y LLDB, y le permite al LLM ejecutar comandos de depuración reales: inspeccionar memoria, navegar el stack, evaluar expresiones. Es el enfoque que más se acerca a cómo depura un humano, pero está limitado a C/C++ y Python.

El Self-Improving Agent: cuando la IA aprende a mejorar su propio debugging

Acá la cosa se pone interesante. Hay una línea de investigación que no busca hacer modelos más grandes sino agentes que mejoren con la experiencia. El Self-Improving Coding Agent, presentado en papers recientes, saltó de un 17% a un 53% en SWE-Bench sin cambiar el modelo base. Lo que cambió fue el proceso: el agente analiza sus intentos fallidos, identifica patrones en sus errores, y ajusta su estrategia para el próximo bug. Más contexto en como sucede con otros modelos IA.

El framework AgentRx de Microsoft Research ataca otro ángulo: la localización del fallo. Antes de arreglar un bug, tenés que encontrarlo. AgentRx mejora la capacidad de los agentes para identificar exactamente dónde está el problema en un 23.6% respecto a los métodos anteriores. Parece poco, pero cuando trabajás con codebases de miles de archivos, saber en cuál archivo y en cuál función buscar es más de la mitad del trabajo.

Lo que me parece más prometedor de esta línea es que escala sin necesidad de modelos más costosos. Un agente que aprende de sus errores sobre tu codebase específico va a ser más útil que un modelo genérico con más parámetros. Falta mucho para que esto sea mainstream, pero la dirección es la correcta.

Lo que la IA todavía no puede depurar (y probablemente no pueda pronto)

Antes de entusiasmarse, conviene poner los pies en la tierra. Hay categorías enteras de bugs donde la IA no tiene chances en 2026.

Los bugs de concurrencia son el ejemplo más claro. Race conditions, deadlocks, problemas de timing: son bugs que no se reproducen de forma determinista. Podés correr el programa cien veces y falla solo una. Un agente que depende de ejecutar el código y observar el resultado no puede atacar un bug que aparece aleatoriamente. Necesitás razonamiento sobre el modelo de ejecución concurrente, y eso está lejos del alcance actual.

Después están los bugs de estado distribuido. Cuando el problema está en la interacción entre tres microservicios, una cola de mensajes y una base de datos, ni el mejor agente puede mantener todo ese contexto en la ventana. El benchmark SWE-CI lo confirma: el mantenimiento de sistemas distribuidos es donde los agentes fallan más estrepitosamente.

Y quizás lo más difícil: los bugs que requieren entender el contexto de negocio. “La función devuelve 42 pero debería devolver 43” — para saber que 43 es correcto, necesitás entender las reglas del dominio, no solo la lógica del código. Ningún modelo tiene ese contexto a menos que se lo des explícitamente, y a veces ni el equipo de desarrollo lo tiene documentado.

Cómo integrar IA de debugging en tu flujo de trabajo de desarrollo

La pregunta práctica no es si la IA puede depurar — es cuándo conviene usarla y cuándo no. Un equipo en una startup de Buenos Aires que armó su pipeline de CI/CD con debugging asistido por IA me contó algo que aplica para cualquier equipo: “Le pasamos a Claude Code todos los bugs que fallan tests unitarios. Los que necesitan entender el negocio los dejamos para nosotros”.

Esa división es sensata. Usá debugging autónomo para: errores que se reproducen con un test, bugs en funciones puras sin side effects, errores de tipado o de contrato de API, y fallos que el stack trace describe con claridad. Dejá el debugging humano para: problemas de performance, bugs intermitentes, cualquier cosa que involucre estado compartido, y errores que requieren hablar con el equipo de producto para entender qué debería pasar. Si te interesa, podés leer más sobre integrar GPT en tus propios proyectos.

Un patrón que funciona bien: configurá tu CI/CD para que, cuando un test falla, le pase automáticamente el error al agente de debugging. Si el agente lo resuelve en menos de tres intentos, que suba el PR. Si no, que te notifique con un resumen de lo que probó. Así aprovechás la IA para lo que es buena (bugs obvios con contexto suficiente) y no perdés tiempo con los que no va a resolver. También podés encontrar más noticias tech relacionadas en la reciente adquisición de Astral por OpenAI.

Otro punto clave: los tests son el habilitador. Sin tests, el agente no tiene forma de verificar si su fix funciona. Si tu proyecto tiene baja cobertura de tests, invertir en tests te va a dar más beneficio que invertir en un agente de debugging más caro. Te puede servir nuestra cobertura de especialmente en entornos empresariales.

Errores comunes

Creer que un modelo con buen score en SWE-bench va a depurar bien tu codebase. SWE-bench usa repos open source populares con issues bien documentados. Tu codebase interno, con documentación incompleta, convenciones propias y deuda técnica acumulada, es otra historia. Los scores de benchmark no se transfieren linealmente a producción. Evaluá el agente con tus propios bugs antes de confiar en él.

Usar la IA de debugging sin suite de tests. Un agente que “arregla” un bug sin poder verificarlo no está arreglando nada — está adivinando. El fix puede funcionar para el caso que vos reportaste pero romper tres flujos que no se testearon. Antes de implementar debugging asistido, asegurate de tener tests que cubran los caminos críticos. Sin tests, estás delegando confianza en algo que no tiene forma de validar su propio trabajo.

Asumir que el agente entiende la intención del código. Los agentes de debugging trabajan con lo que está escrito, no con lo que debería estar. Si tu función tiene un nombre engañoso o el código hace algo distinto a lo que sugiere el comentario, el agente va a “arreglar” el código para que coincida con lo que parece que debería hacer — que puede ser lo incorrecto. La IA no distingue entre un bug y una feature no documentada.

Preguntas Frecuentes

¿Qué tan buena es la IA para encontrar y corregir bugs en 2026?

Depende del tipo de bug. Para errores que se reproducen con un test unitario, los mejores agentes resuelven entre el 77% y el 80% de los casos (según SWE-bench Verified). Para bugs de mantenimiento continuo en codebases reales, la tasa cae al 25% y el 75% de los agentes introducen regresiones. La IA es útil para bugs acotados y bien definidos, pero sigue lejos de reemplazar a un dev senior en debugging complejo.

¿Cuál es la diferencia entre Devin, Claude Code y Copilot para debugging?

Devin es un agente autónomo completo que clona repos, ejecuta código y opera de forma independiente — pero es lento y costoso. Claude Code trabaja directamente en tu terminal y tu codebase, con buen rendimiento en bugs de un solo archivo. Copilot funciona como asistente conversacional dentro del IDE, sugiere fixes pero no los ejecuta ni verifica. Para debugging real con ejecución, Claude Code y Devin son más efectivos que Copilot.

¿Por qué la IA puede escribir código pero le cuesta depurarlo?

Escribir código es predecir la siguiente línea dado un prompt — algo para lo que los LLMs están optimizados. Depurar requiere razonamiento causal secuencial: formular hipótesis, descartarlas, probar alternativas. Los datos de entrenamiento contienen millones de ejemplos de código terminado pero casi ningún registro del proceso mental de debugging. Además, los modelos no usan bien las herramientas de depuración (breakpoints, inspección de variables) que un desarrollador humano aplica intuitivamente.

¿Qué herramientas de IA sirven para depurar código automáticamente hoy?

Las más efectivas en 2026 son TestSprite (que combina generación de tests con fix iterativo, logrando hasta 93% de éxito), Claude Code (77.2% en SWE-bench Verified), y Devin para tareas complejas que requieren operar sobre todo un repositorio. DeepCode AI de Snyk es útil para detección estática de patrones de bug conocidos. La clave no está solo en el modelo sino en el loop de verificación: las herramientas que ejecutan, testean y reintentan superan ampliamente a las que solo sugieren.

Conclusión

Lo que cambió en 2026 no es que la IA aprendió a depurar — es que la industria dejó de fingir que no era un problema. Los benchmarks lo confirman: generar código y depurarlo son capacidades fundamentalmente distintas, y la segunda avanza más lento. Los agentes con loops iterativos como TestSprite y los frameworks como AgentRx de Microsoft están cerrando la brecha, pero el 75% de regresiones en mantenimiento continuo (SWE-CI) muestra que falta recorrido.

Para los equipos de desarrollo, el movimiento inteligente no es esperar a que la IA depure todo sola. Es integrarla donde ya funciona bien — bugs reproducibles con tests, errores de contrato, fallos claros — y mantener el debugging complejo en manos humanas. La inversión más rentable hoy no es un agente más caro sino una mejor suite de tests, porque es lo que le permite a cualquier agente verificar su propio trabajo. El futuro del debugging con IA no es reemplazar al dev, es darle un asistente que se encargue del 40-50% de bugs rutinarios y le libere tiempo para los problemas que realmente necesitan criterio humano.

La IA que escribe código está sobrevalorada. La que lo depura, no