Detección de agentes IA en CAPTCHAs: cómo funciona

Los CAPTCHAs todavía pueden detectar agentes de IA, no porque fallen en resolver el desafío visual, sino porque la detección de agentes IA en CAPTCHAs se basa en cómo se resuelve el problema, no en si se resuelve. Según un paper de Roundtable Research publicado el 28 de mayo de 2026, Claude, GPT y Gemini muestran diferencias estadísticamente significativas en patrones de clicks secuenciales, cambios de dirección y comportamiento de sobreselección respecto a humanos.

En 30 segundos

Los VLMs (modelos visión-lenguaje) resuelven CAPTCHAs con alta precisión, pero sus patrones de comportamiento los delatan frente a los de un humano real.
Roundtable Research identificó tres firmas diferenciadoras: secuencias de clicks predecibles, cambios de dirección atípicos y sobreselección de elementos.
Google presentó en Cloud Next 2026 su sistema Fraud Defense, que categoriza al visitante en tres tipos: humano, bot legítimo o agente IA, con permisos diferenciados para cada uno.
Los nuevos sistemas híbridos combinan desafíos cognitivos con análisis de keystroke dynamics, algo que los bots no pueden replicar de forma creíble.
El desafío para 2026 no es bloquear a todos los agentes, sino distinguir cuáles tienen permiso de actuar.

La paradoja del CAPTCHA moderno

Los CAPTCHAs se diseñaron para explotar lo que las máquinas no podían hacer: reconocer imágenes ambiguas, leer texto distorsionado, identificar un semáforo en una foto granulada. El problema es que el deep learning “resolvió” la clasificación visual en los primeros años de la década de 2010. Hoy, cualquier VLM decente identifica chimeneas, hidrantes y tráficos sin despeinarse.

Entonces, ¿los CAPTCHAs están muertos?

No exactamente. Y la diferencia importa.

La clasificación de imágenes es solo una parte del sistema. Lo que los CAPTCHAs modernos miden va mucho más allá del “¿reconocés el objeto?”: miden el proceso completo de interacción. Y ahí es donde los agentes IA se delatan, porque resuelven el problema de una manera que ningún humano resolvería.

¿Están realmente rotos los CAPTCHAs?

Sí y no (y vale la pena aclarar qué significa cada cosa).

Sí, en el sentido de que la clasificación visual clásica está resuelta. Pedirle a una IA que identifique todos los cuadros con bicicletas en una grilla 3×3 es trivial para un VLM moderno. Claude, GPT-4o y Gemini lo hacen con precisión comparable o superior a la humana.

No, en el sentido de que resolver el desafío visual no es lo único que mide el sistema. El paper de Roundtable Research de mayo de 2026 encontró diferencias estadísticamente significativas entre humanos y agentes IA en tres dimensiones concretas: el patrón secuencial de clicks, la cantidad de cambios de dirección durante la resolución, y lo que llaman “overselection behavior” (la tendencia a marcar más cuadros de los necesarios o a hacerlo con una lógica demasiado sistemática).

Un humano resuelve un CAPTCHA con algo de incertidumbre, backtracking, velocidad variable. Un agente IA lo resuelve con demasiada consistencia. Y esa consistencia es exactamente lo que lo delata.

Las firmas digitales del comportamiento IA

Ponele que le das a Claude o a GPT un CAPTCHA de imagen clásico. El modelo lo resuelve con ~90% de precisión en el componente visual. Hasta ahí, igual que un humano promedio. El problema empieza cuando mirás cómo llegó a esa respuesta. Esto se conecta con lo que analizamos en protocolos de seguridad avanzados.

Los investigadores de Roundtable analizaron datos de humanos y de los tres grandes modelos (Claude, GPT, Gemini) resolviendo el mismo CAPTCHA. Lo que encontraron: los scores de performance son similares, pero las métricas de proceso son completamente distintas. Las máquinas hacen clicks en un orden demasiado lógico, cambian de dirección un número estadísticamente diferente de veces, y exhiben patrones de sobreselección que no aparecen en usuarios humanos reales.

¿Alguien verificó esto de forma independiente? El paper todavía está en preprint (submission a conferencia de machine learning), pero la lógica es sólida: si el proceso es detectable, la solución correcta no alcanza para pasar el filtro.

Métrica	Humanos	Claude / GPT / Gemini
Precisión en tarea visual	~88%	~90% (comparable)
Patrón secuencial de clicks	Variable, con backtracking	Predecible, lineal o sistemático
Cambios de dirección	Frecuentes, orgánicos	Estadísticamente menores o excesivos
Overselection behavior	Ocasional, aleatorio	Consistente, con firma de modelo
Velocidad entre acciones	Variable (fatiga, duda)	Demasiado constante o en ráfagas

detección agentes ia captchas diagrama explicativo

Google Cloud Fraud Defense: la triple categorización

En Cloud Next 2026, Google presentó Fraud Defense, su nuevo enfoque para reemplazar el reCAPTCHA clásico. El cambio conceptual es importante: el sistema ya no pregunta “¿sos humano o bot?” sino que clasifica al visitante en tres categorías.

Humano real: acceso normal al servicio.
Bot legítimo: crawlers de buscadores, scrapers autorizados, sistemas de monitoreo. Acceso permitido con restricciones.
Agente IA: automatización que actúa en nombre de un usuario humano. Acceso diferenciado según contexto.

Esto es un cambio de paradigma respecto al modelo binario que dominó la última década. La lógica anterior era: si es máquina, bloquealo. La nueva reconoce que hay máquinas legítimas que necesitan acceder, y máquinas maliciosas que hay que filtrar. Bloquear todo el tráfico automatizado ya no tiene sentido cuando una parte creciente del tráfico legítimo viene de agentes.

Eso sí: la implementación práctica todavía no está del todo clara. Cómo decide Fraud Defense que un agente es “legítimo” es, por ahora, territorio de la “confianza en el proveedor”.

Análisis comportamental: el nuevo frente

Más allá del desafío visual, los sistemas modernos acumulan señales de comportamiento durante toda la sesión. reCAPTCHA v3, que opera de forma invisible, evalúa permanentemente velocidad de clicks, timing entre acciones, movimientos del mouse (¿son curvos y orgánicos, o van en línea recta?), cadencia de escritura, entropía del dispositivo y TLS fingerprinting. Te puede servir nuestra cobertura de agentes de IA como ChatGPT.

Un agente IA que hace requests programáticos tiene un perfil de red completamente diferente al de un Chrome en una laptop: no hay jitter de latencia humana, el fingerprint del TLS coincide con una librería de automatización conocida, y la cadencia de requests es demasiado regular.

Los CAPTCHAs cognitivos van un paso más allá. Según seguridadpy.info, estos sistemas plantean preguntas triviales para humanos pero costosas o ambiguas para modelos de lenguaje: sentido común situacional, contexto cultural local, sarcasmo implícito. No es tanto que los LLMs no puedan responder, sino que el tiempo que toman, la forma en que procesan y los patrones de respuesta los diferencian.

Sistemas híbridos y desafíos cognitivos generados por IA

El paper de arxiv (2510.02374) propone una arquitectura que combina dos capas. Primera capa: desafíos cognitivos generados dinámicamente por IA, que cambian en cada sesión y explotan el conocimiento contextual que los humanos tienen de forma implícita. Segunda capa: análisis de keystroke dynamics, que mide el ritmo de escritura, la presión entre teclas y los patrones de error.

La combinación es casi imposible de replicar para un bot, porque requeriría simular tanto el conocimiento contextual como la imprecisión motriz humana. Y falsificar la imprecisión sin hacerla demasiado obvia es, paradójicamente, un problema difícil para sistemas que tienden a ser demasiado consistentes.

Para el usuario humano, el sistema es transparente (en el mejor de los casos, ni lo nota). Para el bot, cada capa agrega fricción. El diseño es elegante.

Implicaciones para agentes IA legítimos

Acá viene el dilema real para 2026: hay agentes IA legítimos que necesitan acceder a servicios web. Claude for Chrome de Anthropic, o Comet de Perplexity, actúan en nombre del usuario en sitios que no tienen API pública. Para esos casos, bloquear el agente es lo mismo que bloquear al usuario que lo mandó. Lo explicamos a fondo en cómo funcionan los modelos de lenguaje.

Las alternativas actuales son dos: o el servicio web expone una API oficial para agentes (cosa que pocos hacen todavía), o el agente pasa por servicios terceros de resolución de CAPTCHAs (que básicamente subcontratan el trabajo a humanos reales o a redes especializadas). La segunda opción existe desde hace años para scrapers, pero escala mal y genera incentivos perversos.

El estándar emergente apunta a credenciales verificables para agentes: algo equivalente a un OAuth pero para bots, donde el agente puede demostrar que actúa en nombre de un usuario legítimo sin tener que fingir que es humano. Todavía no hay consenso en la industria sobre cómo implementarlo (y varios jugadores tienen interés en que el estándar favorezca su plataforma, lo que no acelera el proceso).

Qué está confirmado y qué no

Confirmado

Claude, GPT y Gemini resuelven CAPTCHAs visuales con precisión ~90%, comparable a humanos.
El paper de Roundtable (preprint, mayo 2026) confirma diferencias estadísticas en click patterns, direction changes y overselection.
Google Fraud Defense fue anunciado en Cloud Next 2026 con la triple categorización humano/bot/agente.
reCAPTCHA v3 ya opera con análisis comportamental continuo, sin desafío visible para el usuario.

Pendiente o no confirmado

El paper de Roundtable está en preprint y no pasó aún por peer review formal.
Los detalles técnicos de cómo Fraud Defense categoriza agentes “legítimos” no son públicos.
No hay confirmación de que los estándares de credenciales para agentes (tipo OAuth para bots) vayan a converger en 2026.
La efectividad real de los CAPTCHAs cognitivos contra LLMs de última generación no tiene estudios independientes publicados.

Errores comunes sobre CAPTCHAs e IA

Error 1: “Si la IA resuelve el desafío, el CAPTCHA ya no sirve”

Resolver el desafío visual es solo una parte. El CAPTCHA moderno mide el proceso completo de interacción: timing, movimientos, cadencia. Un agente que marca las imágenes correctas en orden perfecto y en tiempo constante se delata igual que si hubiera fallado.

Error 2: “reCAPTCHA v3 es invisible, entonces no detecta nada”

Invisible no significa pasivo. reCAPTCHA v3 evalúa el comportamiento durante toda la sesión y asigna un score de 0 a 1. Un score bajo no bloquea automáticamente al usuario, sino que dispara fricción adicional o escala la revisión. Es un sistema de scoring continuo, no una barrera única.

Error 3: “Los agentes IA legítimos tienen el mismo problema que los bots maliciosos”

Técnicamente sí se detectan igual (ambos tienen patrones no humanos). El punto de diferencia es la intención y la autorización. El enfoque de Google con Fraud Defense apunta precisamente a separar las dos cosas: detectar que es un agente es un paso, autorizar que ese agente específico actúe es otro. Tema relacionado: sistemas de inteligencia artificial de Google.

Error 4: “Los servicios de resolución de CAPTCHAs terceros son la solución definitiva”

Resuelven el desafío visual subcontratando a humanos reales o usando redes especializadas, pero no modifican el comportamiento del agente durante el resto de la sesión. Si el sistema detecta patrones no humanos en las acciones posteriores al CAPTCHA, el bloqueo igual ocurre.

Para entender mejor cómo los agentes IA enfrentan estos desafíos, mirá CAPTCHAs can still detect AI agents.

Cubrimos esto en profundidad en CAPTCHAs can still detect AI agents.

Preguntas Frecuentes

¿Realmente los CAPTCHAs pueden detectar agentes de IA?

Sí, aunque no por las razones originales. Los VLMs resuelven los desafíos visuales sin problema, pero exhiben patrones de comportamiento distintos a los humanos: clicks demasiado sistemáticos, velocidad constante, secuencias predecibles. El paper de Roundtable Research de mayo de 2026 encontró diferencias estadísticamente significativas en estas métricas entre humanos y los tres modelos principales.

¿Qué patrones comportamentales diferencian humanos de máquinas en un CAPTCHA?

Los más relevantes según los datos actuales: el patrón secuencial de clicks (los humanos tienen backtracking y variación, los agentes son demasiado ordenados), los cambios de dirección durante la tarea, y el comportamiento de sobreselección. A nivel de sesión, el timing entre acciones, los movimientos del mouse y la entropía del dispositivo también generan señales diferenciadoras.

¿Puede Claude o GPT resolver CAPTCHAs sin ser detectado?

En el componente visual, sí. En el comportamental, por ahora no de forma confiable. El challenge no está en identificar la imagen correcta sino en simular la imprecisión orgánica del proceso humano, que incluye errores, dudas y variación temporal. Los modelos actuales son demasiado consistentes para pasar ese filtro de forma sistemática.

¿Cómo funciona el nuevo sistema de Google Fraud Defense?

Anunciado en Cloud Next 2026, Fraud Defense reemplaza la lógica binaria humano/bot por tres categorías: humano real, bot legítimo (crawlers, sistemas autorizados) y agente IA. Cada categoría recibe un nivel de acceso diferenciado. El sistema no simplemente bloquea el tráfico no humano, sino que evalúa si ese tráfico tiene autorización para actuar en el contexto dado.

¿Qué es un CAPTCHA cognitivo y por qué es difícil para los bots?

Un CAPTCHA cognitivo es un desafío que requiere conocimiento contextual o sentido común que los humanos tienen de forma implícita: sarcasmo, contexto cultural local, sentido situacional. Los LLMs pueden responder muchas de estas preguntas, pero el tiempo que toman, la forma en que procesan y sus patrones de respuesta los diferencian estadísticamente de los humanos. La combinación con análisis de keystroke dynamics (cadencia de escritura, ritmo de teclas) hace el sistema aún más difícil de falsificar.

Conclusión

Los CAPTCHAs no están muertos, pero sí mutaron. El desafío ya no es “¿podés identificar el objeto?” porque esa pregunta quedó obsoleta hace años. Hoy el desafío es “¿actuás como humano?”, y la respuesta depende de cosas mucho más sutiles que reconocer un hidrante.

Lo que cambió en 2026 es que el debate dejó de ser binario. Google lo reconoció explícitamente con Fraud Defense: hay agentes legítimos que necesitan acceder, y hay que encontrar una forma de autorizarlos sin abrir la puerta a todo. El modelo de permisos diferenciados por tipo de actor es el camino más sensato que vino surgiendo, aunque la implementación técnica todavía tiene cabos sueltos.

Para quienes trabajan con agentes IA que interactúan con servicios web (si armaste algún flujo de automatización con Claude o GPT, sabés exactamente de qué hablo), el mensaje práctico es claro: el análisis comportamental va a ser el filtro dominante en los próximos años. Simular clicks correctos no alcanza. Simular el proceso humano completo es el problema que nadie resolvió todavía. Si tu stack de automatización necesita infraestructura para correr estos agentes, conviene pensar en servidores con IPs limpias y buena reputación de red, algo que podés encontrar en proveedores como donweb.com.

¿Los CAPTCHAs siguen detectando agentes IA en 2026?