LLM Scraper Bots están saturando servidores HTTPS: El caso acme.com
A fines de febrero de 2026, acme.com sufrió outages intermitentes que duraron más de un mes. El dueño descubrió que casi el 100% del tráfico entrante era bots scraper de IA (GPTBot, ClaudeBot, y otros) enviando requests a páginas inexistentes en puerto 443. Cerrar el puerto HTTPS resolvió el problema de inmediato, pero reveló un fenómeno que está golpeando a cientos de sitios: los bots de entrenamiento de IA están saturando infraestructura web sin control.
En 30 segundos
- acme.com tuvo outages intermitentes desde Feb 25 hasta comienzos de marzo por bots scraper LLM que atacaban puerto 443
- Los bots anunciaban su user-agent (GPTBot, ClaudeBot) pero sobrecargan HTTPS porque los servidores lentos no pueden seguirles el ritmo
- Debian CI debió privatizar su infraestructura cuando descubrió que el 50% de su tráfico eran bots de entrenamiento
- Bloqueadores simples (robots.txt, user-agent filtering) no funcionan; necesitás WAF, rate limiting o análisis de TLS fingerprinting
- La defensa más efectiva es Cloudflare, Akamai o cerrar puerto 443 directamente (como hizo acme.com)
Qué son los bots scraper LLM y por qué existen
Los bots scraper de IA son programas automatizados que descargan masivamente contenido web. Los crea OpenAI, Anthropic, Google, Meta, ByteDance y otros laboratorios porque necesitan datos de entrenamiento para alimentar sus modelos de lenguaje. Claude, GPT, Gemini, Grok, cualquier LLM moderno fue entrenado en texto descargado de internet de forma automatizada.
Ahora bien, existe una diferencia enorme entre un bot legítimo y uno que descontrola. Googlebot existe desde hace 25 años, respeta robots.txt, anuncia su identidad, y las empresas lo permiten porque trae tráfico de búsqueda. Los bots de IA modernos, en cambio, a menudo no respetan las restricciones, generan cero tráfico útil, y consumen ancho de banda como si nada. Dicho esto, la mayoría no son ataques DDoS maliciosos sino simplemente scraping voraz sin consideración por el servidor del otro lado.
La escala es el problema (spoiler: nadie esperaba que fuera así). Un reporte de Akamai de 2025 mostró un aumento de 6900% en tráfico de agentes IA año a año. Ya no hablamos de miles de requests por segundo: hablamos de millones. Ponele que tu servidor web corre en un VPS de donweb.com y recibe 100 requests por segundo normalmente; un bot scraper de IA puede meter 10,000 sin parpadear.
Por qué sobrecargan HTTPS y no HTTP
La historia de acme.com lo explica claramente: el dueño corría dos servidores web en la misma máquina, uno para HTTP (puerto 80, rápido) y otro para HTTPS (puerto 443, lento). Los bots atacaron puerto 443 casi exclusivamente.
¿Por qué? HTTPS requiere negociación TLS, certificados, encriptación. Consume más CPU. Si tu servidor HTTPS es lento (y en máquinas viejas lo es), se va a pilas rápido bajo carga masiva. HTTP es más rápido, pero los bots de IA prefieren HTTPS porque es más seguro para descargar datos, menos filtrado intermedio, y algunos firewalls corporativos bloquean HTTP pero permiten HTTPS. Además, muchos bots evitan HTTP por defecto porque saben que algunos sitios redirigen inseguro a seguro. Más contexto en recomendaciones de seguridad empresarial.
Lo interesante es lo que pasó después: una vez que el tráfico LLM saturó el servidor HTTPS lento, empezó a generar packet drops, altos ping times, y caídas intermitentes. El servidor no caía completamente, pero sí quedaba inutilizable. El dueño pasó un mes pensando que era un problema de su ISP (Sonic), configuración de red, o el router. Fue cuando se puso a las 1am a revisar los logs que vio el patrón: 99% requests a páginas inexistentes en puerto 443, todos con user-agent que decía “GPTBot”, “ClaudeBot”, “CCBot”.
Impacto real: caídas de servicio y costos inflados
El caso acme.com no es aislado. Debian CI, infraestructura crítica de testing de Debian, tuvo que cerrar sus repositorios públicos porque descubrió que el 50% de su tráfico eran bots scraper. Eso significa que mientras desarrolladores reales esperaban milisegundos por una descarga de paquete, la mitad del ancho de banda se iba a bots que ni siquiera devolvían datos útiles al proyecto.
Los costos son reales. En cloud, pagas por ancho de banda saliente. Si un CDN como Cloudflare procesa tu tráfico, pagas por cada GB. Un sitio mediano puede recibir 100GB/día de tráfico legítimo; con bots scraper puede subir a 500GB/día fácilmente, lo que se traduce en 2,000-4,000 USD mensuales extra en factura. Y eso sin contar el impacto en disponibilidad.
acme.com sufrió intermitencia durante más de un mes. Los usuarios reales veían sitios lentos, timeouts, caídas aleatorias. Es la peor experiencia posible porque no es predecible; no podés arreglarlo porque no sabés cuál es el problema hasta que mirás los logs.
Cómo detectar si tu servidor está siendo atacado por bots LLM
Lo primero es monitorear los logs de tu servidor web. Si usás Cloudflare, ya tienen analytics integrados. Si no, necesitás herramientas como Logflare, Netlify Analytics, o leer directamente los logs de Apache/Nginx.
Qué buscar:
- User-agents sospechosos: GPTBot, ClaudeBot, CCBot, Googlebot-Extended, OAI-SearchBot, PerplexityBot, Mediapartners-Google, MJ12bot
- IPs de rangos cloud conocidos: OpenAI usa rangos de Azure, Anthropic tiene bloques específicos, Google usa su infraestructura GCP
- Requests a rutas inexistentes: /admin, /backup, /wp-admin, /config.php. Los bots no saben qué existe, así que prueban todo
- Patrón de tráfico masivo nocturno o a horas raras: durante el día tráfico normal, a las 3am dispara de repente
- Status code 404 masivo: si 40-50% de tus logs son 404, probablemente sean bots
La estadística más confiable es esta: si tu tráfico bajó 50% pero tu servidor va más rápido, probablemente estabas siendo atacado. Ese es el síntoma: tráfico masivo que no genera conversiones, ni páginas vistas, ni nada útil. Te puede servir nuestra cobertura de entrenar sistemas como ChatGPT.
Estrategias defensivas que realmente funcionan
Acá es donde la defensa se complica porque no existe una solución universal. Depende de tu arquitectura, presupuesto y tolerancia al riesgo.
Bloqueo en Web Application Firewall (WAF)
Cloudflare lanzó en 2026 un toggle directo: “AI Scrapers” en las reglas de firewall. Detecta TLS fingerprinting y patrones de comportamiento típicos de bots. No es 100% efectivo, pero bloquea 70-80% del tráfico bot malicioso sin afectar usuarios reales. El costo es mínimo si ya usás Cloudflare.
Akamai ofrece algo similar con análisis más sofisticado de “comportamiento bot”; detecta patrones de navegación imposibles (No clicks, puro scraping) y bloquea antes de que llegue a tu origen.
Rate limiting granular
Limitar requests por IP, por user-agent, por range de IPs cloud. Cloudflare permite “challenge with JavaScript” que filtra bots que no ejecutan JS. La mayoría de bots scraper no ejecuta JavaScript, así que quedan fuera automáticamente.
La solución nuclear: cerrar puerto 443
Esto fue lo que hizo acme.com y funcionó. Los usuarios acceden vía HTTP redirect (redirige a HTTPS), pero cerrar el puerto directamente también funciona. Obviamente no es viable para sitios con HTTPS crítico, pero en infraestructura interna o sitios que pueden tolerar una caída temporal, es la más efectiva.
Protección por país + IP range
Si tu audiencia es Latinoamérica, podés bloquear todo tráfico de rangos no-LatAm. Los bots vienen principalmente de datacenters cloud en USA, Europa y Asia. Ya lo cubrimos antes en entrenar modelos tipo GPT.
Tabla comparativa de métodos de defensa
| Método | Efectividad | Dificultad | Costo | Falsos positivos |
|---|---|---|---|---|
| robots.txt + llm.txt | 10-20% | Muy baja | Gratis | Muy altos (muchos lo ignoran) |
| Bloqueo user-agent | 20-30% | Baja | Gratis | Altos (bots se disfrazan) |
| Cloudflare WAF + AI toggle | 70-80% | Media | 20 USD/mes (plan Pro) | Bajos |
| Rate limiting granular | 60-70% | Media | Incluido en WAF | Medios |
| JavaScript challenge | 75-85% | Baja | Gratis (Cloudflare) | Muy bajos |
| IP blocking + geolocation | 50-65% | Media | Incluido en WAF | Muy altos (bloquea usuarios legales) |
| Cerrar puerto 443 | 99% | Alta | Gratis | Cero (pero offline total) |

Errores comunes que no funcionan
Mito 1: robots.txt detiene bots LLM
Falso. robots.txt es una sugerencia. Los bots de IA lo ignoran completamente porque no hay incentivo legal para respetarlo. Google respeta robots.txt porque Google quiere mantener relaciones amistosas con dueños de sitios. OpenAI no tiene ese mismo incentivo. Algunos screwdrivers menores lo respetan, pero GPTBot, ClaudeBot y otros? No.
Mito 2: bloquear user-agent es suficiente
Los bots sofisticados se disfrazan como navegadores normales (Chrome, Safari). Si bloqueas solo por user-agent, muchos pasan igual. Necesitás análisis de comportamiento, no solo headers.
Error común 3: no monitorear logs
El dueño de acme.com pasó un mes sin mirar los logs. Si hubiera monitoreado desde el primer día, habría visto el patrón de inmediato. La mayoría de empresas no tiene alertas configuradas para “50% de tráfico = 404” o “user-agent = GPTBot > umbral”.
Error común 4: cerrar HTTP pensando que HTTPS es suficiente
Algunos sitios cierran puerto 80 (HTTP) creyendo que eso detiene bots. Los bots atacan HTTPS igual. Mejor estrategia es lo opuesto: si necesitás estar online, mantené HTTP abierto (es rápido) y filtrá HTTPS con WAF.
Consideraciones legales y éticas
Acá viene lo complicado. ¿Es legal bloquear bots? Sí, totalmente. Tu servidor, tus reglas. Pero hay matices.
GDPR y regulaciones de 2026 ya no andan en período de gracia. El scraping indiscriminado de datos públicos enfrenta fricciones legales crecientes. La Unión Europea está presionando para que los desarrolladores de IA compensen a creadores de contenido. Algunos países latinoamericanos empiezan a cuestionar si tomar contenido de un sitio sin consentimiento tiene límites, aunque sea “acceso público”. Relacionado: arquitecturas modernas como Gemini.
Dicho esto, la realidad es que bloquear bots es tu derecho. Muchos desarrolladores permiten scraping en documentación técnica (es el punto de esa documentación) pero bloquean en contenido monetizado. Otros simplemente cierran la puerta para todos. La industria aún está debatiendo compensación justa; mientras tanto, proteger tu infraestructura es defensible tanto legal como moralmente.
Preguntas frecuentes
¿Qué son los bots scraper LLM exactamente?
Son programas automatizados que descargan texto de sitios web para entrenar modelos de lenguaje. Los crea OpenAI (GPTBot), Anthropic (ClaudeBot), Google (CCBot), y otros. Anuncia su identidad en el user-agent pero sobrecargan servidores porque generan millones de requests.
¿Por qué los bots atacan HTTPS más que HTTP?
HTTPS es más seguro para descargar datos y sufre menos filtrado intermedio. Pero el problema real es que los servidores HTTPS lento se saturan antes. Si un servidor HTTPS procesa 100 requests/seg max y recibe 10,000 bot requests, se cae. HTTP abierto no tiene ese problema de velocidad.
¿Cómo sé si mi servidor está siendo atacado?
Revisa los logs. Si ves 40-50% de requests con user-agent GPTBot, ClaudeBot, CCBot y status 404 (páginas inexistentes), estás siendo atacado. Otro síntoma: tráfico masivo pero cero conversiones, cero interacciones reales.
¿Cloudflare bloquea todos los bots scraper?
No. El toggle de AI Scrapers en Cloudflare bloquea 70-80% con análisis de comportamiento y TLS fingerprinting. Pero algunos bots sofisticados pasan igual. Es defensa en capas, no solución perfecta.
¿Es legal bloquear bots de entrenamiento de IA?
Sí. Tu servidor, tus reglas. Puedes bloquear todo si quieres. Algunos desarrolladores permiten scraping en docs técnicas pero bloquean contenido monetizado. Mientras haya debate sobre compensación a creadores, proteger tu infraestructura es completamente válido.
Conclusión
Lo que pasó en acme.com en febrero de 2026 es el síntoma de un problema creciente. Los bots scraper de IA están saturando infraestructura web sin control. No es malicioso (generalmente), es solo que la escala de scraping es insostenible: millones de requests a servidores que no esperaban esa carga.
Si tenés un sitio web mediano o grande, necesitás monitoreo de logs. No es suficiente robots.txt ni bloqueo simple por user-agent. Inversión en WAF (Cloudflare, Akamai, DataDome) devuelve ROI rápido: menos downtime, menos costos CDN, mejor experiencia para usuarios reales.
Lo interesante es que Cloudflare lanzó su toggle de AI Scrapers recién en 2026. Significa que los laboratorios de IA y CDNs finalmente reconocieron el problema. La defensa existe. Lo que falta es que más empresas sepan que existe y la usen.
Fuentes
- acme.com – 07 Apr 2026 HTTPS outage — reporte detallado del dueño sobre los outages intermitentes de febrero-marzo causados por bots scraper LLM
- Akamai – The Rise of LLM AI Scrapers and Bot Management — análisis de tráfico bot, aumento 6900% año a año y estrategias de mitigación
- Cloudflare – Regain Control of AI Crawlers — documentación del toggle de AI Scrapers en WAF y análisis de comportamiento bot
- Phoronix – Debian CI Restricting LLM Bot Access — caso de Debian CI con 50% tráfico bots scraper
- PeakHour – LLM Web Scrapers — guía técnica sobre cómo funcionan y cómo detectarlos
