Cómo bloquear crawlers de IA
Una guía práctica de cada método disponible, desde robots.txt hasta bloqueo a nivel edge, con los compromisos de cada uno.
¿Qué es el bloqueo de crawlers de IA?
El bloqueo de crawlers de IA es la práctica de denegar el acceso a clientes automatizados que extraen contenido para entrenamiento, retrieval o uso agéntico. Los métodos van desde dos líneas en robots.txt hasta detección a nivel de solicitud en el edge, y difieren mucho en lo que realmente aplican. Dos líneas de robots.txt detienen a los crawlers que cumplen. Para el resto, bloquear significa inspeccionar la propia solicitud — handshake TLS, coherencia de headers, cadencia conductual — y decidir por solicitud antes de que el bot llegue a origen.
Por qué bloquear crawlers de IA importa ahora
El volumen es el argumento. El State of the Bots Q4 2025 de Tollbit midió 9.000 millones de scrapes de bots de IA sobre 550.000 millones de visitas a sitios web, con 2.900 millones de esas peticiones saltándose robots.txt por completo. Los sitios de editores vieron una proporción de 1 bot de IA por cada 31 visitas humanas, frente a 1 de cada 50 dos trimestres antes. Cloudflare Radar midió que el 39 % de los principales millones de sitios son accedidos por bots de IA mientras que solo el 2,98 % los bloquea en robots.txt.
La brecha entre política y aplicación es donde ocurre el robo de contenido. Un sitio que depende solo de robots.txt está informando a los crawlers de sus preferencias, no impidiendo nada. La conversación sobre bloqueo en 2026 gira en torno a en qué capa vive realmente la aplicación.
Tipos de métodos de bloqueo
Seis métodos cubren el panorama, ordenados del más simple al más efectivo.
**robots.txt.** Añadir directivas que indiquen a crawlers específicos que no visiten. Para bloquear GPTBot, por ejemplo, añadir `User-agent: GPTBot` seguido de `Disallow: /`. Toma 30 segundos. Sin cambios de código. Puramente voluntario — los datos de Tollbit muestran que el 30 % de los scrapes de IA ignoran robots.txt, y ChatGPT-User accedió al 42 % de sitios que lo bloquearon.
**Checks de headers HTTP.** Inspeccionar el header User-Agent y rechazar firmas conocidas de crawlers de IA, a nivel de servidor web (Nginx, Apache) o en el código. Sencillo de implementar. Se esquiva trivialmente cambiando la cadena de user-agent.
**Bloqueo por IP.** Bloquear rangos de IP conocidos de empresas de IA. OpenAI, Anthropic y otras publican sus rangos. Más difícil de esquivar que los checks de user-agent. Los rangos cambian con frecuencia, y las redes de proxies residenciales eluden el bloqueo por completo.
**Rate limiting.** Limitar las peticiones por IP o sesión dentro de una ventana temporal. Reduce el volumen sin bloquear del todo. Los scrapers sofisticados distribuyen peticiones entre miles de IPs. Los límites agresivos también afectan a usuarios legítimos.
**Desafíos JavaScript.** Exigir que el visitante ejecute JavaScript antes de servir contenido. Detiene a los scrapers HTTP básicos. Las herramientas modernas (Playwright, Puppeteer, Chromium parcheado) renderizan JavaScript por completo. Añade latencia para usuarios reales.
**Detección a nivel edge.** Una capa de detección en el CDN o edge que analiza cada petición en tiempo real. Combina fingerprinting TLS, análisis conductual, reputación de IP, fingerprinting de dispositivo y cotejo contra base de firmas de crawlers. Atrapa crawlers al margen del user-agent o IP. Latencia sub-2ms. Requiere un proveedor especializado. Centinel opera en este nivel y coteja contra más de 1.600 firmas de crawlers.
Cómo funciona el bloqueo de crawlers
Los seis métodos no son sustitutos. Son capas, y cada una atrapa una clase distinta de bot.
robots.txt filtra a los crawlers honestos que leen el archivo y se van. Los checks de header e IP filtran a los bots perezosos que se identifican. El rate limiting filtra a los scrapers ruidosos que golpean demasiado fuerte un único origen. Los desafíos JavaScript filtran a las bibliotecas HTTP que no ejecutan código. La detección a nivel edge filtra todo lo que sobrevive a las cinco anteriores, inspeccionando señales de bajo nivel que el bot no puede falsificar barato.
Una defensa por capas es más barata y más efectiva que cualquier método empujado al límite. El bot que pasa tu check de user-agent puede no pasar tu check de fingerprint TLS. El que falsifica TLS puede fallar igualmente el check conductual en la segunda página. Cada capa encarece la evasión.
Cómo identificar qué método encaja con tu sitio
Empieza con robots.txt como base. No cuesta nada y gestiona a los crawlers que cumplen. Combínalo con checks de header e IP en la capa de servidor — baratos, cubren al 20 % perezoso.
Para cualquier sitio donde el scraping de IA sea un problema real (editores, e-commerce con catálogos propios, dashboards SaaS con pantallas valiosas), añade rate limiting y páginas de desafío en las rutas de alto valor. Para protección real a volumen, la detección a nivel edge es la capa que aplica en lugar de informar.
La decisión la dicta lo que hay en la página. Un sitio de marketing pierde poco si lo scrapean. Un editor con paywall pierde el modelo de negocio. Cuanto mayor sea el valor del contenido, más abajo en el stack debe vivir la aplicación.
Cómo responder cuando un método es esquivado
Cada método tiene una contramedida. La respuesta no es cambiar un método por otro — es capar la detección para que ningún único bypass gane la sesión.
Monitoriza la señal de bypass. Un pico de tráfico desde un user-agent, ASN o fingerprint TLS específico tras poner en marcha un bloqueo indica que la regla fue detectada y rodeada. Escala una capa más abajo: de filtros UA a bloqueo por IP, de bloqueo por IP a fingerprinting TLS, de TLS a análisis conductual. Refresca la base de firmas con una cadencia — las firmas publicadas derivan, aparecen nuevas, y una base desactualizada deja pasar tráfico que una actual marcaría.
Conclusiones clave
- robots.txt gestiona a los crawlers honestos y nada más. Tollbit Q4 2025 midió que el 30 % de los scrapes de IA lo ignoran, y ChatGPT-User saltó el 42 % de sitios que lo bloquearon. - Seis métodos cubren el panorama: robots.txt, checks de header, bloqueo por IP, rate limits, desafíos JavaScript y detección a nivel edge. Cada uno atrapa una clase distinta de bot. - La defensa por capas supera a cualquier método único empujado al límite. La detección a nivel edge en el CDN es la única capa que aplica en lugar de informar. - La respuesta es una cadencia, no una configuración única. Monitorizar las señales de bypass, refrescar las bases de firmas, escalar una capa más abajo cuando un método es rodeado.
Mira qué está rastreando tu sitio ahora mismo
Ejecuta una auditoría gratuita y obtén un informe detallado de qué crawlers IA acceden a tu contenido.
Obtén tu auditoría gratis