Saltar al contenido
Guías prácticas·10 min de lectura

robots.txt para bots de IA: Guía completa

Cómo configurar robots.txt para crawlers de IA, cada directiva, cada bot importante y por qué robots.txt solo no es suficiente.

Qué es robots.txt

robots.txt es un archivo de texto en la raíz de su sitio (susitio.com/robots.txt) que indica a clientes automatizados qué rutas pueden visitar. Es el estándar más antiguo de la web para comunicarse con crawlers, diseñado en 1994 para motores de búsqueda y hoy en el centro del debate sobre crawlers de IA.

El archivo es un conjunto de directivas. User-agent selecciona el crawler. Disallow lista rutas bloqueadas. Allow abre excepciones dentro de zonas bloqueadas.

Por qué robots.txt importa ahora

robots.txt es la declaración pública de su política de crawling — y en 2026 el archivo más ignorado de la web.

Tollbit’s Q4 2025 State of the Bots reportó que cerca del 30% de los scrapes de bots de IA ignoran las instrucciones de robots.txt por completo. El mismo informe midió que ChatGPT-User accede al 42% de los sitios que lo habían bloqueado explícitamente en robots.txt. En el otro lado: Cloudflare Radar mide que el 39% de los principales millones de sitios son accedidos por bots de IA mientras solo el 2,98% los bloquea.

Esa brecha hace que el archivo sea importante y al mismo tiempo insuficiente. Es lo primero que lee un crawler conforme y lo primero que cita un abogado. Por sí solo no es aplicación.

Tipos de directivas robots.txt para crawlers de IA

Los crawlers de IA se dirigen por user agent. Las cadenas más relevantes en 2026: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Google-Extended, Bytespider, Applebot-Extended, CCBot, PerplexityBot, Amazonbot, Meta-ExternalAgent, cohere-ai.

Tres configuraciones cubren la mayoría de políticas. **Bloquear todos los crawlers de IA, permitir motores de búsqueda**: una regla Disallow por cada user agent de IA, con Googlebot y Bingbot permitidos. **Permitir crawlers de IA pero restringirlos a secciones**: Allow y Disallow granulares por user agent — por ejemplo, permitir /public/ y bloquear /archive/ para GPTBot. **Permiso general**: un solo User-agent: * con Disallow vacío — el estado por defecto del 97% de los principales millones de sitios accesibles hoy para bots de IA.

La limitación: robots.txt no puede distinguir identificación honesta de un user agent suplantado, ni aplicar políticas distintas para distintos usos del mismo crawler.

Cómo funciona robots.txt

Los crawlers deben pedir /robots.txt antes de crawlear, parsear las directivas y seguir las reglas de su user agent. El protocolo se basa en el honor. Un crawler que elige ignorar el archivo no encuentra ninguna barrera técnica.

La coincidencia es por prefijo más largo por user agent, con retroceso a User-agent: *. La distinción entre mayúsculas y minúsculas en rutas aplica en la mayoría de servidores. El archivo queda cacheado hasta 24 horas bajo la implementación de Google — un cambio de política tarda en propagarse.

Y el archivo es público. Cualquiera puede leer susitio.com/robots.txt, incluidos los crawlers que intenta bloquear.

Cómo detectar cuando se ignora robots.txt

Tres verificaciones cierran la brecha. **Muestreo de logs contra bloqueos declarados**: grep en sus logs de acceso por los user agents que ha bloqueado — cada coincidencia es un crawler que no se enteró o uno que leyó el archivo y siguió igual. **Honestidad del user agent**: un request de GPTBot debe venir de una IP en el rango publicado por OpenAI; Googlebot debe resolver por reverse DNS a un host de Google. **Tendencia de tráfico de user agents bloqueados**: si el volumen no baja tras el disallow, está informando al operador, no aplicando nada.

Cómo prevenir la evasión de crawlers cuando robots.txt falla

Para un control de acceso aplicable necesita una capa que identifique crawlers independientemente de su identidad declarada y decida por solicitud en tiempo real.

Esa capa vive en el edge, antes de que la solicitud llegue al origen. Compara el fingerprint TLS con una firma de biblioteca, inspecciona el frame HTTP/2 SETTINGS en busca de marcadores de navegador versus biblioteca, correlaciona el user agent con el sistema autónomo de la IP, y corre contra una base de firmas de crawler conocidas — Centinel mantiene 1.600+. Un scraper que usa curl-impersonate para parecer Chrome se detecta en el handshake TLS, no en el cuerpo del request.

Una vez identificado, el crawler puede bloquearse, verificarse y permitirse, o redirigirse a una ruta de licencia de pago. Ninguna de esas opciones existe en robots.txt. Las tres son decisiones por solicitud.

Conclusiones clave

- robots.txt es la declaración pública de su política y lo primero que lee un crawler conforme — pero el 30% de los scrapes de bots de IA la ignoran, y el 42% de los sitios que bloquearon ChatGPT-User lo siguen viendo (Tollbit Q4 2025). - Actualice el archivo regularmente conforme aparecen nuevos crawlers de IA (GPTBot, ClaudeBot, Google-Extended, ChatGPT-User, Applebot-Extended, Meta-ExternalAgent son los relevantes en 2026). - Use robots.txt como base, no como única defensa. No separa identificación honesta de suplantación y no aplica políticas por tipo de uso. - La aplicación vive en el edge: fingerprinting TLS, checks HTTP/2 y una base de firmas de crawler convierten la nota de cortesía en una política real.

Mira qué está rastreando tu sitio ahora mismo

Ejecuta una auditoría gratuita y obtén un informe detallado de qué crawlers IA acceden a tu contenido.

Obtén tu auditoría gratis
robots.txt para bots de IA: Guía completa | Centinel Analytica