robots.txt para bots de IA: Guía completa
Cómo configurar robots.txt para crawlers de IA — cada directiva, cada bot importante y por qué robots.txt solo no es suficiente.
robots.txt para bots de IA
robots.txt es el estándar más antiguo de la web para comunicarse con crawlers. Diseñado en 1994 para motores de búsqueda, ahora juega un papel central en el debate de crawlers de IA.
User agents de crawlers de IA
Los principales: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended, Bytespider (ByteDance), CCBot, PerplexityBot, Amazonbot, FacebookBot, Applebot-Extended.
Los límites de robots.txt
robots.txt es una solicitud, no un muro. Según Tollbit, aproximadamente el 32% de la actividad de crawling de IA evita las instrucciones de robots.txt.
Más allá de robots.txt
Para un control de acceso ejecutable, necesitas una capa que pueda identificar crawlers independientemente de su identidad declarada. Aquí es donde entra Centinel.
Mira qué está rastreando tu sitio ahora mismo
Ejecuta una auditoría gratuita y obtén un informe detallado de qué crawlers IA acceden a tu contenido.
Obtén tu auditoría gratis