Guías prácticas·8 min de lectura

Cómo verificar agentes de IA

Guía del operador para distinguir agentes de IA legítimos de suplantados. Rangos de IP, reverse-DNS, fingerprints TLS, firma de peticiones y la política que se sienta encima.

¿Qué es la verificación de agentes de IA?

La verificación de agentes de IA es el proceso de confirmar que una petición que dice venir de un crawler de IA con nombre — GPTBot, ClaudeBot, PerplexityBot, Googlebot, Applebot — realmente vino de la organización que lo opera. Es un problema distinto del de la detección de bots. La detección de bots responde si el cliente está automatizado. La verificación responde si la automatización es quien dice ser.

El problema aparece nada más mirar los logs. Un user agent es un header que eligió enviar el cliente. Cualquier scraper puede poner User-Agent en GPTBot. La línea en el access log no es evidencia de identidad, es evidencia de una afirmación. La verificación es la brecha entre la afirmación y la identidad.

Tres tipos de tráfico necesitan la distinción. Indexadores de búsqueda que mandan tráfico de referral y entran en una allowlist por defecto. Crawlers de IA que has licenciado o decidido permitir. Y agentes que actúan por un usuario humano real, donde el operador pesa más que el hecho de la automatización. La decisión equivocada cuesta algo en cada caso — ranking de búsqueda perdido, ingresos de licencia no cobrados, un cliente bloqueado a mitad de compra.

Por qué la verificación de agentes de IA importa ahora

El volumen fuerza la decisión. Cloudflare Radar reporta que el 39 % de los sitios top de un millón fueron accedidos por bots de IA a comienzos de 2026, y sólo el 2,98 % de esos sitios los bloquea activamente. HUMAN Security midió un crecimiento del tráfico de agentes de IA del 7.851 % durante 2025. Cuando el tráfico de IA era un redondeo, bloquear todo o permitir todo salía barato. Cuando es un tercio de las peticiones, cada lado de la decisión sale caro.

El cumplimiento de las reglas declaradas se ha roto. El informe Q4 2025 State of the Bots de Tollbit midió que ChatGPT-User accedió al 42 % de los sitios que lo habían bloqueado explícitamente en robots.txt, y que el 30 % de todos los scrapes de bots de IA ignoraron los permisos de robots.txt. robots.txt no es un mecanismo de verificación y nunca lo fue. Es una petición educada.

Suplantar sale barato. El Global Bot Security Report 2024 de DataDome encontró que el 95 % de los ataques de bots avanzados pasan la inspección pasiva, y el 83 % de los bots simples basados en curl pasan sin detectar. Fingir ser un crawler de IA con nombre es un proyecto de fin de semana: IPs residenciales rotatorias, un user agent copiado de los docs del vendor, una librería TLS que reproduce el handshake de Chrome.

Los intereses comerciales cambiaron el año pasado. OpenAI, Perplexity y Google han firmado acuerdos de licenciamiento con publishers. Esos ingresos dependen de que una plataforma pueda distinguir al agente licenciado del scraper que lo imita. La verificación es ahora el contador.

Tipos de señales de verificación

Las señales de verificación caen en cuatro niveles, ordenados por lo caro que resulta suplantarlas.

**Afirmación de user agent.** Gratis. Cualquier cliente puede enviar cualquier user agent. Cruzar un string publicado de bot de IA en tus logs identifica al tráfico que ya intentaba cumplir, y a nada más.

**Rango de IP y reverse-DNS.** Barato de comprobar, difícil de suplantar a escala. Googlebot publica rangos oficiales de IP y soporta reverse-DNS más forward-DNS — buscas el registro PTR de la IP de origen, luego el A o AAAA del hostname resultante, y confirmas que el hostname termina en googlebot.com. Bingbot sigue el mismo patrón en search.msn.com. Applebot publica sus rangos. OpenAI publica los rangos de IP de GPTBot, OAI-SearchBot y ChatGPT-User en platform.openai.com. Anthropic publica los rangos de ClaudeBot y Claude-User. La publicación de PerplexityBot ha sido inconsistente. El coste es mantenimiento: los directorios cambian, y la lista que comprobaste el trimestre pasado ya está vieja.

**Firma criptográfica de petición.** Caro de desplegar, esencialmente imposible de suplantar si la clave privada se queda privada. La especificación IETF draft-ietf-httpbis-message-signatures da una forma estándar para que un cliente firme una petición con su identidad. Ningún gran vendor de IA la exige aún. La propuesta Web Bot Auth de Cloudflare y los experimentos de Anthropic con pases de agente firmados son los primeros pasos. Útil para mirar, no aún para apoyarse.

**Señales de comportamiento y fingerprint.** Caras para el atacante, baratas para el defensor. Los fingerprints TLS JA4 resumen en un hash los cipher suites, las extensiones y el orden de extensiones que un cliente envía en su ClientHello. Cloudflare sigue unos 15 millones de fingerprints JA4 únicos al día en su edge. Los valores de SETTINGS de HTTP/2 y el orden de pseudo-cabeceras varían por familia de navegador de formas que las librerías de suplantación rara vez copian. La cadencia de peticiones, los intervalos de revisita y los patrones de ruta separan un crawler planificado de una ráfaga de tráfico por proxies rotatorios. Los fingerprints cazan la cola larga que los rangos de IP y las firmas no cazan.

Cómo funciona la verificación de agentes de IA

Una pipeline de verificación en producción toma tres capas de señal por petición y emite un veredicto de identidad antes de que el origen vea el cuerpo.

La primera capa es identidad estática. El edge compara el user agent y la IP de origen contra un directorio mantenido de identidades de crawlers de IA. Si la IP de origen está dentro del rango publicado de ClaudeBot de Anthropic y el user agent coincide, la afirmación es consistente con el registro público. Si la IP de origen es un proxy residencial y el user agent dice ClaudeBot, la afirmación ya está muerta.

La segunda capa es consistencia entre capas. El handshake TLS expone un fingerprint JA4. Chrome envía un valor específico de WINDOW_UPDATE en su primer frame SETTINGS — alrededor de 15 MB. Firefox envía unos 12,5 MB. GPTBot envía lo que use la librería de OpenAI, estable entre peticiones. Una petición que dice ser Chrome con un fingerprint TLS de Python y un ajuste HTTP/2 de una librería Go ha mentido dos veces. Cualquier capa aislada es suplantable. La combinación no, porque las toolchains de suplantación no cubren todas las capas a la vez.

La tercera capa es comportamiento a lo largo del tiempo. Un ClaudeBot real hace un número estable de peticiones por segundo, vuelve en un ciclo predecible y se queda dentro de su propio rango de IP. Un ClaudeBot suplantado se lanza por cien páginas en un minuto, deriva por varios sistemas autónomos y se detiene cuando su pool de proxies se agota. Una ventana deslizante de 50 a 100 peticiones por origen suele bastar para clasificar un fingerprint nuevo con alta confianza.

Build o buy es más cuestión de mantenimiento del directorio que de ingeniería. Escribir un lookup reverse-DNS es un fin de semana. Mantener una tabla de rangos de IP y user agents para 50 crawlers de IA precisa a lo largo de 24 meses es un trabajo de tiempo completo. Cloudflare ofrece AI Crawl Control como capa gestionada. DataDome y Kasada mantienen directorios comerciales. Centinel trae fingerprints para la cola larga y para los grandes. Los datos tienen que quedarse al día.

Cómo identificar a un agente de IA legítimo

Empieza por los operadores que publican. GPTBot, OAI-SearchBot y ChatGPT-User tienen rangos de IP y un user agent publicado. ClaudeBot y Claude-User están documentados en docs.anthropic.com. Googlebot y Google-Extended soportan reverse-DNS y publican rangos de IP. Applebot está documentado en support.apple.com. Bingbot está documentado en bing.com/webmasters. Si una petición dice ser uno de estos y la IP queda fuera del rango publicado, es suplantación. Bloquea al edge y sigue.

Para operadores que publican un user agent pero no un rango de IP mantenido — PerplexityBot ha fluctuado, varias startups de IA más pequeñas no publican nada —, recurre a fingerprint-más-comportamiento. Si el JA4 es estable a lo largo de una ventana deslizante, la cadencia coincide con un crawler de entrenamiento y el patrón de rutas coincide con un barrido de crawl y no con un acceso dirigido, la petición es probablemente legítima. Regístrala como no-verificada-pero-consistente.

Para el tráfico agent-on-behalf-of-user — un agente ChatGPT comprando un billete, una sesión de Claude para navegar, un agente a medida sobre el Model Context Protocol de Anthropic —, la identificación sube una capa. Los servidores MCP exponen capacidades a los agentes por canales autenticados, con bearer tokens en la capa MCP y no en HTTP. La pregunta de verificación pasa a ser si el agente presentó un token válido y qué operador lo emitió.

Un publisher tiene que elegir lente. Un CTO de redacción se preocupa sobre todo por los crawlers de entrenamiento y de recuperación — esos consumen contenido de archivo y están en el centro de la conversación de licenciamiento. Una plataforma de e-commerce DTC se preocupa sobre todo por el tráfico agent-on-behalf-of-user, porque esos agentes cierran compras y van en una ruta verify-and-allow. Una plataforma de docs SaaS se preocupa sobre todo por indexadores de búsqueda y crawlers de recuperación, porque su contenido tiene que ser citado. La mezcla de señales es la misma. La política no.

Cómo responder a agentes no verificados

Verificación sin respuesta es un fichero de log. Tres respuestas cubren casi todos los casos.

Bloquea a los que no pasan consistencia básica. Una petición con user agent GPTBot desde una IP residencial, un fingerprint TLS de curl-impersonate y un ritmo de ráfaga de 200 páginas por minuto no es GPTBot. Tírala en el edge. Los costes de origen y la fuga de licenciamiento bajan a la vez.

Desafía a los de la zona gris. Un fingerprint que no has visto antes, consistente con un navegador headless, pidiendo páginas que pediría un lector humano. Una comprobación intersticial o un reto proof-of-work separa a un desarrollador curioso probando un agente de un scraper comercial detrás de proxies residenciales. El reto es barato para un usuario real, caro para un pool scraper.

Verify-and-allow al resto. Esta es la respuesta impopular y suele ser la correcta. La tasa de bloqueo del 2,98 % que midió Cloudflare Radar sobre bots de IA en los sitios top de un millón no es un fallo del bot management — es señal de que la mayoría de operadores concluyeron que el bloqueo total cuesta más de lo que ahorra. El default correcto para un indexador de búsqueda verificado, un crawler de recuperación verificado o un agente verificado con un pase firmado es dejarlo pasar, registrar al operador y vigilar el volumen acumulado. Bloquear sólo entra en la mesa cuando un operador concreto falla la verificación o excede un presupuesto que has fijado.

La verificación no es lo mismo que seguridad. Un operador legítimo de GPTBot puede correr su crawler detrás de un pool de proxies residenciales. Una sesión real de Claude-User puede estar gobernada por un script de abuso en el otro extremo. La verificación confirma al operador. El comportamiento del operador es otro chequeo.

Esa es la capa que Centinel implementa para publishers que no quieren mantener su propio directorio. Cada petición se contrasta con más de 1.600 perfiles de agentes de IA, se comprueba por consistencia entre capas y se despacha a una política por agente — bloquear, permitir, desafiar o cobrar — en menos de 2 ms al edge. La blocklist sigue al día porque los fingerprints siguen al día.

Puntos clave

Verificación no es detección. La detección pregunta si el cliente está automatizado. La verificación pregunta si la automatización es quien dice ser, y cada cifra de Cloudflare Radar, Tollbit y HUMAN Security señala que esa brecha se abre rápido.

Las señales se apilan. El user agent es gratis y suplantable. Los rangos publicados de IP y el reverse-DNS son baratos y difíciles de suplantar si mantienes el directorio al día. Los fingerprints de TLS y HTTP/2 cazan la cola larga. La firma criptográfica de peticiones es el futuro, no el presente. Una sola señal aislada es cara o cruz. La combinación es un veredicto.

La respuesta es política, no un único ajuste. Bloquear las suplantaciones claras, desafiar a las ambiguas, verify-and-allow a todo lo que se identifique honestamente. La tasa de bloqueo del 2,98 % de Cloudflare Radar es la respuesta actual del mercado.

Centinel corre esa capa de decisión al edge, con un directorio mantenido de fingerprints de agentes de IA y un motor de políticas que dispara por agente en menos de 2 ms. Para un publisher que no quiere construir y mantener el directorio, esa es la pipeline de verificación del operador en un solo componente.

Mira qué está rastreando tu sitio ahora mismo

Ejecuta una auditoría gratuita y obtén un informe detallado de qué crawlers IA acceden a tu contenido.

Obtén tu auditoría gratis