Zum Inhalt springen
Grundlagen·8 Min. Lesezeit

Was ist KI-Agent-Traffic?

KI-Agent-Traffic ist eine neue Traffic-Klasse — Trainings-Crawler, Retrieval-Crawler, agentische Workflows und gefälschte Scraper. Wie er sich von klassischem Bot-Traffic unterscheidet und was Publisher dagegen tun können.

Was ist KI-Agent-Traffic?

KI-Agent-Traffic ist automatisierter Web-Traffic, erzeugt von Software, die im Auftrag eines Large Language Models, eines Retrieval-Augmented-Generation-Systems oder eines autonomen Task-Agents handelt. Er ist nicht dasselbe wie klassischer Bot-Traffic. Ein klassischer Scraper extrahiert Daten nach Zeitplan für seinen Betreiber. Ein KI-Agent ruft eine Seite ab, weil ein Modell — oder ein Nutzer, der das Modell anspricht — in diesem Moment entscheidet, dass der Inhalt gebraucht wird, um eine Frage zu beantworten, einen Kauf abzuschließen oder ein Context-Window zu füllen.

Vier Arten von Software erzeugen ihn. Trainings-Crawler wie GPTBot, ClaudeBot, Google-Extended und Applebot-Extended durchforsten das Web, um Trainingskorpora aufzubauen. Retrieval-Crawler wie PerplexityBot und OAI-SearchBot rufen Seiten in Echtzeit ab, um eine Nutzerfrage zu beantworten. Agent-on-behalf-of-user-Traffic stammt von ChatGPT-Agenten, Anthropics Claude für Browsing und aufkommenden agentischen Frameworks, die Formulare absenden und Links für einen Menschen anklicken. Und ein langer Schwanz unbenannter Scraper — cohere-ai, CCBot, Meta-ExternalAgent und eine wachsende Liste von Startups, die hinter Residential-Proxies crawlen — liegt dazwischen.

Er hebt die alte Unterscheidung zwischen Bot und Besucher auf. Der Request kommt von einem automatisierten Client. Die Absicht dahinter entstand Sekunden zuvor bei einer Person, die einem Chatbot eine Frage gestellt hat.

Warum KI-Agent-Traffic gerade jetzt zählt

Volumen ist die kurze Antwort. HUMAN Securitys Intelligence-Bericht 2025 maß ein Wachstum des KI-Agent-Traffics von 7.851 % über das Jahr 2025. Cloudflare Radar meldet, dass Anfang 2026 39 % der Top-Millionen-Websites von KI-Bots aufgerufen wurden, während nur 2,98 % dieser Seiten sie aktiv blockieren. Tollbits Q4-2025-Bericht zeigte auf Publisher-Seiten ein Verhältnis von 1 KI-Bot-Besuch je 31 menschlicher Besuche, zwei Quartale zuvor war es noch 1 zu 50.

Bandbreite ist die zweite Antwort. Cloudflare maß für Anthropic 2025 ein Crawl-zu-Referral-Verhältnis von rund 500.000 zu 1 — eine halbe Million abgerufener Seiten für jeden zurückgeschickten Besucher — und der Trainings-Crawl-Traffic stieg in sechs Monaten um 65 %. Jeder Seitenaufruf ist Origin-Kost. Jeder Archiv-Sweep ist ein Cache-Miss.

Die dritte Antwort ist kommerziell. KI-Agenten sind die neue Instanz zwischen Ihren Inhalten und dem Leser. Ein Publisher-Artikel, gelesen in ChatGPT, zusammengefasst von Perplexity oder zitiert in einem AI Overview, produziert keine Werbe-Impression, keine Abo-Aufforderung, keine direkte Leserbeziehung. Der Traffic ist real. Der Monetarisierungsweg ist es nicht.

Klassisches Bot-Management wurde für ein anderes Problem gebaut. Scraper blockieren und KI-Agenten blockieren sind nicht dieselbe Entscheidung, und beide gleich zu behandeln trennt Sie entweder von einem Such-Kanal, in dem Sie erscheinen wollen, oder lässt einen Trainings-Crawler durch, den Sie lieber berechnen würden.

Arten von KI-Agent-Traffic

Vier klar unterscheidbare Typen tauchen in Server-Logs auf, jeder mit anderen kommerziellen Folgen.

**Trainings-Crawler.** Betrieben von Modell-Unternehmen, um Trainingsdatensätze aufzubauen. GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended, Bytespider (ByteDance), Applebot-Extended und CCBot (Common Crawl, dessen Daten viele kleinere Modell-Firmen speisen) sind die Hauptbeispiele. Diese Crawler durchsuchen breit und kehren häufig zurück. Ihre Requests sind die klarsten Kandidaten für Lizenzierung: Der Betreiber hat ein Budget für Datenakquise, und der juristische Druck rund um unlizenziertes Training steigt.

**Retrieval- und Grounding-Crawler.** Rufen Seiten zum Anfrage-Zeitpunkt ab, um die Antwort eines Modells zu begründen. PerplexityBot, OAI-SearchBot (OpenAIs Such-Crawler, getrennt von GPTBot) und ChatGPT-User sind die benannten. Tollbit maß, dass ChatGPT-User auf 42 % der Seiten zugriff, die ihn explizit blockiert hatten. Diese Crawler sind näher an Such-Indexern als an Trainings-Crawlern, senden aber keinen Referral-Traffic wie Googlebot.

**Agentischer Traffic.** Erzeugt von KI-Agenten, die für einen bestimmten menschlichen Nutzer handeln. Ein ChatGPT-Agent, der Flugpreise prüft. Ein Anthropic-Claude-Agent, der für eine Arbeit recherchiert. Browser-use und ähnliche Frameworks, die einen Workflow im Auftrag eines Nutzers durchklicken. Der Request kommt von einem Headless-Browser auf Cloud-Infrastruktur, oft über Residential-Proxies geroutet, mit Verhalten, das wie ein Mensch aussieht — bis es das nicht mehr tut.

**Unbenannte und gefälschte Crawler.** Die größte und unübersichtlichste Kategorie. cohere-ai, Meta-ExternalAgent und eine lange Liste kleinerer Betreiber. Kommerzielle Scraping-Dienste (BrightData, Oxylabs, ScraperAPI), die Zugang zu rotierenden Residential-IP-Pools verkaufen. Trainings- und Retrieval-Crawler, die sich nicht zu erkennen geben. DataDomes 2024-Bericht fand, dass 95 % der fortgeschrittenen Bot-Angriffe der passiven Inspektion entgehen, und 83 % der einfachen curl-basierten Bots unentdeckt bleiben. Unbenannter Traffic ist dort, wo die Lizenzeinnahmen versickern.

Wie KI-Agent-Traffic funktioniert

Mechanisch ist KI-Agent-Traffic HTTP. Jeder Request hat einen User Agent, einen TLS-Handshake, ein Set von HTTP/2-Settings und einen Body. Was KI-Agent-Traffic von Browser-Traffic trennt, ist der Software-Stack, der den Request sendet, und die Absicht dahinter.

Trainings-Crawler sind am einfachsten. Ein Scheduler läuft, ein Fetcher öffnet eine HTTP-Verbindung, ein Parser extrahiert Text und Links, die Ergebnisse landen in einem Dataset. GPTBot und ClaudeBot veröffentlichen IP-Bereiche und respektieren robots.txt meistens. Ihr Fußabdruck in Logs ist vorhersehbar: ein konsistenter User Agent, ein konsistenter TLS-Fingerprint, eine stetige Request-Kadenz.

Retrieval-Crawler sind zustandsbehaftet. Wenn ein Nutzer einem Chatbot eine Frage stellt, entscheidet das Modell, welche Seiten abgerufen werden. PerplexityBot oder OAI-SearchBot öffnet Verbindungen zu diesen URLs, holt den Inhalt und reicht ihn in wenigen Sekunden an das Modell zurück. Das Request-Muster ist stoßweise — viele Seiten aus verschiedenen Domains parallel abgerufen — und wird vom Anfragevolumen getrieben, nicht von einem Crawl-Zeitplan.

Agentischer Traffic ist am schwersten zu charakterisieren. Ein KI-Agent, der einen Workflow ausführt, verwendet je nach Aufgabe einen gepatchten Chromium-Build, einen Headless-Browser oder einen direkten HTTP-Client. Viele routen über Residential-Proxies, um Rate-Limiting zu vermeiden. Einige nutzen curl-impersonate, uTLS oder ähnliche Bibliotheken, um den TLS-Handshake eines echten Browsers byte-genau nachzubilden. Der User-Agent-String ist, was immer der Betreiber zu senden beschlossen hat.

Spoofing ist die dominante Taktik am langen Ende. Ein Scraper rotiert durch tausende Residential-IPs, wechselt User Agents pro Request und nutzt eine TLS-Bibliothek, die Chromes JA3/JA4-Fingerprint reproduziert. An der Oberfläche ist der Traffic von einem menschlichen Besucher nicht zu unterscheiden. Erst wenn Sie Signale über Schichten hinweg vergleichen — TLS-Handshake, HTTP/2-SETTINGS-Frame, Verhaltensmuster, Request-Rate — wird der Widerspruch sichtbar.

Wie man KI-Agent-Traffic identifiziert

User Agents sind der Ausgangspunkt, nicht die Antwort. GPTBot, ClaudeBot, Google-Extended, Applebot-Extended, PerplexityBot, cohere-ai, CCBot, Meta-ExternalAgent — die großen Betreiber veröffentlichen ihre Strings. Dies in Ihren Logs zu matchen identifiziert den regelkonformen Traffic, also jenen, der ohnehin am wenigsten Probleme macht.

Für den Rest brauchen Sie Signale auf Request-Ebene, die der Client nicht vollständig kontrolliert.

**TLS-Fingerprinting.** Der Client Hello eines TLS-Handshakes legt die Cipher-Suites, die Extensions und deren Reihenfolge der zugrundeliegenden Bibliothek offen. Pythons requests erzeugt eine Signatur, curl eine andere, echtes Chrome eine dritte. JA4 (und seine Ableger JA4S, JA4H) hashen diese Signale zu einem Fingerprint, der gegen Extension-Randomisierung resistent ist. Cloudflare verfolgt täglich rund 15 Millionen eindeutige JA4-Fingerprints am Edge. Ein Python-TLS-Stack, der Chrome vorgibt, wird vor dem HTTP-Body gefangen.

**HTTP/2-Settings.** Chrome sendet ein WINDOW_UPDATE von ~15 MB in seinem ersten SETTINGS-Frame. Firefox sendet ~12,5 MB. Die meisten HTTP-Libraries senden null. Die Pseudo-Header-Reihenfolge (`:method`, `:authority`, `:scheme`, `:path`) ist pro Browser fest und passt nicht zu dem, was Libraries standardmäßig senden.

**Verhaltensmuster.** Request-Kadenz, Pfadmuster, Wiederbesuchs-Intervalle und Session-Kohärenz. Ein echter Leser, der einen Artikel liest, verweilt. Ein Trainings-Crawler bewegt sich mit konstanter Rate. Ein gefälschter Scraper sprintet in einer Minute durch hundert Seiten.

**Cross-Layer-Konsistenz.** Der entscheidende Check. Ein Request, der sich per User Agent als Chrome ausgibt, einen TLS-Fingerprint von curl-impersonate trägt und HTTP/2-Settings aus einer Go-Library hat, ist ein KI-Agent, der zweimal gelogen hat. Jedes einzelne Signal ist fälschbar. Die Kombination nicht, weil die Spoofing-Libraries nicht jede Schicht konsistent abdecken.

Wie man auf KI-Agent-Traffic reagiert

Sie haben drei Reaktionen, sobald der Traffic identifiziert ist: blockieren, verifizieren oder monetarisieren. Wählen Sie pro Agent, nicht pro Traffic-Quelle.

**Blockieren.** Für Trainings-Crawler, die Sie nicht lizenziert haben. Für Scraper, die robots.txt ignorieren. Für gefälschten Traffic, der die Cross-Layer-Konsistenz nicht besteht. Blockieren am Edge, damit der Origin den Request nie sieht und Ihre Bandbreitenrechnung nicht wegen ihm wächst.

**Verifizieren und zulassen.** Für Such-Indexer, in denen Sie erscheinen wollen. Für Partner-Agenten. Für Agent-on-behalf-of-user-Traffic, den Sie durchlassen, aber auditieren wollen. Lassen Sie den Request mit einem signierten Trust-Stempel passieren, loggen Sie die Identität des Agenten und beobachten Sie das kumulierte Volumen pro Betreiber. Googlebot, Bingbot und verifizierte KI-Such-User-Agents gehören per Default auf eine Allowlist — Cloudflares 2,98 %-Blockrate zeigt, dass die meisten Betreiber sich nicht von der Suche abschneiden.

**Monetarisieren.** Für Trainings-Crawler, die eine Lizenzgebühr zahlen. Für Retrieval-Crawler, deren Betreiber Umsatz teilen können. Das kommerzielle Gespräch läuft. OpenAI, Perplexity und Google haben Lizenzverträge mit Publishern unterzeichnet. Einem unlizenzierten Crawler pro Request, pro Artikel oder als Bulk-Lizenz zu berechnen, ist der dritte Hebel — ein Hebel, den klassisches Bot-Management nicht hatte.

robots.txt allein wird nichts davon ausführen. Tollbit maß, dass 30 % der KI-Bot-Scrapes in Q4 2025 explizite robots.txt-Berechtigungen ignorierten. Die Datei ist ein Hinweis. Durchsetzung lebt am Edge, in einer Schicht, die den Request prüft, bevor er den Origin erreicht.

Wichtige Erkenntnisse

KI-Agent-Traffic ist nicht klassischer Bot-Traffic. Er ist eine neue Kategorie, die Trainings-Crawler, Retrieval-Crawler, agentische Workflows und einen langen Schwanz unbenannter Scraper umfasst. Das Volumen ist bereits groß und wächst schnell — HUMAN Security maß 7.851 % Wachstum in 2025, Cloudflare sieht 39 % der Top-Seiten von KI-Bots besucht, und Tollbit sieht ein 1-zu-31-Verhältnis auf Publisher-Inhalten.

Die Antwort ist keine einzelne Einstellung. Jede Agent-Klasse verlangt eine andere Entscheidung: Trainings-Crawler blockieren, die Sie nicht lizenziert haben, Such-Indexer und Partner-Agenten verifizieren und zulassen, Betreiber monetarisieren, die zahlen, und gefälschten Traffic verwerfen, der die Cross-Layer-Prüfung nicht besteht. robots.txt ist, wo das Gespräch beginnt. Durchsetzung passiert am Edge.

Centinel identifiziert 1.600+ KI-Agent-Fingerprints in Echtzeit, wendet TLS- und HTTP/2-Signalprüfungen an, die User-Agent-Spoofing überstehen, und führt Block-, Verify- oder Monetize-Entscheidungen pro Agent in unter 2 ms aus. Das ist die Schicht zwischen Ihnen und den 7.851 % neuen Traffics, die nicht um Erlaubnis gefragt haben.

Sehen Sie, was Ihre Website gerade crawlt

Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.

Kostenloses Audit starten