Anleitungen·8 Min. Lesezeit

Wie man KI-Crawler blockiert

Alle verfügbaren Methoden im Überblick — von robots.txt bis Edge-Level-Blockierung, mit Vor- und Nachteilen.

Was ist das Blockieren von KI-Crawlern?

Das Blockieren von KI-Crawlern bedeutet, automatisierten Clients den Zugriff zu verweigern, die Inhalte für KI-Training, Retrieval oder agentische Nutzung abgreifen. Die Methoden reichen von zwei Zeilen in robots.txt bis zur Anfrage-Erkennung am Edge, und sie unterscheiden sich scharf darin, was sie tatsächlich durchsetzen. Zwei Zeilen robots.txt stoppen regelkonforme Crawler. Für den Rest heißt Blockieren, den Request selbst zu inspizieren — TLS-Handshake, Header-Konsistenz, Verhaltenskadenz — und pro Anfrage zu entscheiden, bevor der Bot Origin erreicht.

Warum das Blockieren von KI-Crawlern jetzt wichtig ist

Das Volumen ist das Argument. Tollbit's Q4 2025 State of the Bots maß 9 Milliarden KI-Bot-Scrapes über 550 Milliarden Website-Besuche, wobei 2,9 Milliarden davon robots.txt komplett ignorierten. Publisher-Sites sahen ein Verhältnis von 1 KI-Bot zu 31 menschlichen Besuchen, gegenüber 1 zu 50 zwei Quartale zuvor. Cloudflare Radar misst 39 % der Top-Millionen-Sites als von KI-Bots besucht, während nur 2,98 % sie in robots.txt blockieren.

Die Lücke zwischen Policy und Durchsetzung ist der Ort, an dem Content-Diebstahl passiert. Eine Site, die sich nur auf robots.txt verlässt, informiert Crawler über ihre Präferenzen, sie verhindert nichts. Die Blocking-Debatte 2026 dreht sich darum, auf welcher Schicht die Durchsetzung tatsächlich lebt.

Arten von Blockierungsmethoden

Sechs Methoden decken die Landschaft ab, von der einfachsten bis zur wirkungsvollsten.

**robots.txt.** Direktiven hinzufügen, die bestimmte Crawler fernhalten. Um GPTBot zu blockieren, etwa `User-agent: GPTBot` gefolgt von `Disallow: /`. 30 Sekunden. Keine Code-Änderungen. Rein freiwillig — Tollbit-Daten zeigen, dass 30 % der KI-Scrapes robots.txt ignorieren, und ChatGPT-User hat 42 % der Sites abgerufen, die ihn blockiert hatten.

**HTTP-Header-Prüfungen.** Den User-Agent-Header inspizieren und bekannte KI-Crawler-Signaturen ablehnen, entweder im Webserver (Nginx, Apache) oder im Anwendungscode. Einfach umzusetzen. Trivial durch Umstellen des User-Agent-Strings zu umgehen.

**IP-Blocking.** IP-Bereiche bekannter KI-Unternehmen blockieren. OpenAI, Anthropic und andere veröffentlichen ihre Ranges. Schwerer zu umgehen als User-Agent-Checks. Ranges ändern sich häufig, und Residential-Proxy-Netzwerke routen den Block komplett aus.

**Rate Limiting.** Requests pro IP oder Session in einem Zeitfenster begrenzen. Reduziert Volumen ohne vollständige Sperre. Ausgefeilte Scraper verteilen Requests über Tausende IPs. Aggressive Limits treffen auch legitime Nutzer.

**JavaScript-Challenges.** Den Besucher zwingen, JavaScript auszuführen, bevor Inhalte ausgeliefert werden. Stoppt reine HTTP-Scraper. Moderne Werkzeuge (Playwright, Puppeteer, gepatchtes Chromium) rendern JavaScript vollständig. Fügt echte Nutzer-Latenz hinzu.

**Edge-Level-Erkennung.** Eine Detection-Schicht am CDN oder Edge, die jeden Request in Echtzeit analysiert. Kombiniert TLS-Fingerprinting, Verhaltensanalyse, IP-Reputation, Device-Fingerprinting und Crawler-Datenbank-Matching. Erwischt Crawler unabhängig von User-Agent oder IP. Sub-2ms-Latenz. Erfordert einen spezialisierten Anbieter. Centinel arbeitet auf dieser Ebene und gleicht gegen 1.600+ Crawler-Signaturen ab.

Wie Crawler-Blockierung funktioniert

Die sechs Methoden sind keine Ersatzoptionen. Sie sind Schichten, und jede fängt eine andere Klasse von Bots.

robots.txt filtert die ehrlichen Crawler, die die Datei lesen und gehen. Header- und IP-Checks filtern die trivial faulen Bots, die sich selbst zu erkennen geben. Rate Limiting filtert laute Scraper, die ein Origin zu hart treffen. JavaScript-Challenges filtern HTTP-Bibliotheken, die keinen Code ausführen können. Edge-Level-Erkennung filtert alles, was die vorherigen fünf überlebt, indem sie Signale auf niedriger Ebene inspiziert, die der Bot nicht billig fälschen kann.

Eine geschichtete Verteidigung ist günstiger und wirksamer als eine einzelne Methode am Limit. Der Bot, der Ihren User-Agent-Check besiegt, besiegt vielleicht nicht Ihren TLS-Check. Der, der TLS fälscht, scheitert vielleicht auf der zweiten Seite am Verhaltenscheck. Jede Schicht erhöht die Kosten der Umgehung.

Wie Sie identifizieren, welche Methode zu Ihrer Site passt

Beginnen Sie mit robots.txt als Basis. Es kostet nichts und erledigt regelkonforme Crawler. Kombinieren Sie es mit Header- und IP-Checks auf Serverebene — günstig, erwischt die trägen 20 %.

Für jede Site, auf der KI-Scraping ein handfestes Problem ist (Publisher, E-Commerce mit eigenen Katalogen, SaaS-Dashboards mit wertvollen Bildschirmen), fügen Sie Rate Limiting und Challenge-Seiten auf hochwertigen Routen hinzu. Für echten Schutz bei Volumen ist Edge-Level-Erkennung die Schicht, die durchsetzt statt informiert.

Die Entscheidung hängt davon ab, was auf der Seite steht. Eine Marketing-Seite verliert wenig, wenn sie gescraped wird. Ein Paywall-Publisher verliert das Geschäftsmodell. Je höher der Content-Wert, desto tiefer im Stack muss die Durchsetzung leben.

Wie Sie reagieren, wenn eine Methode umgangen wird

Jede Methode hat eine Gegenmaßnahme. Die Antwort ist nicht, eine Methode gegen eine andere zu tauschen — es ist, Detection so zu schichten, dass kein einzelner Bypass die Session gewinnt.

Beobachten Sie das Bypass-Signal. Ein Anstieg des Traffics aus einem bestimmten User-Agent, ASN oder TLS-Fingerprint nach einem Block zeigt, dass die Regel registriert und umgangen wurde. Eskalieren Sie eine Schicht tiefer: von UA-Filtern zu IP-Blocking, von IP-Blocking zu TLS-Fingerprinting, von TLS zu Verhaltensanalyse. Halten Sie die Fingerprint-Datenbank auf Taktung aktuell — veröffentlichte Crawler-Signaturen driften, neue kommen hinzu, und eine veraltete Datenbank verpasst Traffic, den eine aktuelle markiert hätte.

Zentrale Erkenntnisse

- robots.txt erwischt die ehrlichen Crawler und sonst nichts. Tollbit Q4 2025 misst 30 % der KI-Scrapes als robots.txt-Ignorierer, und ChatGPT-User hat 42 % der Sites durchbrochen, die ihn blockiert hatten. - Sechs Methoden decken die Landschaft: robots.txt, Header-Checks, IP-Blocks, Rate Limits, JavaScript-Challenges und Edge-Level-Erkennung. Jede fängt eine andere Bot-Klasse. - Geschichtete Verteidigung schlägt jede Einzelmethode am Limit. Edge-Level-Erkennung am CDN ist die einzige Schicht, die durchsetzt statt informiert. - Reaktion ist eine Taktung, keine Einmalsetzung. Bypass-Signale beobachten, Fingerprint-Datenbanken refreshen, eine Schicht tiefer eskalieren, wenn eine Methode umgangen wird.

Sehen Sie, was Ihre Website gerade crawlt

Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.

Kostenloses Audit starten