robots.txt für KI-Bots: Vollständiger Leitfaden
robots.txt für KI-Crawler richtig konfigurieren: alle Direktiven, die wichtigsten Bots und warum robots.txt allein nicht reicht.
Was ist robots.txt
robots.txt ist eine Textdatei im Root Ihrer Website (ihresite.com/robots.txt), die automatisierten Clients mitteilt, welche Pfade sie besuchen dürfen. Es ist der älteste Standard des Webs für die Kommunikation mit Crawlern, 1994 für Suchmaschinen entworfen und heute im Zentrum der KI-Crawler-Debatte.
Die Datei ist eine Sammlung von Direktiven. User-agent wählt den Crawler. Disallow listet gesperrte Pfade. Allow schnitzt Ausnahmen in gesperrte Bereiche.
Warum robots.txt gerade jetzt wichtig ist
robots.txt ist die öffentliche Aussage Ihrer Crawling-Policy — und 2026 die meistignorierte Datei im Web.
Tollbit’s Q4 2025 State of the Bots berichtete, dass rund 30 % der KI-Bot-Scrapes robots.txt-Anweisungen vollständig ignorieren. Derselbe Bericht maß, dass ChatGPT-User 42 % der Websites abruft, die ihn explizit in der robots.txt blockiert hatten. Auf der Gegenseite: Cloudflare Radar misst, dass 39 % der Top-Millionen-Websites von KI-Bots aufgerufen werden, während nur 2,98 % sie blockieren.
Diese Lücke macht die Datei sowohl wichtig als auch unzureichend. Sie ist das Erste, was ein regelkonformer Crawler liest, und das Erste, was ein Anwalt zitiert. Sie ist für sich genommen keine Durchsetzung.
Arten von robots.txt-Direktiven für KI-Crawler
KI-Crawler werden pro User-Agent adressiert. Die wichtigsten Strings 2026: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Google-Extended, Bytespider, Applebot-Extended, CCBot, PerplexityBot, Amazonbot, Meta-ExternalAgent, cohere-ai.
Drei Konfigurationen decken die meisten Policies ab. **Alle KI-Crawler blockieren, Suchmaschinen erlauben**: eine Disallow-Regel pro KI-User-Agent, Googlebot und Bingbot bleiben erlaubt. **KI-Crawler zulassen, aber auf bestimmte Bereiche beschränken**: granulare Allow/Disallow-Pfade pro User-Agent — zum Beispiel /public/ erlauben und /archive/ für GPTBot sperren. **Pauschal zulassen**: ein einziges User-agent: * mit leerem Disallow — der Default-Status für die 97 % der Top-Millionen-Sites, die heute für KI-Bots zugänglich sind.
Die Einschränkung: robots.txt kann ehrliche Identifikation nicht von gespooftem User-Agent trennen und keine unterschiedlichen Policies für verschiedene Verwendungszwecke desselben Crawlers setzen.
Wie robots.txt funktioniert
Crawler sollen /robots.txt vor dem Crawlen abrufen, die Direktiven parsen und die Regeln für ihren User-Agent befolgen. Das Protokoll basiert auf Ehrlichkeit. Ein Crawler, der die Datei ignoriert, stößt auf keine technische Barriere.
Das Matching erfolgt nach längstem Präfix pro User-Agent, mit Fallback auf User-agent: *. Groß-/Kleinschreibung bei Pfaden gilt auf den meisten Servern. Die Datei wird bei Google bis zu 24 Stunden gecacht — eine Policy-Änderung braucht Zeit.
Und die Datei ist öffentlich. Jeder kann ihresite.com/robots.txt lesen, inklusive der Crawler, die Sie blockieren wollen.
Wie Sie erkennen, wenn robots.txt ignoriert wird
Drei Prüfungen schließen die Lücke. **Log-Abgleich gegen deklarierte Sperren**: Grep Ihrer Access-Logs nach User-Agents, die Sie gesperrt haben — jeder Treffer ist entweder ein Crawler, der es nicht mitbekommen hat, oder einer, der die Datei gelesen und trotzdem weitergemacht hat. **User-Agent-Ehrlichkeit**: Ein GPTBot-Request sollte aus einer IP im OpenAI-Range kommen; Googlebot sollte per Reverse-DNS auf einen Google-Host auflösen. **Trend der gesperrten User-Agents**: Wenn das Volumen nach dem Disallow nicht sinkt, informieren Sie den Betreiber, Sie setzen nichts durch.
Wie Sie Crawler-Umgehung verhindern, wenn robots.txt versagt
Für durchsetzbare Zugangskontrolle brauchen Sie eine Schicht, die Crawler unabhängig von ihrer angegebenen Identität identifiziert und pro Anfrage entscheidet.
Diese Schicht sitzt am Edge, bevor die Anfrage das Origin erreicht. Sie gleicht den TLS-Fingerprint mit einer Bibliotheks-Signatur ab, prüft das HTTP/2-SETTINGS-Frame auf Browser-gegen-Bibliothek-Marker, korreliert den User-Agent mit dem autonomen System der IP und läuft gegen eine Datenbank bekannter Crawler-Signaturen — Centinel pflegt 1.600+. Ein Scraper, der curl-impersonate nutzt, um wie Chrome auszusehen, wird am TLS-Handshake gefangen, nicht am Request-Body.
Einmal identifiziert, kann der Crawler blockiert, verifiziert und durchgelassen oder zu einem Lizenzpfad umgeleitet werden. Keine dieser Optionen existiert in robots.txt. Alle drei sind Entscheidungen pro Anfrage.
Key Takeaways
- robots.txt ist die öffentliche Aussage Ihrer Policy und das Erste, was ein regelkonformer Crawler liest — aber 30 % der KI-Bot-Scrapes ignorieren sie, und 42 % der Sites, die ChatGPT-User blockiert haben, sehen ihn weiter (Tollbit Q4 2025). - Aktualisieren Sie die Datei regelmäßig, wenn neue KI-Crawler auftauchen (GPTBot, ClaudeBot, Google-Extended, ChatGPT-User, Applebot-Extended, Meta-ExternalAgent sind die relevanten 2026). - Verwenden Sie robots.txt als Basis, nicht als alleinige Verteidigung. Sie trennt nicht ehrliche Identifikation von Spoof und setzt keine Pro-Zweck-Policies. - Durchsetzung lebt am Edge: TLS-Fingerprinting, HTTP/2-Checks und eine Crawler-Signatur-Datenbank verwandeln die Höflichkeitsnotiz in eine echte Policy.
Sehen Sie, was Ihre Website gerade crawlt
Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.
Kostenloses Audit starten