Anleitungen·8 Min. Lesezeit

Warum eine Interstitial-Challenge-Seite unvermeidlich ist

Warum passive Bot-Erkennung gegen moderne Scraper nicht mehr reicht und eine Interstitial-Challenge der einzig zuverlässige Schutz vor KI-Crawlern ist.

Was ist eine Interstitial-Challenge?

Eine Interstitial-Challenge ist ein Verifikations-Gate, das vor dem eigentlichen Inhalt geladen wird. Die Seite schleust ein kleines Stück Code ein — ein Rechen-Puzzle, eine Web-API-Sonde, einen Browser-Quirk-Test — und der Client muss es korrekt ausführen, um weiterzukommen. Kein Code ausgeführt, kein Inhalt ausgeliefert.

Das Modell dreht die Verifikationsfrage um. Passive Erkennung fragt *was ist der Client?* und prüft die Signale, die der Client freiwillig sendet. Eine Interstitial-Challenge fragt *was kann der Client?* und misst, was der Client tatsächlich ausführt. Das Erste lässt sich mit einer guten Bibliothek fälschen. Das Zweite verlangt, den Code zu laufen, und Code laufen zu lassen ist das, was Scraper bei Volumen am härtesten vermeiden.

Wenn Sie unseren Primer zum TLS-Fingerprinting nicht gelesen haben, beginnen Sie dort: [TLS-Fingerprinting erklärt](/de/learn/tls-fingerprinting-explained).

Warum Interstitial-Challenges jetzt wichtig sind

TLS-Fingerprinting erkennt Bots anhand der ersten Bytes einer Verbindung. Jahrelang hat das funktioniert. 2023 hat Chrome die vorherrschende Fingerprinting-Methode gebrochen, und eine Reihe von Spoofing-Tools füllte die Lücke. Passive Erkennung stoppt moderne Scraper nicht mehr.

JA3 funktionierte, indem es Cipher-Suites und TLS-Erweiterungen hashte. Dann begann Chrome, die Reihenfolge seiner TLS-Erweiterungen zu randomisieren. Ein Chrome-Client mit 16 Erweiterungen in zufälliger Reihenfolge erzeugt 16 Fakultät verschiedene JA3-Hashes, rund 20,9 Billionen. Stamus Networks stellte fest, dass JA3 als Kennung für Clients und User-Agents nutzlos geworden sei (Stamus Networks, 2024).

JA4 löste das Sortierungsproblem. Aber Tools wie curl-impersonate, uTLS und Noble TLS reproduzieren echte Browser-Handshakes aus Skripten. Der Fingerprint ist nicht mehr etwas, das der Client übermittelt. Es ist etwas, das er wählt.

DataDome fand 2024, dass es einfacher geworden sei, alle Arten von Signalen zu fälschen, auch Low-Level-Signale, die früher schwer konsistent zu fälschen waren (DataDome, 2024). Nur 15,82 % der Bots, die Chrome imitierten, wurden erkannt. 83 % der einfachen curl-basierten Bots blieben unentdeckt (DataDome, 2024). CAPTCHA-Lösungsdienste kosten jetzt 0,80 $ pro 1.000 Lösungen, runter von 3 $ im Jahr 2018 (DataDome, 2024). 95 % der fortgeschrittenen Bot-Angriffe bleiben unerkannt (DataDome, 2024). Ein System, das nur auf die vom Client gesendeten Signale vertraut, vertraut dem Angreifer.

Arten von Interstitial-Challenges

Vier Challenge-Familien decken ab, was Produktionssysteme tatsächlich ausrollen.

**JavaScript-Execution-Sonden.** Ein Payload läuft in der Seite und misst Verhaltensweisen, die nur echte Browser produzieren. Cloudflares Turnstile ist das kanonische Beispiel: es führt im Hintergrund nicht-interaktive Tests aus, die Signale über die Besucher- oder Browser-Umgebung sammeln (Cloudflare, 2024). Der Besucher sieht nichts oder allenfalls einen kurzen Lade-Indikator. Cloudflare meldet, dass dies die durchschnittliche Challenge-Zeit von 32 Sekunden in der alten visuellen CAPTCHA-Ära auf rund eine Sekunde reduziert hat (Cloudflare, 2024).

**CAPTCHA (interaktiv).** Klassische visuelle oder auditive Puzzles, die eine menschliche Antwort verlangen. Noch im Einsatz für Hochrisiko-Aktionen (Account-Anlage, Zahlung), aber als Massen-Detection-Schicht abgewertet, weil Lösungsfarmen CAPTCHAs zu den genannten Kosten und Tempi durchreichen.

**Proof-of-Work.** Der Client muss ein kryptografisches Puzzle rechnen, bevor er Inhalte bekommt. Das Anubis-Projekt, genutzt von Arch Wiki, GNOME, WineHQ, FFmpeg und UNESCO, stellt eine SHA-256-Challenge: Finde eine Nonce, sodass der Hash aus (Challenge + Nonce) N führende Nullen hat. Ein echter Browser löst das in Millisekunden. Ein einzelner menschlicher Besucher merkt es kaum. Ein Botnet, das Tausende Seiten pro Minute trifft, zahlt diese CPU-Kosten bei jedem Request, und die Summe wird relevant.

**Verhaltens- und Web-API-Sonden.** Maus-Timing, Zeiger-Präzision und Prüfungen auf APIs, die nur echte Browser implementieren (Speicher-Quotas, Permission-States, Rendering-Engine-Quirks). Die Seite prüft, ob die Rendering-Engine so reagiert wie die, die der Fingerprint behauptet.

Wie Interstitial-Challenges funktionieren

Eine Interstitial-Challenge dreht das Verifikationsmodell um. Statt zu fragen *was ist der Client?* fragt sie *was kann der Client?*

Der Mechanismus wirkt, weil er keinem Signal vertraut, das der Client gesendet hat. Er erzeugt ein neues Signal an Ort und Stelle, in einer Umgebung, die der Client nicht fälschen kann, ohne den Code tatsächlich auszuführen.

Cloudflares Turnstile passt das Challenge-Ergebnis an den einzelnen Besucher oder Browser an. Zuerst läuft eine Reihe kleiner nicht-interaktiver JavaScript-Challenges, um Signale über Besucher oder Umgebung zu sammeln (Cloudflare, 2024). Proof-of-Work geht einen Schritt weiter und zwingt den Client, CPU zu verbrennen, bevor er ausgeliefert wird. Verhaltenssonden sitzen oben drauf — ob die Rendering-Engine die Quirk-Werte eines echten Chrome zurückgibt, ob die Web-APIs mit den Latenzen eines echten Browsers antworten.

Die Ökonomie des KI-Crawlings macht Challenges besonders wirksam. Anthropics Crawl-zu-Referral-Verhältnis erreichte 500.000:1 — pro einer Referral-Traffic-Rückleitung wurden eine halbe Million Seiten gecrawlt (Cloudflare, 2025). Das Volumen wächst: KI-Training-Crawl-Traffic legte in sechs Monaten um 65 % zu, KI-Agent-Crawling im Jahr 2025 um mehr als das Fünfzehnfache (Cloudflare, 2025). Bei diesen Mengen summieren sich Pro-Seiten-Kosten. Eine Challenge, die einen echten Browser eine Sekunde kostet, kostet eine Headless-Chrome-Instanz dasselbe, aber die Headless-Instanz braucht zusätzlich CPU-Allocation, Speicher, eine volle Rendering-Engine und Netzwerk-Koordination. Einfache HTTP-Scraper (curl, Python requests, Go net/http) können gar kein JavaScript. Sie treffen die Challenge-Seite und bekommen nichts. Der Schritt zu Headless-Browsern bringt Kosten, Latenz und eine neue Detection-Oberfläche.

Wie Sie identifizieren, welche Inhalte eine Challenge brauchen

Nicht jede Seite braucht ein Interstitial. Challenges haben einen kleinen UX-Preis, und die richtigen Orte sind die Routen, an denen Scraping am teuersten oder schädlichsten ist.

Beginnen Sie mit hochwertigen Inhalten: Paywall-Artikel, proprietäre Preisseiten, Such-APIs, RSS-Feeds und jeder Endpunkt, der strukturierte Daten im Maßstab zurückgibt. Ergänzen Sie Authentifizierungs-Flows, bei denen in der ersten Märzwoche 2025 94 % der Authentifizierungs-Requests im Internet von Bots kamen (Cloudflare, 2025). Lassen Sie Marketingseiten mit geringem Wert ohne Challenge, wenn die Friction-Kosten die Scraping-Kosten übersteigen.

Adaptives Risk-Scoring nimmt die Entscheidung von der Seite und legt sie in die Session. Niedrig-Risiko-Besucher (saubere IP, normaler Fingerprint, wiederkehrende Session) überspringen Challenges. Hoch-Risiko-Besucher (Residential-Proxy, widersprüchlicher Fingerprint, First-Touch-Session) sehen sie. Der UX-Preis fällt auf den Traffic, der ihn verdient hat.

Open-Source-Alternativen wie Anubis zeigen denselben Punkt. Es läuft auf Arch Wiki, GNOME, WineHQ, FFmpeg und der Infrastruktur der UNESCO. Millionen Besucher merken die Challenge nicht. Die Schwierigkeit skaliert: niedrig genug, damit menschliche Browser sie ohne spürbare Verzögerung lösen, hoch genug, damit Botnets die Kosten im Maßstab spüren.

Wie Sie auf Challenge-Bypass-Versuche reagieren

Keine Verteidigung ist dauerhaft. Challenges sind keine Ausnahme, und die Antwort ist Schichtung statt Einzellösung.

Anti-CDP-Frameworks wie nodriver (über 590 GitHub-Stars Mitte 2024) und Ghost-Cursor-Bibliotheken sind gebaut, um JavaScript-Sonden zu passieren und gleichzeitig die Chrome-DevTools-Protocol-Signale zu vermeiden, die ein Detektor normalerweise fangen würde. Die Antwort ist, auf Bypass-Indikatoren zu achten — eine Challenge, die in unnatürlich konsistenter Zeit gelöst wird, eine abnormal hohe Pass-Rate aus einem einzigen ASN, Cursor-Pfade, die auf geometrisch sauberen Kurven am Submit-Button ankommen — und das Challenge-Payload zu refreshen. Challenge-Inhalt sollte rotieren. Clientseitige Tests sollten aus einem Pool ziehen statt zu wiederholen. Adaptive Schwierigkeit sollte anziehen, wenn eine Session aussieht, als hätte sie den Test schon gesehen.

robots.txt ist das Signal dafür, was versagt hat. Nur 37 % der Top-10.000-Domains haben überhaupt eine robots.txt-Datei (Cloudflare, 2025). 30 % der KI-Bot-Scrapes in Q4 2025 haben robots.txt-Berechtigungen ignoriert (Tollbit, 2025). 42 % der ChatGPT-User-Scrapes griffen auf Inhalte zu, die sie explizit blockiert hatten (Tollbit, 2025). Eine Challenge-Seite ist keine Bitte. Sie ist ein technisches Tor.

Zentrale Erkenntnisse

- Passive Erkennung verfehlt 95 % der fortgeschrittenen Bot-Angriffe (DataDome, 2024). TLS-Fingerprinting ist mit curl-impersonate und uTLS fälschbar. robots.txt wird von 30 % der KI-Bot-Scrapes ignoriert (Tollbit Q4 2025). Das einzige Signal, das ein Bot nicht fälschen kann, ist eines, das er auf Anfrage erzeugt, in einer Umgebung, die Sie kontrollieren. - Vier Challenge-Familien decken den Produktionsalltag: JavaScript-Execution-Sonden, CAPTCHA, Proof-of-Work und Verhaltens-/Web-API-Sonden. Cloudflares Turnstile läuft in rund einer Sekunde, nach 32 Sekunden in der CAPTCHA-Ära. - Challenges gehören auf hochwertige Routen (Paywalls, Preisseiten, Such-APIs, Authentifizierung). Adaptives Risk-Scoring hält Niedrig-Risiko-Besucher friction-frei und konzentriert den UX-Preis auf Traffic, der ihn verdient hat. - Challenges sind die Durchsetzungsschicht, kein Ersatz für Fingerprinting oder Verhaltensanalyse. Centinel integriert Challenge-basierte Verifizierung mit 1.600+ Crawler-Fingerprints und geschichteter Verhaltenserkennung.

Sehen Sie, was Ihre Website gerade crawlt

Starten Sie ein kostenloses Audit und erhalten Sie einen detaillierten Bericht darüber, welche KI-Crawler auf Ihre Inhalte zugreifen.

Kostenloses Audit starten