robots.txt Generator
robots.txt erstellen mit Vorlagen für WordPress, Shopware, Next.js und mehr. Mit AI-Crawler-Optionen.
AI-Crawler blockieren
So funktioniert das Tool
robots.txt ist die erste Datei, die jeder Crawler abruft, bevor er deine Site indexiert. Sie sagt: „du darfst, du darfst nicht, deine Sitemap liegt hier”. Unser Generator macht aus deinen Anforderungen (was sollen Bots crawlen, was nicht, welche User-Agents speziell behandeln) eine syntaktisch korrekte robots.txt — mit Vorlagen für die häufigsten CMS (WordPress, Shopware, Next.js). Du kopierst den Output in /robots.txt und bist fertig.
Typische Anwendungsfälle
Neue Site aufsetzen
Default robots.txt für ein Next.js-Projekt: alle Bots erlaubt, /api/ und /_next/static/ disallowed, Sitemap-URL annotiert. Spart das Nachschlagen der Konventionen.
Staging-Site komplett blocken
User-agent: * + Disallow: / — kein Crawler kommt rein. Wichtig: zusätzlich HTTP-Auth, weil robots.txt nicht zwingend befolgt wird (manche Bots ignorieren).
Spezifische Crawler limitieren
Aggressive Scraper wie SEMrushBot oder AhrefsBot mit eigenen Regeln einschränken, ohne den Google-Bot zu behindern.
Sensitive Verzeichnisse ausschließen
Admin-Bereiche, Suchergebnis-Seiten (verhindert SERP-Duplicate-Content), Internal-Tool-Routes — alles per Disallow-Pattern.
Häufige Fragen
Welche User-Agents soll ich nennen?
User-agent: * gilt für alle. Häufige spezielle: Googlebot, Bingbot, Slurp (Yahoo), DuckDuckBot, Baiduspider (China), YandexBot (Russland), GPTBot (OpenAI), CCBot (Common Crawl, Trainingsdaten für AI). Beachte: Order matters — die spezifischste Match-Regel gewinnt.
Disallow blockt das Indexieren?
Nein, nur das Crawlen. Eine bereits indexierte URL kann weiterhin in den SERPs erscheinen (oft als „leere” Beschreibung). Um die Indexierung zu verhindern, brauchst du <meta name="robots" content="noindex"> auf der Seite selbst — was wiederum nur funktioniert, wenn die Seite crawlbar bleibt. Daher: noindex (Meta) + Allow (robots.txt).
Sollte ich /_next/static blocken?
In Pixzls eigener robots.txt war diese Regel früher drin, wurde aber entfernt — Crawler brauchen Zugriff auf Assets (CSS, JS, Bilder), um die Page korrekt rendern zu können. Ohne Asset-Zugriff degradiert das Layout-Verständnis von Google, was schlechtere Rankings bedeuten kann.
Kann ich robots.txt für Subdomains separat haben?
Ja, und das ist sogar PFLICHT — robots.txt gilt nur pro Subdomain. www.pixzl.de und app.pixzl.de brauchen jeweils eine eigene robots.txt im Root. status.pixzl.de wäre nochmal separat.
Werden die generierten Dateien gespeichert?
Nein. Der Output entsteht in deinem Browser aus dem von dir eingegebenen Pattern — kein Server-Roundtrip, kein Logging.
Verwandte Tools
Alle Daten bleiben in deinem Browser. Kein Server, kein Tracking.