Robots.txt

Die robots.txt ist eine Datei, die Suchmaschinen-Crawlern mitteilt, welche Bereiche einer Website sie aufrufen dürfen und welche nicht. Sie liegt im Hauptverzeichnis der Website und ist unter der Adresse mit dem Zusatz robots.txt erreichbar. Damit steuert sie den Zugriff der Crawler auf die Seite.

Wie funktioniert die robots.txt?

In der Datei wird über einfache Regeln festgelegt, welche Pfade ein Crawler besuchen darf und welche für ihn gesperrt sind. Die Crawler der grossen Suchmaschinen halten sich in der Regel an diese Vorgaben. Sie wird vor allem genutzt, um bestimmte Bereiche vom Crawling auszuschliessen.

Wofür wird die robots.txt eingesetzt?

Typisch ist das Sperren von Bereichen ohne Mehrwert für die Suche, etwa interne Verzeichnisse, Suchergebnisse oder doppelte Inhalte. So lenkt man die Aufmerksamkeit der Crawler auf die wichtigen Seiten und schont das Crawling-Budget. Auch der Verweis auf die Sitemap kann hier hinterlegt werden. Damit finden Crawler die wichtigsten Seiten schneller.

Unterschied zur Indexierung

Die robots.txt steuert das Crawling, nicht zuverlässig die Indexierung, denn eine gesperrte Seite kann trotzdem in den Ergebnissen erscheinen, wenn sie verlinkt ist. Soll eine Seite sicher nicht gelistet werden, ist dafür der noindex-Tag das richtige Mittel. Beide Werkzeuge erfüllen unterschiedliche Aufgaben.

Die robots.txt richtig nutzen

Wichtig ist, keine Seiten zu sperren, die indexiert werden sollen, und keine Ressourcen zu blockieren, die für die Darstellung nötig sind. Eine fehlerhafte robots.txt kann ganze Bereiche unsichtbar machen. Die Datei sollte deshalb mit Bedacht gepflegt und regelmässig geprüft werden. Schon ein falsch gesetzter Eintrag kann grosse Teile einer Website aus dem Crawling ausschliessen.

 

Verwandte Begriffe: No-Index-Tag und Sitemap.

Drei Personen stehen nebeneinander und lächeln in die Kamera.

Hast du Fragen zum Thema Robots.txt?

Dann melde dich gerne bei uns.