404er sind fundamental für SEO

von Henry Zeitler

404 – Not Found – wird immer dann als Statuscode im Response-Header ausgeliefert wenn eine Ressource auf dem Server nicht gefunden wurde. In manchen Konstellationen stellt die Auslieferung eines 404-Statuscodes aber die rechtliche Grundlage für die Indexierung der Sitemap durch Google dar. Ein wichtiger Grund die Warnsignale rechtzeitig zu erkennen.

Normalerweise gehört die Auslieferung des 404-Statuscodes zur standardmäßigen Konfiguration eines Webserver. Trotzdem kann es vorkommen, dass z. B. Anfragen auf nicht gefundenene URIs umgeleitet werden ohne darauf zu achten, dass der 404er ordnungsgemäß im Header ausgegeben wird oder eine Firewall den Bot blockiert. Wird dieser Umstand nicht rechtzeitig bemerkt, kann das fatale Folgen für die Suchmaschinenoptimierung haben.

robots.txt – haben oder nicht haben oder…

Die Funktion der robots.txt-Datei ist bekannt. Dort werden die Verhaltensregeln für Bots niedergeschrieben. Dort werden auch die Dateien bestimmt, die der Bot nicht indexieren darf z.B. das private Bildarchiv oder die Online-Bewerbung. Eine leere Datei hat in diesem Fall die gleiche Aussage wie eine nicht vorhandene – es dürfen alle Dateien auf dem Server ohne Beschränkung in den Index aufgenommen werden. Möchte man also keine Beschränkungen für den Bot notieren, kann die robots.txt auch einfach weggelassen werden.

Klingt einfach, kann aber auch nach hinten losgehen. Versucht der Googlebot nämlich die absichtlich nicht hinterlegte robots.txt-Datei auszulesen und stößt dabei statt auf einen 404-Statuscode auf einen Server-Fehler (also einen 5xx) oder eine Umleitung (3xx), dann ist diese Datei schlicht und ergreifend erst einmal nicht erreichbar und Google kann nicht verifizieren, dass keine Dateien für eine Indexierung gesperrt wurden. In diesem Fall darf Google keine Indexierung durchführen, denn es könnten ja versehentlich die privaten Inhalte darunter sein und das wiederum würde Ärger für den Betreiber der Suchmaschine bedeuten.

Um einen temporären Defekt auszuschließen startet Google allerdings mehrere Versuche um die Datei auszulesen, bevor die Indexierung gestoppt und aufgeschoben wird.

 

Vergewissern Sie sich, dass Google auf Ihre robots.txt-Datei zugreifen kann.
Es ist jedoch möglich, dass wir beim Versuch, Ihre robots.txt-Datei abzurufen, eine 5xx-Fehlermeldung (Unerreichbar) erhalten. Vergewissern Sie sich, dass Ihr Hostanbieter den Googlebot nicht blockiert. Wenn Sie eine Firewall verwenden, sollte Sie sicherstellen, dass diese Google nicht blockiert.
” Quelle: Webmaster-Tools Hilfe

Ein Indikator für fehlende 404er

Das traurige Bild unten kennt wahrscheinlich jeder, der schon einmal eine Sitemap über die Google Webmaster Tools eingereicht hat. Ändert sich jedoch der abgebildete Zustand auch nach ein paar Tagen nicht, so sollte man mal etwas genauer nachforschen ob evtl. ein falscher Statuscode für die robots.txt-Datei ausgegeben wird.

Sitemap, eingereicht aber nicht indexiert

Sitemap, eingereicht aber nicht indexiert

 

Der Response-Header einer Datei lässt sich z.B. mit Hilfe der DevTools von Chrome relativ einfach prüfen (in den weiterführenden Links habe ich noch ein browserunabhängiges Online-Tool zum testen des Statuscodes aufgeführt). Dafür wird einfach versucht die robots.txt-Datei bei geöffneten DevTools in den Browser zu laden. Die Datei befindet sich im Root-Verzeichnis der Site (vgl. Browser-Adressleiste unten im Bild).
Unter dem Reiter Network in den DevTools werden alle Anfragen an den Server mit entsprechendem Statuscode aufgelistet. Dort erscheint auch der Statuscode 404 für die nicht vorhandene Datei. Also in diesem Beispiel ist alles in Ordnung, denn es soll hier keine Beschränkungen zur Indexierung geben, also wird auch keine robots.txt-Datei benötigt.

 

Überprüfung des Statuscodes

Überprüfung des Statuscodes

 

Anders würde es z.B. bei der Ausgabe eines 502-Codes für die robots.txt-Datei aussehen, denn dann sollte man die Servereinstellungen genauer unter die Lupe nehmen oder den zuständigen Admin benachrichtigen.

Hattet ihr schon einmal einen Fall wie diesen? Wenn ja, wie lange habt ihr so nach der Ursache geforscht?

Weiterführende Links

comments powered by Disqus