Anfang des Monats habe ich mir einen Yahoo-Account zum Testen des Drupal-Moduls SexyBookmarks mit Delicious zugelegt und direkt die Chance genutzt dieses Blog manuell zum Crawlen vorzuschlagen. Die Anzahl der indizierten Seiten hat sich derzeit zwar nicht wirklich erhöht, doch seit ein paar Tagen habe ich stattdessen einige neue page not found Meldungen mit den Hostadressen 62.xxx.xxx.xxx bzw. 67.xxx.xxx.xxx in meinem Drupal-Log.
Die Recherche
Alle nicht gefundenen URLs beginnen mit SlurpConfirm404, danach teilweise ein Unterordner und dann der Name einer HTML-Datei (alternativ auch nur SlurpConfirm404.htm), wobei alles jedoch definitiv keine zu diesem Blog passenden Angaben sind. Zunächst suchte ich mittels Big-G nach dem Begriff Slurp und fand einen Wikipedia-Eintrag zum Yahoo-Crawler gleichen Namens.
Es stellte sich jedoch die Frage, wieso dieser mindestens sieben unterschiedliche 404-Fehler bei mir produzierte. Eine englische Quelle schrieb, daß absichtlich nicht vorhandene Seiten angefordert werden, um die Webserver-Reaktion zu testen. Stellte sich jedoch wieder die Frage, wieso sollte Yahoo dies tun? Im Abakus-Forum fand ich einen Beitrag mit einem Link zu einer englischen Yahoo-Hilfeseite, die das Vorgehen kurz erläutert.
Fazit
Der Yahoo-Crawler Slurp fragt tatsächlich absichtlich nach "zufälligen" Inhalten einer Website, um die Reaktion des Webservers zu prüfen und so besser nicht mehr vorhandene Inhalte aus dem Suchmaschinen-Index herausfiltern zu können.
Dies soll jedoch sehr selten passieren und nur wenn seit einer ganzen Weile keine normalen 404-Fehler mehr beim Crawlen gefunden wurden. In diesem Fall werden dann maximal 10 Test-Anfragen an den Webserver geschickt.



Kommentar hinzufügen