Das Örtchen RSS-Feed
Kategorie
Kategorie: Blog
Buttons & Statistiken
Neueste Kommentare

Webentwicklung: SlurpConfirm404 in den Logs

Anfang des Monats habe ich mir einen Yahoo-Account zum Testen des Drupal-Moduls SexyBookmarks mit Delicious zugelegt und direkt die Chance genutzt dieses Blog manuell zum Crawlen vorzuschlagen. Die Anzahl der indizierten Seiten hat sich derzeit zwar nicht wirklich erhöht, doch seit ein paar Tagen habe ich stattdessen einige neue page not found Meldungen mit den Hostadressen 62.xxx.xxx.xxx bzw. 67.xxx.xxx.xxx in meinem Drupal-Log.

Die Recherche

Alle nicht gefundenen URLs beginnen mit SlurpConfirm404, danach teilweise ein Unterordner und dann der Name einer HTML-Datei (alternativ auch nur SlurpConfirm404.htm), wobei alles jedoch definitiv keine zu diesem Blog passenden Angaben sind. Zunächst suchte ich mittels Big-G nach dem Begriff Slurp und fand einen Wikipedia-Eintrag zum Yahoo-Crawler gleichen Namens.

Es stellte sich jedoch die Frage, wieso dieser mindestens sieben unterschiedliche 404-Fehler bei mir produzierte. Eine englische Quelle schrieb, daß absichtlich nicht vorhandene Seiten angefordert werden, um die Webserver-Reaktion zu testen. Stellte sich jedoch wieder die Frage, wieso sollte Yahoo dies tun? Im Abakus-Forum fand ich einen Beitrag mit einem Link zu einer englischen Yahoo-Hilfeseite, die das Vorgehen kurz erläutert.

Fazit

Der Yahoo-Crawler Slurp fragt tatsächlich absichtlich nach "zufälligen" Inhalten einer Website, um die Reaktion des Webservers zu prüfen und so besser nicht mehr vorhandene Inhalte aus dem Suchmaschinen-Index herausfiltern zu können.

Dies soll jedoch sehr selten passieren und nur wenn seit einer ganzen Weile keine normalen 404-Fehler mehr beim Crawlen gefunden wurden. In diesem Fall werden dann maximal 10 Test-Anfragen an den Webserver geschickt.

 

Hallo! Bist du neu hier? Dann abonniere doch den RSS-Feed dieses nicht mehr ganz so stillen Örtchens, um über meine geistigen Ergüsse auf dem Laufenden zu bleiben. Alternativ besteht auch die Möglichkeit, sich von FeedBurner per E-Mail über meine Ausscheidungen benachrichtigen zu lassen.

Neuen Kommentar schreiben

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.
Der Inhalt dieses Feldes wird öffentlich zugänglich angezeigt, aber als rel="nofollow" markiert.
Hinweis

Kommentare beleben den Blog! Ich freue mich über jeden Kommentar. Du kannst hier offen Deine Meinung zum Artikel sagen, aber bitte beachte die Netiquette und vermeide es andere zu beleidigen.

Bitte unterlasst es die Kommentare zu SEO-Zwecken zu missbrauchen. Kommentare mit Links, die nicht zu Blogs führen (oder zu Blogs mit Grauzonen-Themen) und/oder Keywords als Namen verwenden, sind nicht erwünscht!

Möchtest Du mir einen Blog-Artikel schmackhaft machen, dann schreib die URL ohne HTML-Tag in den Kommentarbereich und ich werde diesen bei Gefallen verlinken.