Das Örtchen RSS-Feed
Suchen
Blog
Ähnliche Beiträge
Neueste Kommentare
Neueste Einträge
Populäre Einträge
Tagwolke
addon auswertung barcamp blog bug cms cms made simple datenkrake drupal feed film firefox frickeln friday gewinnspiel hardware how-to individualisierung meinung mmo modul nas php problem rss se7en server sicherheit sicherung software spiel teil theme trailer unterhaltung update windows windows 7 wordpress wow
Monatsarchiv

Webentwicklung: SlurpConfirm404 in den Logs

Anfang des Monats habe ich mir einen Yahoo-Account zum Testen des Drupal-Moduls SexyBookmarks mit Delicious zugelegt und direkt die Chance genutzt dieses Blog manuell zum Crawlen vorzuschlagen. Die Anzahl der indizierten Seiten hat sich derzeit zwar nicht wirklich erhöht, doch seit ein paar Tagen habe ich stattdessen einige neue page not found Meldungen mit den Hostadressen 62.xxx.xxx.xxx bzw. 67.xxx.xxx.xxx in meinem Drupal-Log.

Die Recherche

Alle nicht gefundenen URLs beginnen mit SlurpConfirm404, danach teilweise ein Unterordner und dann der Name einer HTML-Datei (alternativ auch nur SlurpConfirm404.htm), wobei alles jedoch definitiv keine zu diesem Blog passenden Angaben sind. Zunächst suchte ich mittels Big-G nach dem Begriff Slurp und fand einen Wikipedia-Eintrag zum Yahoo-Crawler gleichen Namens.

Es stellte sich jedoch die Frage, wieso dieser mindestens sieben unterschiedliche 404-Fehler bei mir produzierte. Eine englische Quelle schrieb, daß absichtlich nicht vorhandene Seiten angefordert werden, um die Webserver-Reaktion zu testen. Stellte sich jedoch wieder die Frage, wieso sollte Yahoo dies tun? Im Abakus-Forum fand ich einen Beitrag mit einem Link zu einer englischen Yahoo-Hilfeseite, die das Vorgehen kurz erläutert.

Fazit

Der Yahoo-Crawler Slurp fragt tatsächlich absichtlich nach "zufälligen" Inhalten einer Website, um die Reaktion des Webservers zu prüfen und so besser nicht mehr vorhandene Inhalte aus dem Suchmaschinen-Index herausfiltern zu können.

Dies soll jedoch sehr selten passieren und nur wenn seit einer ganzen Weile keine normalen 404-Fehler mehr beim Crawlen gefunden wurden. In diesem Fall werden dann maximal 10 Test-Anfragen an den Webserver geschickt.

 

Hallo! Bist du neu hier? Dann abonniere doch den RSS-Feed dieses nicht mehr ganz so stillen Örtchens, um über meine geistigen Ergüsse auf dem Laufenden zu bleiben. Alternativ besteht auch die Möglichkeit, sich von FeedBurner per E-Mail über meine Ausscheidungen benachrichtigen zu lassen.

Kommentar hinzufügen

(If you're a human, don't change the following field)
Your first name.
Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.
Der Inhalt dieses Feldes wird öffentlich zugänglich angezeigt, aber als nofollow markiert.
Hinweis

Kommentare beleben den Blog! Ich freue mich über jeden Kommentar. Du kannst hier offen Deine Meinung zum Artikel sagen, aber bitte beachte die Netiquette und vermeide es andere zu beleidigen.

Bitte unterlasst es die Kommentare zu SEO-Zwecken zu missbrauchen. Kommentare mit Links, die nicht zu Blogs führen (oder zu Blogs mit Grauzonen-Themen) und/oder Keywords als Namen verwenden und/oder Links im Kommentarbereich enthalten, sind nicht erwünscht!

Möchtest Du mir einen Blog-Artikel schmackhaft machen, dann schreib die URL ohne Link-Tag und ohne http(s):// in den Kommentarbereich und ich werde diesen bei Gefallen verlinken.

Die ersten vier Kommentare (mit den gleichen Daten bei Name, E-Mail und Blog) landen vor der Veröffentlichung in meiner Freigabe-Warteschlange und ich behalte mir das Recht vor, Kommentare entsprechend dieser Regeln anzupassen oder zu löschen!