Jeder Webseiten Besitzer wird täglich von bekannten, aber auch unbekannten Crawler besucht. Crawler bzw. Webcrawler (auch Robot oder Spider genannt) sind Programme, die im Auftrag einer Suchmaschine eigenständig das Internet auf Inhalte von Webseiten durchsuchen und analysieren.

Jetzt besucht mich seit Wochen ein unbekannter Bot, der sich auf meinem Blog anscheinend Pudelwohl fühlt und meine Webseite deshalb mehrmals am Tag für 30-45 Minuten durchsucht. Wenn das der GoogleBot wäre, würde ich mich ja freuen.  Leider durchsucht der Kamerad mit der Kennung: “chello062178217028.11.15.vie.surfer.at” alle möglichen und unmöglich Seiten meines Blogs und vor allem Seiten, die es gar nicht gibt. Er generiert zu jeder URL immer “/blank” am Ende dazu und erzeugt somit einen 404 Fehler. Beispiel: “www.joachimnadolny.de/blank

Ich habe mir vor einiger Zeit das Plugin: JH 404-Logger installiert und sehe somit jede generierte “404 not found” Fehlerseite auf meinem Blog. Da die Liste der erzeugten Fehler langsam enorme Ausmaße annimmt, will ich nun etwas gegen diesen Bot und allen zukünftigen 404 Erzeuger unternehmen. Deshalb habe ich ein paar Fragen an die Spezialisten unter euch und hoffe, dass ihr mir diese beantworten könnt.

1. Kennt jemand diesen Bot und hat Informationen darüber, was dieser Knabe überhaupt indexiert?

2. Wie kann ich mich gegen solche Crawler schützen? Ich habe im Hinterkopf, dass ich mit der .htaccess etwas spielen kann um so bestimmten Bots den Zugriff zu verweigern. Aber wie funktioniert das eigentlich genau? (Mittlerweile habe ich herausgefunden wie man das bewerkstelligen kann. Lese dazu diesen Artikel)

3. Ist es für den Traffic ein Problem, wenn Bots 404 Fehlerseiten generieren? Bei diesem Bot könnte man meinen, er sei nur dafür Programmiert worden, 404´er Seiten zu erzeugen. Denn das macht er ziemlich gut!


24. Oktober 2009, 12:43 Uhr Nachtrag:

Anhand der IP konnte ich die Firma ausfindig machen, die evl. hinter diesem Bot steckt und mir demnach die 1. gestellte Frage selber beantworten können. Mein 2. bester Freund ist ein Österreicher! Er kommt nämlich genau von:

Hostmaster Chello Broadband
UPC Broadband
Internet Services
Erlachgasse 116
A-1100 Vienna
Austria

E-Mail: hostmaster@chello.at, oder abuse@chello.at

Die Adresse deckt sich 100% mit der Kennung des Spiders (Zur Erinnerung: chello062178217028.11.15.vie.surfer.at). Dank meiner Whois -Abfrage, konnte ich diese Firma ausfindig machen. Ich habe UPC direkt angeschrieben und sie um eine Stellungnahme gebeten. Mir wurde es heute nämlich zu Bunt, da ich gesehen habe, dass dieser Robot über Nacht wieder 207 Stück 404-Fehlerseiten generiert hat.


24. Oktober 2009, 17:22 Uhr Nachtrag:

Mittlerweile konnte ich noch mehr Informationen über diesen Bot heraus finden. Ich habe heute die kompletten Log-Files meins Webhostes ausgelesen. Dabei konnte ich interessante Details heraus finden. Und zwar nennt sich dieser Spider “betaBot“. Diesen Namen benutzt er auch als User-Agent! Ich habe den Eindruck, er mag am liebsten meine Tags durchsuchen. Jedenfalls erzeugt er bei allen meinen Tags einen “404 file not fount” Fehler.

In wie weit dieser betaBot mit der Oben angesprochenen Firma aus Österreich zusammen hängt, kann ich noch nicht sagen. Ich muss jetzt erst einmal die Antwort von einem Verantwortlichen dieser Firma abwarten. Sobald ich näheres heraus finden konnte, werde ich sofort darüber berichten.

Hier ein Auzug meiner Orginial Log-File:


31. Oktober 2009 10:43 Uhr Nachtrag:

Eine Woche ist vergangen, seit ich die E-Mail verschickt habe und wie erwartet, hat sich ­Chello ­Broadband nicht dazu geäußert. Das ist natürlich sehr ärgerlich. Mittlerweile konnte ich diesen aggressiven ­betaBot per “.­htaccess” von meiner Webseite aussperren. Jetzt gibt es noch einen 2. Bot auf meiner Website, der auch ­404ér Fehler erzeugt. Anders, wie ­betaBot, generiert dieser Heino Fehlerseiten ­á la: www.joachimnadolny.de“/\”. Zum Glück halten sich die so generierten Fehlerseiten in Grenzen (max. 10 Stück / Tag), aber nervig ist es dennoch.