<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Joachim Nadolny.de &#187; Robot</title>
	<atom:link href="http://www.joachimnadolny.de/blog/tag/robot/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.joachimnadolny.de</link>
	<description>Private Homepage, Bloggen und mehr...</description>
	<lastBuildDate>Sat, 10 Apr 2010 06:44:26 +0000</lastBuildDate>
	
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>Baiduspider: Größte chinesische Suchmaschine und ihre kleinen Robots</title>
		<link>http://www.joachimnadolny.de/blog/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/</link>
		<comments>http://www.joachimnadolny.de/blog/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/#comments</comments>
		<pubDate>Sat, 21 Nov 2009 16:44:46 +0000</pubDate>
		<dc:creator>Joachim Nadolny</dc:creator>
				<category><![CDATA[Intern]]></category>
		<category><![CDATA[Baidu]]></category>
		<category><![CDATA[China]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[Robot]]></category>
		<category><![CDATA[Spider]]></category>
		<category><![CDATA[Suchmaschine]]></category>

		<guid isPermaLink="false">http://www.joachimnadolny.de/?p=2468</guid>
		<description><![CDATA[Gestern wurde ich wieder einmal von meinem chinesischen Freund „Baidu“ (chin. 百度, bǎidù) besucht. Jeder von uns dürfte bestimmt schon einmal das Vergnügen mit diesem Robot gemacht haben. Die kleinen Spiderchen, die von soooo weit herkommen, nur um ein paar Seiten zu durchsuchen. Leider weiß Baidu.com anscheinend nicht, dass die Menschen im Fernen Osten unsere [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://www.joachimnadolny.de/blog/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/"><img class="alignleft" title="Baiduspider" src="http://www.joachimnadolny.de/uploads/images/frage-antwort.jpg" alt="" width="110" height="110" /></a>Gestern wurde ich wieder einmal von meinem chinesischen Freund „<a title="Chinesische Suchmaschine" href="http://www.baidu.com/">Baidu</a>“ (<a title="Wikipedia:Chinesische Begriffe" href="http://de.wikipedia.org/wiki/Wikipedia:Chinesische_Begriffe">chin.</a> 百度, <em>b</em><em>ǎ</em><em>idù</em>) besucht. Jeder von uns dürfte bestimmt schon einmal das Vergnügen mit diesem Robot gemacht haben. Die kleinen Spiderchen, die von soooo weit herkommen, nur um ein paar Seiten zu durchsuchen. Leider weiß Baidu.com anscheinend nicht, dass die Menschen im Fernen Osten unsere Sprache nicht verstehen und deshalb auch keine unserer indexierten Seiten lesen können. Oder etwa doch? Soviel ich<span id="more-2468"></span> herausgefunden habe, wird die größte chinesische Suchmaschine von uns Europäer hauptsächlich dazu genutzt, Videos und MP3 Dateien ausfindig zu machen.</p>
<p style="text-align: justify;"><img class="alignnone" title="Baidu: Größte chinesische Suchmaschine" src="http://www.joachimnadolny.de/uploads/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/baidu.jpg" alt="" width="506" height="426" /><br class="clear" /></p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Was ist Baidu überhaupt?</strong></p>
<p style="text-align: justify;">Baidu ist die größte chinesische Suchmaschine. Was für uns Europäer <a title="Google" href="http://www.google.de">Google</a>, ist für unsere Freunde im Fernen Osten <a title="Baidu" href="http://www.baidu.com/">Baidu</a>. Laut der <a title="Alexa.com: Statistik über Baidu" href="http://www.alexa.com/topsites">Statistik von Alexa</a>, gehört Baidu mittlerweile zu den zehn weltweit am häufigsten aufgerufenen Webseiten. Nicht sehr verwunderlich ist deshalb die Tatsache, das Baidu.com mittlerweile einen Pagerank von 9 besitzt!</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Was indexiert Baidu?</strong></p>
<p style="text-align: justify;">Ich kann behaupten, dass Baidu.com alles auf meinem Blog durchsucht und interessant findet, was in Worte gefasst ist. Bisher haben sie nichts ausgelassen. Ob meine Tags, Artikel, oder meine statischen Seiten, Baidu.com kennt bereits jeden Winkel meins Blogs, den ich für die Suchmaschinen freigegeben habe. Auf anderen Webseiten wird er sich bestimmt genauso verhalten.</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Wie oft kommt der Baiduspider zu Besuch?</strong></p>
<p style="text-align: justify;">In der Regel besucht mich der Baiduspider 4-5 Mal die Woche nur für kurze Zeit. Laut meinem <a title="Was ist ein Weblog?" href="http://www.joachimnadolny.de/blog/http-logstat-webserver-logfile-analysieren/">Web-Log</a> hat er in den letzten 5 Tagen 78 Mal auf meine Seiten zugegriffen. Das ist gar nicht so wenig, wen man bedenkt, wie unwichtig diese Suchmaschine für den deutschen Raum eigentlich ist. Meistens verschwindet der Robot mit dem User-Agent: &#8220;Baiduspider&#8221; wieder so schnell, wie er gekommen ist. Wie ich gestern Abend gemerkt habe, ist der Baiducrawler aber nicht immer so zurückhaltend, wie das bisher meistens der Fall war (siehe Bilder).</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Wie mächtig ist Baidu.com wirklich?</strong></p>
<p style="text-align: justify;">Laut diversen Internetberichten soll die größte chinesische Suchmaschine im Jahr 1999 in einem Pekinger Hotelzimmer gegründet worden sein. Berichten zufolge soll Baidu.com im Jahr 2007 einen Umsatz von 1,74 Mrd. ¥  (Yuan) gemacht haben. Was dieser Umsatz umgerechnet in Euro ergibt, kann ich leider nicht ganz genau sagen.  Nach meinen Recherchen komme ich auf eine Summe von umgerechnet 106 Mio. Euro. Bereits am 5. August 2005, ging  Baidu.com an der Börse.</p>
<p style="text-align: justify;">Laut einem <a title="Heise Online: Artikel über Baidu" href="http://www.heise.de/newsticker/meldung/Microsoft-verbuendet-sich-mit-chinesischer-Suchmaschine-Baidu-127154.html">Artikel von Heise Online</a> aus dem Jahr 2006, soll sich Microsoft mit der chinesischen Suchmaschine verbündet haben. Zitat: „Der US-amerikanische Softwarekonzern Microsoft hat mit dem chinesischen Suchmaschinenanbieter Baidu eine Partnerschaft geschlossen.“</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Baidu kann aber auch am Rad drehen!</strong></p>
<p style="text-align: justify;">Diese Erfahrung musste ich gestern Abend machen, als ich mich in mein WordPress-Dashboard eingeloggt habe. Zufällig sah ich, wie sich der Baiduspider auf meinem Blog etwas „Breit“ gemacht hat (siehe Bild). Das war übrigens das erste Mal, dass er so am Rad gedreht hat.</p>
<p style="text-align: justify;">
<p style="text-align: justify;"><img class="alignnone" title="Baiduspider macht sich auf meinem Blog beit" src="http://www.joachimnadolny.de/uploads/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/baiduspider.jpg" alt="" width="574" height="847" /><br class="clear" /></p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Soll man den Baiduspider auf seiner Webseite blockieren?</strong></p>
<p style="text-align: justify;">So weit ich das selber beurteilen kann, braucht man Baidu.com nicht blockieren. Zumindest verursachte der Spider bisher keinen einzigen <a title="Zum Artikel: Bot verursacht 404 Fehler" href="http://www.joachimnadolny.de/blog/bot-verursacht-haufenweise-404-fehlerseiten-auf-meiner-webseite/">404-Fehler auf meinem Blog</a> und es gibt auch kein Traffic Problem durch ihn. Auf seriösen Internetseiten konnte ich erfahren, dass es ein guter Crawler ist, der zumindest keinerlei böse Absichten hat. Des Weiteren liest und respektiert er die <a title="Was ist eine Robots.txt?" href="http://de.wikipedia.org/wiki/Robots.txt">Robots.txt</a>.</p>
<p style="text-align: justify;">Ob man den Baiduspider auf seiner eigenen Webseite blockiert, oder ihm freie Hand lässt, muss jeder Webmaster letztendlich selbst entscheiden. Sollte man den Baiduspider von seinen Seiten verbannen, so bin ich mir sicher, dass einen dadurch bestimmt kein Nachteil entsteht.</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>Baiduspider unter die Lupe genommen:</strong></p>
<p style="text-align: justify;">User Agent: Baiduspider<br />
Liest die robots.txt: Ja<br />
Respektiert die robots.txt: Ja<br />
Auszug aus meiner Original Log-File: [17/Nov/2009:09:28:57 +0100] &#8220;GET / HTTP/1.1&#8243; 200 36947 &#8220;-&#8221; &#8220;Baiduspider+(+http://www.baidu.com/search/spider.htm)&#8221;
</p>
<p style="text-align: justify;"><br class="clear" /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.joachimnadolny.de/blog/baiduspider-groesste-chinesische-suchmaschine-und-ihre-kleinen-robots/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Bot verursacht &#8220;Fehler 404 not found&#8221; Seiten auf meiner Webseite</title>
		<link>http://www.joachimnadolny.de/blog/bot-verursacht-haufenweise-404-fehlerseiten-auf-meiner-webseite/</link>
		<comments>http://www.joachimnadolny.de/blog/bot-verursacht-haufenweise-404-fehlerseiten-auf-meiner-webseite/#comments</comments>
		<pubDate>Wed, 21 Oct 2009 12:21:33 +0000</pubDate>
		<dc:creator>Joachim Nadolny</dc:creator>
				<category><![CDATA[Intern]]></category>
		<category><![CDATA[Bot]]></category>
		<category><![CDATA[Crawler]]></category>
		<category><![CDATA[Robot]]></category>
		<category><![CDATA[Spider]]></category>

		<guid isPermaLink="false">http://www.joachimnadolny.de/?p=1745</guid>
		<description><![CDATA[Jeder Webseiten Besitzer wird täglich von bekannten, aber auch unbekannten Crawler besucht. Crawler bzw. Webcrawler (auch Robot oder Spider genannt) sind Programme, die im Auftrag einer Suchmaschine eigenständig das Internet auf Inhalte von Webseiten durchsuchen und analysieren.
Jetzt besucht mich seit Wochen ein unbekannter Bot, der sich auf meinem Blog anscheinend Pudelwohl fühlt und meine Webseite [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><img class="alignleft" title="Frage, Antwort, Diskussion" src="http://www.joachimnadolny.de/uploads/images/frage-antwort.jpg" alt="" width="110" height="110" />Jeder Webseiten Besitzer wird täglich von bekannten, aber auch unbekannten Crawler besucht. Crawler bzw. Webcrawler (auch Robot oder Spider genannt) sind Programme, die im Auftrag einer Suchmaschine eigenständig das Internet auf Inhalte von Webseiten durchsuchen und analysieren.<span id="more-1745"></span></p>
<p style="text-align: justify;">Jetzt besucht mich seit Wochen ein unbekannter Bot, der sich auf meinem Blog anscheinend Pudelwohl fühlt und meine Webseite deshalb mehrmals am Tag für 30-45 Minuten durchsucht. Wenn das der GoogleBot wäre, würde ich mich ja freuen.  Leider durchsucht der Kamerad mit der Kennung: &#8220;<strong>chello062178217028.11.15.vie.surfer.at</strong>&#8221; alle möglichen und unmöglich Seiten meines Blogs und vor allem Seiten, die es gar nicht gibt. Er generiert zu jeder URL immer &#8220;/blank&#8221; am Ende dazu und erzeugt somit einen 404 Fehler. Beispiel: &#8220;www.joachimnadolny.de<strong>/blank</strong>&#8220;</p>
<p style="text-align: justify;"><img title="404 Fehlerseiten" src="http://www.joachimnadolny.de/uploads/bot-verursacht-fehler-404-not-found-seiten-auf-meiner-webseite/bot-verursacht-404-fehler.jpg" alt="" /></p>
<p style="text-align: justify;">Ich habe mir vor einiger Zeit das Plugin: <a title="404 Fehlerseiten Logger" href="http://www.joehoyle.co.uk/jh-404-logger/">JH 404-Logger</a> installiert und sehe somit jede generierte &#8220;404 not found&#8221; Fehlerseite auf meinem Blog. Da die Liste der erzeugten Fehler langsam enorme Ausmaße annimmt, will ich nun etwas gegen diesen Bot und allen zukünftigen 404 Erzeuger unternehmen. Deshalb habe ich ein paar Fragen an die Spezialisten unter euch und hoffe, dass ihr mir diese beantworten könnt.</p>
<p style="text-align: justify;">1. Kennt jemand diesen Bot und hat Informationen darüber, was dieser Knabe überhaupt indexiert?</p>
<p style="text-align: justify;">2. Wie kann ich mich gegen solche Crawler schützen? Ich habe im Hinterkopf, dass ich mit der .htaccess etwas spielen kann um so bestimmten Bots den Zugriff zu verweigern. Aber wie funktioniert das eigentlich genau? (Mittlerweile habe ich herausgefunden wie man das bewerkstelligen kann. Lese dazu <a title="Bots sperren" href="http://www.joachimnadolny.de/blog/bots-und-spammer-den-zugriff-auf-die-eigene-webseite-verweigern/">diesen Artikel</a>)</p>
<p style="text-align: justify;">3. Ist es für den Traffic ein Problem, wenn Bots 404 Fehlerseiten generieren? Bei diesem Bot könnte man meinen, er sei nur dafür Programmiert worden, 404´er Seiten zu erzeugen. Denn das macht er ziemlich gut!</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>24. Oktober 2009, 12:43 Uhr Nachtrag: </strong></p>
<p style="text-align: justify;">Anhand der IP konnte ich die Firma ausfindig machen, die evl. hinter diesem Bot steckt und mir demnach die 1. gestellte Frage selber beantworten können. Mein 2. bester Freund ist ein Österreicher! Er kommt nämlich genau von:</p>
<p style="text-align: justify;"><strong>Hostmaster Chello Broadband<br />
UPC Broadband<br />
Internet Services<br />
Erlachgasse 116<br />
A-1100 Vienna<br />
Austria</strong></p>
<p style="text-align: justify;"><strong>E-Mail: hostmaster@chello.at, oder abuse@chello.at<br />
</strong>
</p>
<p style="text-align: justify;">Die Adresse deckt sich 100% mit der Kennung des Spiders (Zur Erinnerung: chello062178217028.11.15.vie.surfer.at). Dank meiner <a title="Whois-Abfrage" href="http://www.ripe.net">Whois -Abfrage</a>, konnte ich diese Firma ausfindig machen. Ich habe UPC direkt angeschrieben und sie um eine Stellungnahme gebeten. Mir wurde es heute nämlich zu Bunt, da ich gesehen habe, dass dieser Robot über Nacht wieder 207 Stück 404-Fehlerseiten generiert hat.</p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>24. Oktober 2009, 17:22 Uhr Nachtrag: </strong></p>
<p style="text-align: justify;">Mittlerweile konnte ich noch mehr Informationen über diesen Bot heraus finden. Ich habe heute die kompletten Log-Files meins Webhostes ausgelesen. Dabei konnte ich interessante Details heraus finden. Und zwar nennt sich dieser Spider &#8220;<strong>betaBot</strong>&#8220;. Diesen Namen benutzt er auch als User-Agent! Ich habe den Eindruck, er mag am liebsten meine Tags durchsuchen. Jedenfalls erzeugt er bei allen meinen Tags einen &#8220;404 file not fount&#8221; Fehler.</p>
<p style="text-align: justify;">In wie weit dieser betaBot mit der Oben angesprochenen Firma aus Österreich zusammen hängt, kann ich noch nicht sagen. Ich muss jetzt erst einmal die Antwort von einem Verantwortlichen dieser Firma abwarten. Sobald ich näheres heraus finden konnte, werde ich sofort darüber berichten.</p>
<p style="text-align: justify;"><strong>Hier ein Auzug meiner Orginial Log-File:</strong></p>
<p style="text-align: justify;"><a href="http://www.joachimnadolny.de/uploads/bot-verursacht-fehler-404-not-found-seiten-auf-meiner-webseite/logfile-analyse.jpg"><img class="alignnone" title="Logfile" src="http://www.joachimnadolny.de/uploads/bot-verursacht-fehler-404-not-found-seiten-auf-meiner-webseite/logfile-analyse.jpg" alt="" width="715" height="90" /></a></p>
<p style="text-align: justify;"><br class="clear" /></p>
<p style="text-align: justify;"><strong>31. Oktober 2009 10:43 Uhr Nachtrag:</strong></p>
<p style="text-align: justify;"><span id="dpfsent_1" onclick="spellCheckers0.showSentLenMenu(this.id);">Eine Woche ist vergangen, seit ich die E-Mail verschickt habe und wie erwartet, hat sich <span id="dpforth0_unknown_1_0" lang="Cello" onclick="spellCheckers0.showOrthMenu(this.id);">­Chello</span> <span id="dpforth0_unknown_1_1" onclick="spellCheckers0.showOrthMenu(this.id);">­Broadband</span> nicht dazu geäußert. </span><span id="dpfsent_2" onclick="spellCheckers0.showSentLenMenu(this.id);">Das ist natürlich sehr ärgerlich. Mittlerweile konnte ich diesen aggressiven <span id="dpforth0_45_2_0" lang="Betabot" onclick="spellCheckers0.showOrthMenu(this.id);">­betaBot</span> per &#8220;<a title="Bots den Zugriff verweigern" href="http://www.joachimnadolny.de/blog/bots-und-spammer-den-zugriff-auf-die-eigene-webseite-verweigern/">.</a></span><span id="dpfsent_3" onclick="spellCheckers0.showSentLenMenu(this.id);"><a title="Bots den Zugriff verweigern" href="http://www.joachimnadolny.de/blog/bots-und-spammer-den-zugriff-auf-die-eigene-webseite-verweigern/"><span id="dpforth0_unknown_3_0" onclick="spellCheckers0.showOrthMenu(this.id);">­htaccess</span></a>&#8221; von meiner Webseite aussperren. </span><span id="dpfsent_4" onclick="spellCheckers0.showSentLenMenu(this.id);">Jetzt gibt es noch einen 2. Bot auf meiner Website, der auch <span id="dpforth0_sdt_4_0" onclick="spellCheckers0.showOrthMenu(this.id);">­404ér</span> Fehler erzeugt. </span><span id="dpfsent_5" onclick="spellCheckers0.showSentLenMenu(this.id);">Anders, wie <span id="dpforth0_45_5_0" lang="Betabot" onclick="spellCheckers0.showOrthMenu(this.id);">­betaBot</span>, generiert dieser Heino Fehlerseiten <span id="dpforth0_unknown_5_1" onclick="spellCheckers0.showOrthMenu(this.id);">­á</span> la: </span><span id="dpfsent_6" onclick="spellCheckers0.showSentLenMenu(this.id);">www.joachimnadolny.de<span id="dpfgram0_611de_6_0" lang="&quot; /" onclick="spellCheckers0.showGramMenu(this.id);">&#8220;/</span>\&#8221;. </span><span id="dpfsent_7" onclick="spellCheckers0.showSentLenMenu(this.id);">Zum Glück halten sich die so generierten Fehlerseiten in Grenzen (max. 10 Stück / Tag), aber nervig ist es dennoch.</span></p>
<p style="text-align: justify;"><br class="clear" /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.joachimnadolny.de/blog/bot-verursacht-haufenweise-404-fehlerseiten-auf-meiner-webseite/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
	</channel>
</rss>
