Meine Damen und Herren,
Wir schalten um zum Schockwellenreiter.
Wenn ich mir die Log-Dateien des Servers anschaue, dann stellt sich mir immer wieder eine Frage: Was machen die ganzen Crawler mit den Daten, die sie hier abgereifen? Zur Zeit kommen hier pro Woche ca. 80 verschiedene vorbei. Schaut man sich dann allerdings die Referrer an, welche Suchmaschinen hier wiederum Treffer landen, dann beschränkt sich das auf Google, Google, Google, manchmal Yahoo und ganz selten M$N. Was macht der ganze Rest? Die spidern doch nicht aus lauter Spass an der Freude vorbei.
Überhaupt, die Referrer. Die fangen langsam an mir mein kleines selbstgeschriebenes Zugriffsauswertungstool zu verarschen. Normalerweise filter ich den ganzen Scheiss raus. Spider, RSS-Zugriffe, Grafiken und den ganzen Kram. Von dem Rest ziehe ich noch mal ca. 25% ab, die kommen von gaaaaaaanz ganz schlauen Tools. Ich schätze einmal das sind Spam-Spider, die sich natürlich einen Dreck um die robots.txt Datei kümmern, ihre Zugriffe aber im Sekundentakt absetzen. Dabei tarnen sie sich aber als ganz normale Browser. Um die auch noch zu eleminieren müsste ich diese Heuristiken im Shellscript implementieren. Dazu bin ich aber zu faul.
