Gegen Spam-Kommentare in meinem Blog habe ich das WordPress-Plugin Antispam Bee installiert. Das funktioniert recht gut. Aber neuerdings reicht es nicht mehr.
Eine der Filterregeln von Antispam Bee trägt den seltsamen Namen „CSS Hack“. Nicht nur ich habe dabei gedacht, die Spammer kämen durch eine CSS-Sicherheitslücke, und ob die auch irgendwann mal geschlossen würde. Stattdessen ist der Hack auf meiner Seite: Es wird ein Kommentarfeld angeboten, das ein menschlicher Benutzer gar nicht zu sehen bekommt. Wird es trotzdem ausgefüllt, war wohl eine Maschine am Werk. Kommentare, auf die das zutrifft, lasse ich automatisch löschen – und das sind die meisten. Bei den anderen Regeln lasse ich die Nachrichten lieber nur in einen Spam-Ordner einsortieren. Ich hatte schon false positives, zum Beispiel durch die Regel „Server IP“.
Bis vor kurzem hat mir das gereicht. Doch im letzten Monat hatte ich immer mehr Mist in meinen Log-Dateien. Die Spam-Bots geben offensichtlich einen Referrer an, der auf ihre Spamseite (oder zufällige andere?) zeigt. Ich würde hier ja ein paar Beispiele bringen, aber ich möchte nicht riskieren, dass Google mich dafür wieder als Spammer abstraft. Ich analysieren meine Logs mit AWStats. Dessen Auflistung von Seiten, von denen die Benutzer zu meinem Blog gekommen waren, war dadurch lang, unübersichtlich und halt… falsch.
A propos AWStats… Über eins hab ich mich bei der Loganalyse sehr gewundert. Es schienen massenhaft Leute von dem extern mehrfach verlinkten Beitrag über den Terratec-DVB-T-Stick zu dem über die Känguru-Chroniken weitergeklickt zu haben. Aber egal, wie sehr ich gesucht habe: Es gibt keinen Link zwischen den beiden! Bis ich mir schließlich den HTML-Code angesehen habe. Im Code sind „Link“-Tags auf die beiden chronologisch „benachbarten“ Artikel gesetzt. Der Skin, den ich verwende, münzt diese aber nicht in Browser-Links um. Mehrere Browser schauen aber inzwischen, mit dem Ziel, das Surfen zu beschleunigen, welche Dateien als nächtes geladen werden könnten. Link-Tags nutzt dabei zumindest Gecko (also Firefox, Seamonkey & co) als Tipp, welche Seite es zu laden lohnen könnte. Der Artikel über Das Känguru wurde also bei weitem nicht so oft gelesen, wie mein Log es mich Glauben machte. (Ich wäre dankbar für Tipps, wie ich mein Log, lokal unter Linux, so ausgewertet kriege, dass diese Geschichten ignoriert werden.)
Doch zurück zu den unerwünschten Referrern in meinem Log. Beim Googeln nach URL-Spam in Logs bin ich auf ein weiteres Plugin gestoßen, dass das Problem des Spams weiter vorne angreift. Das Plugin Bad Behavior weist erkannten Spam schon zu Beginn der Übertragung zurück und verhindert so nicht nur den Spam-Kommentar, sondern auch den Eintrag ins Log. Das verwende ich jetzt zusätzlich zu Antispam Bee. Tatsächlich hatte ich in diesem Monat (zugegeben, alt ist er noch nicht) noch keinen einzigen falschen Referrer in meiner Liste. Letzten Monat waren es ungefähr ein Drittel der 76 Einträge.