Skip to content

Piwik 0.6.4: hübsches Datenmonster

PiwikGestern ist Version 0.6.4 von Piwik erschienen, der Webseitenstatistik die ich seit Anfang des Jahres auch hier verwende.

Die erste und auffälligste Änderung ist ein neues Design. Das ist auch echt nett geworden.
Der von Christian angekündigte Fehler ist auch bei mir aufgetreten, der Bugfix hat aber auch hier funktioniert. Tipp: einfach die Revision 2620 der AssetManager.php komplett neu herunterladen, das erspart das manuelle patchen.

Auch die neue Version funktioniert gewohnt unauffällig und die neue Optik sieht wirklich gut aus. Die Statistiken des Blogs sind öffentlich unter stats.stdlw.de/piwik/ einsehbar — ist doch wirklich gelungen.Piwik Dashboard

Was ich aber dringend vermisse ist ein Feature das erst auf die Version 1 geschoben wurde: Das löschen alter Daten! Die Daten werden für die Statistiken eh aggregiert, es besteht auch keinen Grund jeden einzelnen Zugriff, das meint jedes Seitenelelment, auf ewig vorzuhalten. Das ist unnötiger Ballast der nur die Datenbank verklumpt.

In Zahlen:
· 1545 Blogbeiträge seit 2004 belegen 29MB in der Datenbank.
· Piwiki hat seit Ende Januar 932MB an Daten gesammelt. — Knapp 1 Gigabyte!

Und leider weiss ich nicht welche Daten ich gefahrlos löschen kann. Die Daten werden für die Statistik aggregiert, die alten Logs sind also theoretisch nicht mehr nötig. Ich weiss aber nicht, ob und wann doch noch auf die Rohdaten zugegriffen wird.

Piwik ist eine echt schönes Tool und ich finde es wesentlich sauberer die Auswertung lokal durchzuführen als dass eine zentrale Stelle wie Google die Daten von millionen Webseiten zusammenführen kann.
Aber die Datenbankgröße muss dringend behoben werden. normal

Kommentieren ohne CAPTCHA: Zwischenbilanz

Knapp 4 Wochen nach Beginn meines Tests ist es Zeit für eine Zwischenbilanz:

Ohne CAPTCHAs, nur mit dem Bayes-Plugin kommt fast kein Spam durch. Es gab eine Handvoll die durchkamen und angelernt wurden, ebenso gab es 2 oder 3 richtige Kommentare die fälschlicherweise gefiltert wurden und auch als Ham angelernt wurden.
3 IPs (keine Dial-In IPs) habe ich über die .htaccess direkt ausgesperrt, von dort kam sehr viel Spam auf einmal.

So gesehen ist es kein Problem auf die CAPTCHAs zu verzichten.
Die erkannten Kommentare lasse ich nur moderieren, so kann ich falsch erkannte Kommentare anlernen und freigeben, ebenso kann ich die erkannten als Spam markieren und den Filter damit bestätigen.

Da es aber 10-20, teils auch doppelt so viele Kommentare sind die täglich abgefangen werden und zur Sicherheit durchgesehen werden müssen habe ich mich dazu entschlossen die CAPTCHAs für ältere Kommentare wieder zu aktivieren. Die Spamkommentare kommen nämlich fast alle für Beiträge die schon älter sind. Für den Anfang habe ich die CAPTCHAs für Kommentare die 30 Tage und älter sind wieder aktiviert. Das müsste einen Großteil der Spammer abfangen und ermöglicht freies kommentieren bei neueren Beiträgen.

Das scheint mir als Kompromiss geeignet, zumal die einfachen CAPTCHAs von Serendipity nicht sehr anstrengend sind. Was bei Textbrowsern und Braillezeilen natürlich dennoch nicht hilft. Ein Kompromiss halt.