Der 19. Oktober 2004 gilt als schwärzester Tag für alle Wikipedia-Forscher. Das ist zwar etwas pathetisch formuliert, trifft es aber ziemlich genau. An diesem Datum – vor genau 647 Tagen – wurde aufgrund der verursachten Serverlast der in der WikiMedia-Software implementierte Aufrufzähler pro Artikel deaktiviert.
Seitdem ist es nicht mehr auf einfache Weise möglich herauszufinden, welche Artikel bei den Wikipedia-Nutzern besonders beliebt sind (genauer: besonders häufig aufgerufen werden).
Grundsätzlich muss man sich im klaren darüber sein, dass die auf diese Art erhobenen Zahlen nicht korrekt wären – sie könnten nur einen Anhaltspunkt liefern. Seit ihrem Start im Januar 2001 ist die Wikipedia von einer kleinen unbekannte Webseite nach Angaben von Alexa in die Top20-Webseiten weltweit aufgestiegen – in Deutschland gehört sie zu den Top5-Webseiten.
Dies führt dazu, dass es nicht mehr möglich ist, das Webangebot auf einem “einfachen Server” zu hosten. Die Infrastruktur ist momentan auf mehr als 240 Server verteilt, die über vier Standorte auf drei Kontinenten verteilt sind. Der Kauf von 20 weiteren Servern wurde von der Wikimedia Foundation gerade beschlossen.
Dies ist einer der weltweit größten Server-Cluster, der komplett mit Freier Software betrieben wird und vermutlich der einzige, der fast ausschliesslich von etwa einem Dutzend ehrenamtlicher Administratoren aus aller Welt – USA, Australien, Großbritannien, Deutschland, Island, Frankreich und Litauen – betreut wird.
Zu Spitzenzeiten verzeichnet die Wikipedia 16.000 Zugriffe pro Sekunde (!). Würden diese alle direkt auf die 12 Datenbank-Server durchgereicht, käme es aufgrund der Überlast unweigerlich zu einem Denial of Service – die Wikipedia würde nicht mehr antworten.
Die Lösung besteht darin, häufige und wiederholte Anfragen in großen Proxy-Caches (Zwischenspeichern) – den Squids – vorzuhalten und diese nicht an die Apache-Webserver oder die Datenbank-Server weiterzuleiten.Ein Großteil der Seitenabrufe nicht-angemeldeter Benutzer wird von den Squids bedient: Momentan liegt die “hit-rate” (eine Anfrage wird aus dem Cache bedient) bei etwa 75 Prozent. Besonders bei Ereignissen wie z.B. der Fussball-Weltmeisterschaft bringen die Squids eine enorme Lasterleichterung.
Hier sieht man aber gleich das nächste große Problem, wenn man Zugriffsstatistiken erfassen möchte – da die durch die Proxy-Server bedienten Abfragen gar nicht mehr bis zur Datenbank durchkommen, können Sie auch einen dort aktiven Artikelzugriffszähler nicht erhöhen.
Eine Möglichkeit wäre nun, zusätzlich auf den Squids Abfragestatistiken zu erfassen und diese über die Gesamtzahl der Rechner zu aggregieren. Auch dies ist aus Performance-Gründen keine Option.
Eine clevere Idee – wenn auch inspiriert durch die russischsprachige Wikipedia – hat vor zwei Wochen Leon Weber umgesetzt. Sein Tool WikiCharts ist seit heute allgemein zugänglich. Eine Ankündigung und Diskussion findet sich in der Mailingliste der deutschsprachigen Wikipedia.
Durch eine Ergänzung der für alle Benutzer verwendete JavaScript-Vorlage um einen Pagecounter-Teil wird der Name des aufgerufenen Artikels (das Lemma) an den Toolserver übergeben und dort gespeichert. Diese Vorgehensweise belastet die Wikimedia-Server kaum und berücksichtigt fast alle Artikelaufrufe – auch solche, die durch die Squids bedient werden.
Um eine Überlastung des Toolservers zu vermeiden wird nicht jeder einzelne Artikelaufruf gelogged, sondern nur jeder 750ste. Nach zwei Wochen kann man sich nun erste Ergebnisse der Top 100 aufgerufenen Artikel ansehen.
Leider löst das Tool von Leon immer noch nicht das Problem, zu einem gegebenen Artikel eine ungefähre Schätzung der Aufrufe zu bekommen, wenn sich dieser nicht in den Top 100 befindet.
28. Juli 2006 um 22:01 Uhr
Also pendelt sich die Welt irgendwo zwischen Intimrasur, Vagina und Israel ein. Schön ;)
28. Juli 2006 um 22:49 Uhr
Zu: “Leider löst das Tool von Leon immer noch nicht das Problem, zu einem gegebenen Artikel eine ungefähre Schätzung der Aufrufe zu bekommen, wenn sich dieser nicht in den Top 100 befindet.”
Doch, das geht: Man kann die 100 auf eine höhere Zahl ausweiten und findet so auch Aufrufe beispielsweise aus der TOP 1000.
Siehe: http://textundblog.de/?p=1101
28. Juli 2006 um 22:56 Uhr
2 kleine Anmerkungen:
-Es sind offiziell nur noch 3 Serverstandorte, Paris lieferte schon lange keine Seiten mehr aus und ist mittlerweile (laut Jeluf) auch offiziell kein Serverstandort mehr
-Es ist möglich sich die Top1000 (oder jede andere Zahl zwischen 1 und 1000 ;)) bei Leon ausgeben zu lassen.
29. Juli 2006 um 17:07 Uhr
Wikicharts und Dornfinger…
Seit 2004 der Besucherzähler der Wikipedia aus Performancegründen abgeschaltet wurde, lagen den Wikipedisten keine verlässlichen Zahlen mehr über die Besucherbewegungen auf ihren Seiten vor. Das hat sich nun wieder geändert: Die Wikicharts, seit 1…
30. Juli 2006 um 11:29 Uhr
Peinlich, peinlich. Das mit Paris war mir ganz durch die Lappen gegangen.
Das Problem der umgekehrten Zuordnung – dem Schliessen von einem Lemma auf dessen Gewichtung – besteht natürlich weiterhin, auch wenn man aus den 100 Einträgen auf 1000 macht.
31. Juli 2006 um 01:41 Uhr
[...] Eine sehr ausführliche Erklärung der ganzen Geschichte findet man bei Wikipedistik. Da klärt sich auch die Frage, warum so ein Chart überhaupt in dieser Form notwendig ist, und vor Allem, warum die Zugriffszahlen für die Artikel so klein sind. Circa 6.000 Aufrufe täglich sind einfach viel zu wenig. [...]