Jakob Voss hat bereits am 10. April sein Paper “Collaborative thesaurus tagging the Wikipedia way” veröffentlicht, auf das ich bisher nicht hingewiesen habe. Er beschäftigt sich darin mit der Kategorisierung von Wikipedia-Artikeln und vergleicht diese sowohl mit herkömmlichen hierarchischen Klassifikationen (am Beispiel der DDC), als auch mit den durch das Web 2.0 bekannt gewordenen “Folksonomies” – also der gemeinschaftlichen Kategorisierung von Inhalten durch Verschlagwortung, wie sie zum Beispiel beim Bilderdienst flickr genutzt wird.
Im Paper wird auch kurz auf die Probleme und die Verwirrung verwiesen, die mit der Einführung des Kategoriesystems in der Wikipedia einhergingen: Mitte 2004 wurde die Möglichkeit zur Kategorisierung von Artikeln in MediaWiki eingeführt, ohne dass vorab klar war, in welcher Form diese Funktionalität genutzt werden sollte. Wikipedianer, die damals dabei waren, werden sich noch erinnern. Mailinglistenarchive und die entsprechenden Diskussionsseiten in der Wikipedia haben die Entwicklung bis zur heutigen Verwendung konserviert.
Jakob betrachtet die Unterschiede der Klassifikationssysteme (“Flache Struktur” bei Folksonomies vs. “Hierarchien” bei Wikipedia-Kategorien und hierarchischen Klassifikationen) und weist auf Probleme wie die in der Wikipedia verwendeten Polyhierarchien (“nicht strikte” Hierarchien) hin.

Im folgenden untersucht Jakob statistisch die Verteilung von Deskriptoren pro Eintrag und Einträgen pro Deskriptor unter anderem für die DDC, die englischsprachige Wikipedia und die Folksonomy des Social-Bookmarking-Dienstes del.icio.us, sowie die Level der Deskriptoren in der Hierarchie bei DDC und Wikipedia.
In seinem Posting bei Wikimetrics nennt Jakob kurz gewonnene Erkenntnisse:
I found some basic properties in structural distributions of classification, thesaurus and flat collaborative tagging:
- The number of tags per record (categories per article) is distributed exponentially with a power law tail. This also applies for the number of supercategories per category
- The level (depth) of des[c]riptors in hierarchical systems is normally distributed
- The number of records per tag (articles per category) follows a power law
(An der Uhrzeit seines Postings erkennt man den wahren Forscher…)
Diesen Beitrag kommentieren