<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule"
>

<channel>
	<title>Wikipedistik &#187; Statistik</title>
	<atom:link href="http://wikipedistik.de/tag/statistik/feed/" rel="self" type="application/rss+xml" />
	<link>http://wikipedistik.de</link>
	<description>Nutzung von Wikis als Wissensmanagement unterstützende Systeme in Unternehmen</description>
	<lastBuildDate>Thu, 02 Jun 2011 21:06:26 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.3</generator>
<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
		<item>
		<title>Stagniert die Wikipedia?</title>
		<link>http://wikipedistik.de/2009/11/19/stagniert-die-wikipedia/</link>
		<comments>http://wikipedistik.de/2009/11/19/stagniert-die-wikipedia/#comments</comments>
		<pubDate>Thu, 19 Nov 2009 10:20:48 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Wissenschaftliches]]></category>
		<category><![CDATA[Christian Bahls]]></category>
		<category><![CDATA[Exklusionismus]]></category>
		<category><![CDATA[Inklusionismus]]></category>
		<category><![CDATA[Löschkandidaten]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/?p=479</guid>
		<description><![CDATA[<div class="caption right"><img src='http://wikipedistik.de/wp-content/uploads/2009/11/waage-1.png' alt='Waage' /></div>
<p> Christian Bahls hat sich die Logdateien von der deutschsprachigen Wikipedia <a href="http://pfau.e-technik1.uni-rostock.de/wikipedia-new-deletes.html" class="liexternal">genauer angeschaut</a> und kommt zum Schluss, dass die Wikipedia langsam stagniert.</p>
<p>Liest man den Text ungenau, verfestigt sich schnell die Erkenntnis, dass soviele Artikel gelöscht werden, wie hinzukommen (siehe zweites Bild + Erklärung). <strong>Das ist jedoch nicht der Fall.</strong></p>
<p><!--more-->Christian weist selbst auf das methodische Problem hin: Er schaut sich zwar <strong>alle Löschungen</strong> an. Dazu gehören neben Löschungen von kompletten Artikeln aus unterschiedlichsten Gründen (Ergebnis von Löschdiskussion, Urheberrechtsverletzungen, &#8230;) auch Tastaturtests und &#8220;Simon stinkt&#8221;-Neuanlagen.</p>
<p>Gleichzeitig betrachtet er im Gegenzug die Neuanlagen, <strong>die am Ende des Tages noch nicht gelöscht sind</strong> (vermutlich also Artikel in halbwegs akzeptabler Qualität).</p>
<p>Sinnvolle Ergebnisse kann man bei gleichzeitiger Betrachtung von Neuanlagen und Löschungen aber nur erhalten, wenn man</p>
<ul>
<li><em>a) <strong>alle</strong> Neuanlagen mit <strong>allen</strong> Löschungen in Bezug setzt</em> oder</li>
<li><em>b) <strong>sinnvolle</strong> Artikelneuanlagen mit <strong>regulären</strong> Artikellöschungen (keine Schnelllöschungen!) in Bezug setzt.</em></li>
</ul>
<p>Ansatz b) ist sehr kompliziert, da nicht automatisch auswertbar. Ansatz a) bietet sich für eine nähere Untersuchung an.</p>
<p>Nur um das methodische Problem zu verdeutlichen: Erhöht sich die Anzahl von &#8220;Nicht-Artikel-Neuanlagen&#8221; durch Vandalismus an einem Tag um 1.000 Stück, so werden auch diese 1.000 Stück schnellgelöscht, fließen in die Statistik ein und zeigen, dass dann wesentlich mehr gelöscht wird, als den Tag übersteht.</p>
<p>Konkret ist es so, dass die Wikipedia beständig linear wächst. Dies kann man beispielsweise der Seite <a href="http://de.wikipedia.org/wiki/Wikipedia:Meilensteine" rel="nofollow" class="liwikipedia">Wikipedia:Meilensteine</a> entnehmen. Ich habe den Ersteller der Grafik auf der Seite gebeten, dass er sie noch einmal auf den aktuellen Stand bringt (momentan Juni 2009).</p>
<p>Ich freue mich über weitere Untersuchungen zum Thema!</p>
<p><strong>Update</strong>: Die Meilensteingrafik wurde aktualisiert. Vielen Dank an Chumwa.</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2009/11/19/stagniert-die-wikipedia/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Das Mekka der Inklusionisten?</title>
		<link>http://wikipedistik.de/2009/10/26/das-mekka-der-inklusionisten/</link>
		<comments>http://wikipedistik.de/2009/10/26/das-mekka-der-inklusionisten/#comments</comments>
		<pubDate>Mon, 26 Oct 2009 13:47:25 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Wissenschaftliches]]></category>
		<category><![CDATA[English]]></category>
		<category><![CDATA[Exklusionisten]]></category>
		<category><![CDATA[Inklusionisten]]></category>
		<category><![CDATA[Kai Biermann]]></category>
		<category><![CDATA[Löschkandidaten]]></category>
		<category><![CDATA[Simpsons]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wikipedistik]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/?p=453</guid>
		<description><![CDATA[<div class="caption right"><img src='http://wikipedistik.de/wp-content/uploads/2009/10/waage.png' alt='Waage' /></div>
<p> In der <a href="http://aggregat7.ath.cx/2009/10/19/99-aller-deutschen-sind-irrelevant" class="liexternal">aktuellen</a> <a href="http://notes.computernotizen.de/2009/10/20/ohne-relevanzkriterien-keine-wikipedia/" class="liexternal">Debatte</a>, die zum <a href="http://wikipedistik.de/2009/10/20/unterirdische-diskussionskultur/" class="liinternal">meistkommentierten Beitrag</a> auf diesem Blog geführt hat, wurde häufig in verschiedenen Ausprägungen die Behauptung aufgestellt, dass die <a href="http://de.wikipedia.org/" rel="nofollow" class="liwikipedia">deutschsprachige Wikipedia</a> tendenziell exklusionistisch eingestellt ist und die <a href="http://en.wikipedia.org/" rel="nofollow" class="liwikipedia">englischsprachige Wikipedia</a> tendenziell inklusionistisch.</p>
<p>Kai Biermann behauptete so in <a href="http://www.zeit.de/digital/internet/2009-10/wikipedia-streit-fefe?page=all" class="liexternal">einem Artikel in der Zeit</a> gar <em>&#8220;In der englischen Wikipedia haben letztere [die Inklusionisten] die Oberhand, in der deutschen erstere [die Exklusionisten].&#8221;</em></p>
<p>Diese Aussagen werden allerdings nicht belegt. Während es richtig ist, dass es in der englischensprachigen Wikipedia beispielsweise zu jeder <a href="http://en.wikipedia.org/wiki/Bart_vs._Lisa_vs._the_Third_Grade" rel="nofollow" class="liwikipedia">Simpsons-Folge</a> einen Artikel gibt, dieses aber zu meinem Bedauern in der deutschsprachigen Wikipedia unerwünscht ist, ging in der Debatte auch der Link zum Lemma <a href="http://de.wikipedia.org/wiki/Bauchnabelfussel" rel="nofollow" class="liwikipedia">Bauchnabelfussel</a> durch die Netzgemeinde (den es zugegebenermaßen <em>auch</em> in der englischsprachigen <acronym title="Wikipedia">WP</acronym> gibt).</p>
<p>Ich persönlich glaube allerdings <em>nicht</em> daran, dass Löschungen in der englischsprachigen <acronym title="Wikipedia">WP</acronym> grundsätzlich anders behandelt werden, als im deutschen Schwesterprojekt. Das kann ich aber genauso wenig belegen&#8230; damit ist es also mal wieder Zeit für etwas <a href="http://de.wikipedia.org/wiki/Wikipedia:Wikipedistik" rel="nofollow" class="liwikipedia">Wikipedistik</a>!</p>
<p><!--more-->Ich habe mir die Löschkandidaten von August und September diesen Jahres in beiden Sprachversionen angeschaut und untersucht, wie viele davon &#8220;erfolgreich&#8221; (je nachdem, wie man es nimmt&#8230;) waren. Die dazu verwendete Metrik habe ich vergleichsweise einfach gewählt: </p>
<ul>
Ich extrahiere die Löschkandidaten-Seiten pro Tag und zähle die Löschanträge im Artikelnamensraum, anschließend schaue ich mir an, ob die Lemmata jetzt noch existieren oder nicht.
</ul>
<p>Die Ergebnisse haben mich erstaunt. Während ich nicht von grundsätzlichen Unterschieden ausgegangen bin, hätte ich mir schon vorstellen können, dass die englischsprachige Wikipedia zumindest leicht zum Inklusionismus tendiert. Tatsächlich ist das Verhältnis von durchgeführten Löschungen zur Anzahl der Löschkandidaten <strong>nahezu gleich</strong>.</p>
<p>Von den englischen Löschkandidaten im <em>August 2009</em> wurden <strong>59,17&nbsp;%</strong> der Artikel gelöscht. Im gleichen Zeitraum traf <strong>61,08&nbsp;%</strong> der deutschen Artikel dasselbe Schicksal. Im <em>September</em> drehte sich das Blatt &#8211; während <strong>61,04&nbsp;%</strong> der englischen Artikel ins Gras beißen mussten, wurde &#8220;nur&#8221; <strong>59,5&nbsp;%</strong> der deutschen Artikel gelöscht.</p>
<p>Fasst man beide untersuchten Monate zusammen, so ergibt sich folgendes Bild:<br />
<img src="http://chart.apis.google.com/chart?cht=p&#038;chs=400x200&#038;chd=t:3083,2052&#038;chds=0,5000&#038;chco=FA9B39&#038;chp=4.7&#038;chl=60,04%|&#038;chtt=L%C3%B6schungen+WP+%28en%29|Aug/Sep+2009&#038;chdl=Lemma+gel%C3%B6scht|Lemma+existiert"/></p>
<p><img src="http://chart.apis.google.com/chart?cht=p&#038;chs=400x200&#038;chd=t:1964,1292&#038;chds=0,5000&#038;chco=FA9B39&#038;chp=4.7&#038;chl=60,32%|&#038;chtt=L%C3%B6schungen+WP+%28de%29|Aug/Sep+2009&#038;chdl=Lemma+gel%C3%B6scht|Lemma+existiert"/></p>
<p>Im untersuchten Zeitraum wurden also in beiden Sprachversionen <strong>60&nbsp;%</strong> der Löschanträge im Sinne des Antragstellers entschieden. Legt man die Annahme zugrunde, dass Löschanträge in der englischsprachigen <acronym title="Wikipedia">WP</acronym> nicht grundsätzlich anders gestellt werden, als in der deutschsprachigen <acronym title="Wikipedia">WP</acronym>, scheint mir viel dafür zu sprechen, dass es keine großen Unterschiede in diesem Bereich zwischen den beiden Sprachversionen gibt.</p>
<p>Ich habe für den 1.-14. September eine Gegenprobe zum Test der Metrik gemacht, indem ich die Löschkandidaten-Ergebnisse per Hand ausgezählt habe. Aufgrund von verschiedenen Faktoren (z.B. Falschschreibungen, doppelten Inhalten) habe ich im Testzeitraum die tatsächlichen Werte mit der gewählten Metrik leicht überschätzt. Für die Wahl spricht aber, dass sie verständlich, nachvollziehbar und leicht reproduzierbar ist (und vor allem: einfach automatisiert werden kann).</p>
<p>Dennoch muss man natürlich festhalten: Eine rein quantitative Untersuchung kann zwar Anhaltspunkte geben und als Ausgangspunkt für weitere Hypothesen dienen &#8211; für eine umfassende Erklärung braucht man allerdings eine <a href="http://imihome.imi.uni-karlsruhe.de/nquantitative_vs_qualitative_methoden_b.html" class="liexternal">qualitative Methode</a>.</p>
<p>So ist in der englischsprachigen Wikipedia die Gesamtzahl der Löschanträge (5.135) im untersuchten Zeitraum in Bezug zum gesamten Artikelkorpus (~3.070.000 Artikel) niedriger, als die Zahl der Anträge (3.256) in der deutschsprachigen Version (~970.000 Artikel).</p>
<p>Ob das nun wiederum daran liegt, dass in der deutschsprachigen Wikipedia schneller zum Mittel eines Löschantrags gegriffen wird &#8211; oder ob die Artikel in der deutschsprachigen Wikipedia gar im Schnitt schlechter sind, als die in der englischsprachigen Wikipedia, so dass ein Löschantrag eher gestellt wird&#8230; </p>
<p>&#8230;das bedarf dann einer weiterführenden Untersuchung. Viel Spaß. :-)</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2009/10/26/das-mekka-der-inklusionisten/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Das Wikipedia-Lexikon in einem Band</title>
		<link>http://wikipedistik.de/2008/04/22/das-wikipedia-lexikon-in-einem-band/</link>
		<comments>http://wikipedistik.de/2008/04/22/das-wikipedia-lexikon-in-einem-band/#comments</comments>
		<pubDate>Tue, 22 Apr 2008 09:34:19 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Beate Varnhorn]]></category>
		<category><![CDATA[Bertelsmann]]></category>
		<category><![CDATA[Brockhaus]]></category>
		<category><![CDATA[Domas Mituzas]]></category>
		<category><![CDATA[Einbänder]]></category>
		<category><![CDATA[Mathias Schindler]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/?p=342</guid>
		<description><![CDATA[<p><img src="http://wikipedistik.de/wp-content/uploads/2008/04/print.png" alt="WP goes print" title="WP goes print" width="200" height="153" class="alignright size-full wp-image-343" /><br />
Am 26. Januar 2006 schrieb ich den Beitrag <a href="http://wikipedistik.de/2006/01/26/die-gedruckte-wikipedia-kommt/" class="liinternal">Die gedruckte Wikipedia kommt!</a> über die Pläne der Zenodot Verlagsgesellschaft, die Wikipedia in 100 Bänden zu drucken.</p>
<p>Diese Projekt wurde allerdings für unbestimmte Zeit <a href="http://wikipedistik.de/2006/03/23/wikipedia-wird-vorerst-nicht-gedruckt/" class="liinternal">auf Eis gelegt</a>, da das Interesse an diesem Projekt nicht ausreichte.</p>
<p>Etwas weniger ambitioniert, dafür aber sichere Sache, ist das <a href="http://de.wikipedia.org/wiki/Wikipedia:Einb%C3%A4nder" rel="nofollow" class="liwikipedia">Wikipedia-Lexikon in einem Band</a>. Das einbändige Print-Nachschlagewerk des <a href="http://de.wikipedia.org/wiki/Wissen_Media_Verlag" rel="nofollow" class="liwikipedia">Bertelsmann Lexikon Institut</a> ist ab September 2008 zum Preis von 19,95 Euro im Buchhandel erhältlich.</p>
<p><!--more-->Dafür erhält man 1.000 Seiten mit den 50.000 am häufigsten genutzten Lemmata der Wikipedia, die anhand der Seitenzugriffe der deutschsprachigen Wikipedia bestimmt wurden. Die entsprechenden Daten stammen aus einer Auswertung der <a href="http://dammit.lt/wikistats/" class="liexternal">Statistiken von Domas Mituzas</a>, die uns bereits den lang ersehnten <a href="http://achim-raschka.net/blog/?p=8" class="liexternal">Artikel-Zähler</a> beschert haben. Etwas genauer wird die Auswahl von Mathias <a href="http://lists.wikimedia.org/pipermail/wikide-l/2008-April/020505.html" class="liexternal">in der Mailingliste</a> der deutschsprachigen Wikipedia erklärt.</p>
<p>Die Planungen an diesem Werk gehen übrigens bis in das Jahr 2004 zurück. Wenige Monate nach Gründung des <a href="http://wikimedia.de/" class="liexternal">Wikimedia Deutschland e.V.</a> legte Mathias, dem das Projekt als Freund bedruckter toter Bäume sehr am Herzen liegt, eine <a href="http://de.wikipedia.org/wiki/Benutzer:Mathias_Schindler/concise" rel="nofollow" class="liwikipedia">entsprechende Seite</a> in der Wikipedia an.</p>
<p>Die Umsetzung dieser Idee ist lange fällig und aus verschiedenen Gründen zu begrüßen.</p>
<ul>
<li>Ziel der Wikipedia ist die Verbreitung von Wissen &#8211; mit Hilfe einer Print-Version wird eine neue Zielgruppe angesprochen.</li>
<li>Die Inhalte des Einbänders bestehen jeweils aus den Einleitungsabsätzen der ausgewählten Lemmata, die &#8211; sofern nötig &#8211; entsprechend überarbeitet wurden. Diese Überarbeitungen fließen in die Wikipedia zurück.</li>
<li>Die Wikimedia Foundation erhält einen Euro pro verkauftem Exemplar.</li>
<li>&#8230;und auch wenn es einige wenige Personen innerhalb der Wikipedia nicht wahrhaben möchten, ist es ein Image-Gewinn für die Wikipedia.</li>
</ul>
<p>Im Vergleich zu Brockhaus, die sich <a href="http://wikipedistik.de/2008/02/12/brockhaus-das-ende-einer-aera/" class="liinternal">aus dem Print-Bereich zurückziehen</a> wollten (sich allerdings inzwischen wieder <a href="http://www.spiegel.de/netzwelt/web/0,1518,544722,00.html" class="liexternal">anders geäußert</a> haben), scheinen die Erfahrungen bei Bertelsmann anders gelagert zu sein.</p>
<p>Verlagsleiterin Dr. Beate Varnhorn meint dazu:</p>
<blockquote><p>Also, im Gegensatz zu Brockhaus bewerten wir den Markt für Print-Lexika weiterhin positiv. Wir verzeichnen konstant gute Verkaufszahlen, vor allem im Bereich der ein- bis dreibändigen Lexika und können auch nur beobachten, dass das Angebot an diesen Lexika in den letzten Jahren tatsächlich gestiegen ist. Das zeigt, denke ich doch deutlich, dass beide Lexikon-Formen ihre Berechtigung haben. Online-Lexika ebenso wie Offline-Lexika, die klassischen Lexika ebenso wie die user-generierten Lexika.</p></blockquote>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2008/04/22/das-wikipedia-lexikon-in-einem-band/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>10 Millionen Artikel in der Wikipedia</title>
		<link>http://wikipedistik.de/2008/03/29/10-millionen-artikel-in-der-wikipedia/</link>
		<comments>http://wikipedistik.de/2008/03/29/10-millionen-artikel-in-der-wikipedia/#comments</comments>
		<pubDate>Sat, 29 Mar 2008 04:25:20 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Brockhaus]]></category>
		<category><![CDATA[Jimmy Wales]]></category>
		<category><![CDATA[Meilenstein]]></category>
		<category><![CDATA[Nicholas Hilliard]]></category>
		<category><![CDATA[Pressemitteilung]]></category>
		<category><![CDATA[Quantität]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wikimedia]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2008/03/29/10-millionen-artikel-in-der-wikipedia/</guid>
		<description><![CDATA[<div class="caption right"><img src='http://wikipedistik.de/wp-content/uploads/2008/03/150px-nicholas_hilliard_021.jpg' alt='Nicholas Hilliard' /></div>
<p>Wenn ich schon gerade über <a href="http://wikipedistik.de/2008/03/28/eindrucksvoller-quantitaetsvergleich/" class="liinternal">Quantität</a> blogge&#8230;<br />
<!--nevermore--><br />
Die Wikipedia feiert ihren <strong>10-millionsten Artikel</strong>.</p>
<p>Wie jeder weiß, der sich auch nur kurz mit den <a href="http://de.wikipedia.org/wiki/Wikipedia:Meilensteine" rel="nofollow" class="liwikipedia">Meilensteinen</a> in der deutschsprachigen Wikipedia beschäftigt hat, ist es aufgrund unterschiedlicher Zählweisen und anderer Probleme nicht wirklich möglich, einen genauen Kandidaten zu identifizieren.</p>
<p>Da das allerdings Aussenseitern schwierig zu erklären ist, einigt man sich schließlich doch immer auf einen &#8220;möglichst passenden&#8221; Meilenstein-Artikel :-).</p>
<p>Im aktuellen Fall ist dies der Eintrag über <a href="http://hu.wikipedia.org/wiki/Nicholas_Hilliard" rel="nofollow" class="liwikipedia">Nicholas Hilliard</a>, einen Künstler aus dem 16. Jahrhundert, in der ungarischen Wikipedia.</p>
<p>Jimbo wird dazu wie folgt zitiert:</p>
<blockquote><p>Jimmy Wales, founder of Wikipedia and the Wikimedia Foundation remarked on the occasion of this milestone, &#8220;It&#8217;s incredible to think that we&#8217;ve grown from one Wikipedia in English to over 250 language Wikipedias. Ten million articles is something we could never have imagined happening so fast when we embarked on Wikipedia in 2001. This is a testament to the incredible dedication of our volunteers around the world.&#8221;</p></blockquote>
<p>Interessanterweise erwähnt und verlinkt die <a href="http://wikimediafoundation.org/wiki/Press_releases/10M_articles" class="liexternal">Pressemitteilung der <acronym title="Wikimedia Foundation">WMF</acronym></a> auch den <a href="http://wikipedistik.de/2007/12/05/stern-titelthema-wie-gut-ist-wikipedia/" class="liinternal">Brockhaus-Wikipedia-Vergleichstest des Sterns</a>.</p>
<p>Insgesamt existiert die Wikipedia in mehr als 250 Sprachen. Eine <a href="http://meta.wikimedia.org/wiki/List_of_Wikipedias" class="liexternal">ausführliche Liste</a> mit Größenübersicht der einzelnen Sprachversionen findet sich auf Meta.</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2008/03/29/10-millionen-artikel-in-der-wikipedia/feed/</wfw:commentRss>
		<slash:comments>11</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Graue Listen gegen Spam</title>
		<link>http://wikipedistik.de/2008/03/25/graue-listen-gegen-spam/</link>
		<comments>http://wikipedistik.de/2008/03/25/graue-listen-gegen-spam/#comments</comments>
		<pubDate>Tue, 25 Mar 2008 02:44:15 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Offtopic]]></category>
		<category><![CDATA[E-Mail]]></category>
		<category><![CDATA[Graylisting]]></category>
		<category><![CDATA[Greylisting]]></category>
		<category><![CDATA[Ham]]></category>
		<category><![CDATA[Spam]]></category>
		<category><![CDATA[SpamAssassin]]></category>
		<category><![CDATA[Statistik]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2008/03/25/graue-listen-gegen-spam/</guid>
		<description><![CDATA[<div class="caption right"><img src='http://wikipedistik.de/wp-content/uploads/2008/03/spam-small.png' alt='Spam is evil' /></div>
<p>Das <a href="http://de.wikipedia.org/wiki/Spam" rel="nofollow" class="liwikipedia">Spam</a>-Problem hat in den letzten Monaten bei mir etwas überhand genommen. Der Großteil der Mails, die an eine meiner Domains gesendet werden, landen auf einem gemeinsamen Server und wurden bisher ausschließlich <a href="http://spamassassin.apache.org/" class="liexternal">SpamAssassin</a> vorgeworfen.</p>
<p>Der Assassine leistet hervorragende Arbeit. Um Spam (= unerwünschte Mail) von Ham (= erwünschte Mail) zu unterscheiden, führt er eine Reihe von Tests durch:</p>
<ul>
<li>Prüfung der Mails auf statistische Spam-Merkmale (z.B. &#8220;Absender aus Korea&#8221;, &#8220;Mail nur in GROSSBUCHSTABEN&#8221;, &#8230;)</li>
<li>Abfrage von <a href="http://de.wikipedia.org/wiki/Realtime_Blackhole_List" rel="nofollow" class="liwikipedia">RBLs und DNSBLs</a></li>
<li>Abfrage von Prüfsummen-basierten Filter-Diensten</li>
<li><a href="http://de.wikipedia.org/wiki/Bayesscher_Filter" rel="nofollow" class="liwikipedia">Bayes-Filterung</a></li>
</ul>
<p>Das Problem: Die Durchführung dieser Tests ist ressourcen-intensiv. Neben einer Menge Hauptspeicher belegt die Spam-Filterung zusätzlich CPU-Arbeitszeit und die Abfragen an netzbasierte Dienste summieren sich auch.</p>
<p>Schaut man sich einmal das Aufkommen von meiner Mail der letzten Monate an&#8230;</p>
<div class="caption center"><img src='http://wikipedistik.de/wp-content/uploads/2008/03/mailaufkommen-small.png' alt='Mailaufkommen 2007/2008' /><br />Mailaufkommen (Größter Teil meiner Mailadressen) 2007/2008</div>
<p>&#8230;so sieht man, dass die Situation wohl eher nicht besser wird.</p>
<p><!--more-->Neben dem Problem der Ressourcen-Auslastung (das z.B. dazu führt, dass die Webseiten auf dem Server &#8211; unter anderem Wikipedistik &#8211; langsamer ausgeliefert werden) kommt noch dazu, dass die Anzahl der <em>false negatives</em> steigt. Unter &#8220;false negative&#8221; versteht man Mails, die Spam sind, aber nicht als solcher erkannt werden. Diese Nachrichten verstopfen die Inbox und verursachen Aufwand, da sie von Hand gelöscht werden müssen.</p>
<p>SpamAssassin ist gut &#8211; aber kein Spamfilter hat eine Erkennungsrate von 100 Prozent. Daraus folgt: Je mehr Mails durch den Filter gehen, desto mehr Problemfälle treten auf. Dank sinnvoller Einstellung gibt es bei mir jedoch so gut wie keine <em>false positives</em>, also Mails, die erwünschte Mails darstellen, aber als Spam erkannt wurden. Der Preis für eine geringere Wahrscheinlichkeit an &#8220;false positives&#8221; ist jedoch eine höhere Wahrscheinlichkeit für &#8220;false negatives&#8221;.</p>
<p>Die einfachste Lösung um die Anzahl an Fehleinordnungen wieder zu senken ist einleuchtend: Die Anzahl der von SpamAssassin zu bearbeitenden Mails muss gesenkt werden. Dies führt dann zusätzlich zu einem weniger ausgelasteten, performanteren System.</p>
<p><strong>Greylisting</strong><br />
Aus diesem Grund habe ich am Karfreitag um 7:00 Uhr auf meinem Mailserver <a href="http://de.wikipedia.org/wiki/Greylisting" rel="nofollow" class="liwikipedia">Greylisting</a> aktiviert.</p>
<p><em>Whitelisting</em> bedeutet, dass Mail nach bestimmten Kriterien immer angenommen wird, während beim <em>Blacklisting</em> die Mail immer abgelehnt wird. <em>Greylisting</em> nutzt hingegen eine Besonderheit des SMTP-Protokolls: Kann eine Mail nicht zugestellt werden, so versucht es der entsprechende Server nach einer gewissen Zeitspanne erneut.</p>
<p>Während diese Funktionalität in jedem vernünftigem Mailsystem umgesetzt ist, so gilt dies nicht für eine Vielzahl von Spam-Software, die wesentlich einfacher gestrickt ist und in der Regel nur einen Zustellversuch macht.</p>
<p>Kontaktiert ein einlieferndes System meinen Mailserver, so gibt es folgende Daten an:</p>
<ul>
<li>IP-Adresse des absendenden Mailservers</li>
<li>E-Mail-Adresse des E-Mail-Senders</li>
<li>E-Mail-Adresse des E-Mail-Empfängers</li>
</ul>
<p>Wurde noch nie Mail empfangen, auf die dieses Trippel zutrifft, so wird die Maileinlieferung mit einem temporären Fehler quittiert. Ein herkömmliches Mailsystem versucht dann nach einer kurzen Zeitspanne eine erneute Einlieferung, die dann akzeptiert wird. Bei der Vielzahl von einmaligen Zustellversuchen von Spam führt dies dazu, dass die betreffende Mail gar nicht erst in meinem System landet und demnach auch nicht von SpamAssassin untersucht werden muss.</p>
<p>Systeme, die in der Greylist gelandet sind und danach eine erfolgreiche Zustellung durchführen, werden automatisch in die Whiltelist aufgenommen. So tritt der Nachteil der nicht unmittelbar ankommenden Mail nur beim ersten Kontakt mit einem bisher unbekannten Trippel auf. Trotzdem muss natürlich dieser Nachteil mit einem möglichen Vorteil abgewogen werden.</p>
<p>Wie meine Abwägung ausfällt?<br />
Das muss ich glaube ich nicht extra in Worten beschreiben.</p>
<p>Die folgenden Graphen sprechen für sich:</p>
<div class="caption center"><img src='http://wikipedistik.de/wp-content/uploads/2008/03/angenommene-mails.png' alt='Angenommene (und verarbeitete) Mails' /><br />Angenommene (und verarbeitete) Mails &#8211; Massiver Rückgang seit Freitag, 7:00 Uhr</div>
<div class="caption center"><img src='http://wikipedistik.de/wp-content/uploads/2008/03/abgelehnte-mails.png' alt='(Durch Greylisting) abgelehnte Mails' /><br />(Durch Greylisting) abgelehnte Mails &#8211; Aktivierung ab Freitag, 7:00 Uhr</div>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2008/03/25/graue-listen-gegen-spam/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Deutschsprachige Wiki/pedia-Domains</title>
		<link>http://wikipedistik.de/2008/02/28/deutschsprachige-wikipedia-domains/</link>
		<comments>http://wikipedistik.de/2008/02/28/deutschsprachige-wikipedia-domains/#comments</comments>
		<pubDate>Thu, 28 Feb 2008 02:14:08 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Kleinkram]]></category>
		<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Domains]]></category>
		<category><![CDATA[Pedia]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wiki]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2008/02/28/deutschsprachige-wikipedia-domains/</guid>
		<description><![CDATA[<div class="caption right"><img src='http://wikipedistik.de/wp-content/uploads/2008/02/www-small.png' alt='World Wide Web' /></div>
<p>Aus der Reihe &#8220;unnützes Wissen&#8221; vermelde ich heute:<br />
<!--nevermore--><br />
Es gibt <strong>2.341</strong> Domains unterhalb der <a href="http://de.wikipedia.org/wiki/Top-Level-Domain" rel="nofollow" class="liwikipedia">Top-Level-Domain</a> .de, die das Wort <em>&#8220;wiki&#8221;</em> enthalten. </p>
<p>Wobei man fairer Weise dabei erwähnen muss, dass auch alle &#8220;Wikinger&#8221;-Kombinationen darunter fallen.</p>
<p>Hingegen gibts es nur <strong>711</strong> Domains mit der Zeichenkombination <em>&#8220;pedia&#8221;</em>.</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2008/02/28/deutschsprachige-wikipedia-domains/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Mitgliederversammlung 2007, samstägliches Rahmenprogramm</title>
		<link>http://wikipedistik.de/2007/07/02/mitgliederversammlung-2007-samstaegliches-rahmenprogramm/</link>
		<comments>http://wikipedistik.de/2007/07/02/mitgliederversammlung-2007-samstaegliches-rahmenprogramm/#comments</comments>
		<pubDate>Mon, 02 Jul 2007 19:41:51 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Chapter]]></category>
		<category><![CDATA[Delphine Ménard]]></category>
		<category><![CDATA[Fundraising]]></category>
		<category><![CDATA[JBB]]></category>
		<category><![CDATA[JeLuF]]></category>
		<category><![CDATA[Julian Höppner]]></category>
		<category><![CDATA[Mitgliederversammlung]]></category>
		<category><![CDATA[Nina Gerlach]]></category>
		<category><![CDATA[Notafish]]></category>
		<category><![CDATA[OTRS]]></category>
		<category><![CDATA[Recht]]></category>
		<category><![CDATA[Server]]></category>
		<category><![CDATA[Spenden]]></category>
		<category><![CDATA[SPOF]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Technik]]></category>
		<category><![CDATA[Thorsten Feldmann]]></category>
		<category><![CDATA[Verein]]></category>
		<category><![CDATA[Wikimedia]]></category>
		<category><![CDATA[Wikimedia Support Team]]></category>
		<category><![CDATA[Wikipedia]]></category>
		<category><![CDATA[Workshop]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2007/07/02/mitgliederversammlung-2007-samstaegliches-rahmenprogramm/</guid>
		<description><![CDATA[<div class="caption center"><img src='http://wikipedistik.de/wp-content/uploads/2007/07/wikimedia_mv.jpg' alt='Mitgliederversammlung 2007, Rahmenprogramm' /><br />Lecker Grillen auf der MV 2007 (Foto: Elke Wetzig)</div>
<p>Am Vortag der <a href="http://meta.wikimedia.org/wiki/Mitgliederversammlung_2007" class="liexternal">Mitgliederversammlung 2007</a> des <a href="http://wikimedia.de/" class="liexternal">Wikimedia Deutschland e.V.</a> fand ein eintägiges Rahmenprogramm mit interessanten Workshops statt, zu dem auch Nichtmitglieder eingeladen waren.</p>
<p>Um das Programm zeitlich an einem Tag unterbringen zu können, war es nötig, mehrere Vorträge zur gleichen Zeit anzubieten. Was natürlich das Problem aufwarf, sich für bevorzugte Themen entscheiden zu müssen.</p>
<p>Die Programmteile waren jeweils in Zwei-Stunden-Blöcke unterteilt und für mich eigentlich ohne Ausnahme sehr interessant. Im Einzelnen wurden die folgenden Workshops angeboten:</p>
<ul>
<li>Juristische Grundlagen für den Wikimedia-Support</li>
<li>Wikimedia, an international movement</li>
<li>Wikimedia &#8211; Technische Architektur</li>
<li>Visionen und Reality Checks</li>
<li>Wikimedia-Projekte zielgerecht vermitteln</li>
</ul>
<p><!--more--><br />
<strong>Juristische Grundlagen für den Wikimedia-Support</strong><br />
Die <em>&#8220;Juristischen Grundlagen für den Wikimedia-Support&#8221;</em> wurden von <a href="http://www.jbb.de/html/?page=anwalt_3&#038;menue=10.3.anwalt_3" class="liexternal">Thorsten Feldmann</a> und <a href="http://www.jbb.de/html/?page=anwalt_7&#038;menue=10.3.anwalt_7" class="liexternal">Julian Höppner</a> vermittelt. Dieser Vortrag unterschied sich insoweit von den anderen, als dass er sowohl aufgrund des umfangreichen Themengebiets mit zwei Zwei-Stunden-Blöcken doppelt so lang war, als auch nicht für alle zugänglich war. Adressaten waren ausschließlich aktive <a href="http://de.wikipedia.org/wiki/WP:OTRS" rel="nofollow" class="liwikipedia">OTRS</a>&#8216;ler (von denen eine ganze Reihe anwesend war), bzw. Wikipedianer, die ein &#8220;berechtigtes Interesse&#8221; an dem Thema hatten.</p>
<p>Diese Zugangsbeschränkung war aufgrund der teilweise etwas heiklen Inhalte und vor allem aufgrund der Illustration anhand von konkreten Beispielfällen aus der Vergangenheit nötig. <small>(Der anwesende Reporter vom <a href="http://www.zdf.de/ZDFheute/inhalt/0/0,3672,5561728,00.html" class="liexternal">ZDF Morgenmagazin</a> wäre gerne noch geblieben&#8230;)</small></p>
<p>Von einer Reihe von OTRS&#8217;lern habe ich im Nachhinein mitbekommen, dass sie es als sehr hilfreich empfunden haben, &#8220;unsere Anwälte&#8221; einmal live kennenzulernen. Und auch für die Anwälte von <a href="http://www.jbb.de/" class="liexternal">JBB</a> war es interessant, einmal hinter die Kulissen der &#8220;Wikimedia Kommunikationszentrale&#8221; zu blicken. Beide waren von dem hohen Kenntnisstand des Wikimedia Support Teams gerade in Hinsicht auf das <a href="http://de.wikipedia.org/wiki/WP:URV" rel="nofollow" class="liwikipedia">Urheberrecht</a> sichtlich angetan.</p>
<p>Um die Quintessenz des ersten Teils des Workshops zusammenzufassen, lohnt es sich Feldmann zu zitieren:</p>
<blockquote><p><em>&#8220;Das deutsche Recht ist von vielen Abwägungsprozessen gekennzeichnet.&#8221;</em></p></blockquote>
<p><strong>Wikimedia, an international movement</strong><br />
Nach dem Mittagessen am Samstag hätte ich mich als OTRS-Vertreter zwar durchaus gerne weiter mit dem Thema beschäftigt, aber die gleichzeitige Diskussion mit Vertretern von verschiedenen internationalen Chapters der Wikimedia Foundation, mochte ich auch nicht verpassen. Organisiert wurde das Ganze von <a href="http://de.wikipedia.org/wiki/Benutzer:Nina" rel="nofollow" class="liwikipedia">Nina Gerlach</a> und <a href="http://de.wikipedia.org/wiki/Benutzer:Notafish" rel="nofollow" class="liwikipedia">Delphine Ménard</a>, anwesend waren Vertreter von Wikimedia Schweiz, Wikimedia Holland, Wikimedia Polen, Wikimedia Frankreich und natürlich Wikimedia Deutschland.</p>
<p>Abgesehen von dem interessanten Einblick in die Arbeit der anderen Chapter, gab es einige weitere Punkte, die diskutiert wurden: So wurden die Unterschiede zwischen den Chapters (als Graswurzel-Organisationen) und der <acronym title="Wikimedia Foundation">WMF</acronym> (auf die das nicht zutrifft) sowie mögliche Konkurrenz zwischen diesen angesprochen. Aber auch die Unterschiede innerhalb der verschiedenen Chapters wurden thematisiert.</p>
<p>Während Wikimedia Deutschland finanziell keine Not leidet, haben andere Chapter ein sehr geringes Spendenaufkommen. Das Thema Fundraising war somit zwangsweise ein wichtiges Thema. Neben den naheliegenden Gründen (schlecht aufzufindende Spendenseiten für lokale Chapters, kurze Existenz von Chapters) brachte Delphine auch ein Beispiel für kulturelle Unterschiede:</p>
<blockquote><p>Während Deutsche jemandem Geld spenden und dann erwarten, dass dieser die Spende sinnvoll verwendet um etwas damit zu erreichen, so sind die Franzosen erst dann freigiebiger, wenn sie sehen, dass der Geldempfänger bereits etwas geleistet hat.</p></blockquote>
<div class="caption center"><img border="1" src='http://wikipedistik.de/wp-content/uploads/2007/07/fundraising-germany-france-new-small.png' alt='Kulturelle Unterschiede im Umgang mit Spenden' /><br />Kulturelle Unterschiede im Umgang mit Spenden</div>
<p>Leider haben wir uns dann am Thema Fundraising etwas festgebissen, was sehr schade war, da so andere Bereiche zu kurz kamen. Eine zukünftige vergleichbare Veranstaltung sollte über einen deutlich größeren Zeitraum laufen, da so leider viele Fragen offen blieben.</p>
<p><strong>Wikimedia &#8211; Technische Architektur</strong><br />
Ebenfalls super interessant war der Vortrag von <a href="http://en.wikipedia.org/wiki/User:JeLuF" rel="nofollow" class="liwikipedia">JeLuF</a> mit dem Titel <em>&#8220;Wikimedia &#8211; Technische Architektur&#8221;</em>. Zuerst hatte ich etwas Sorgen, dass ich nicht allzuviel Neues erfahren würde, da ich Journalisten und Externe bereits seit geraumer Zeit mit einigen Informationen zu dem Thema versorge und aufgrund Eigeninteresses und eines Vortrages in der Vergangenheit eigentlich schon recht umfassend über Daten und Statistiken informiert bin.</p>
<p>Jeluf hat es jedoch prima geschafft aus interner Sicht eine geballte Ladung an interessanten Fakten zu präsentieren.  Um einmal ein paar (nicht mehr ganz aktuelle) Daten aus dem Vortrag zu nennen, die interessant sind, wenn man über die Wikipedia spricht:</p>
<ul>
<li>Die Wikipedia umfasst inzwischen mehr als 8 Millionen Artikel.</li>
<li>Insgesamt sind über 110 Millionen Artikelversionen im Zugriff.</li>
<li>Die Texte belegen (komprimiert gespeichert) 2,4 Terabyte.</li>
<li>Im Peak verarbeitet die Wikipedia 30.000 Anfragen pro Sekunde.</li>
<li>Das übertragene Datenvolumen beträgt im Peak 3 GBit/s Datenvolumen.</li>
<li>Etwa 350 Server sorgen dafür, dass der Betrieb mehr oder weniger problemlos läuft.</li>
<li>Die Hardware reicht von P4-Rechnern, bis zu Quadcore-Systemen.</li>
<li>Administriert wird das ganze von 4 Hauptadmins (Brion, Tim, Mark und Rob) und ~3-4 freiwilligen Helfern.</li>
</ul>
<p>Weitere Themen waren unter anderem die Reverse Squid Proxies, der Nutzeranstieg, die geografische Zuteilung der Nutzer via DNS auf die verschiedenen Rechenzentren (Tampa/Florida, Amsterdam/Niederlande. Seoul/Südkorea) genauere Hintergrundinformationen zum Caching und an welchen Stellen man bereits gerenderte Ausgaben erneut nutzen kann und noch vieles mehr.</p>
<p>Interessant waren besonders auch die Informationen zum memcached-Setup, der die Erklärung lieferte, warum manchmal bei einer Reihe von Nutzern die Anmeldedaten nicht gespeichert werden, sondern immer wieder erneut angefordert werden, während der Großteil der Benutzer keine Probleme wahrnimmt.</p>
<p>Etwas beunruhigend war es mitzubekommen, dass sämtliche Bilder der Wikimedia-Projekte nur auf einem Server liegen (mit 4 Terabyte Plattenspeicher), der somit einen <a href="http://de.wikipedia.org/wiki/SPOF" rel="nofollow" class="liwikipedia">SPOF</a> darstellt. Ein gestartetes Backup lief ~14 Tage. </p>
<p><strong>Ausklang</strong><br />
Abends schloss sich an das Programm noch ein geselliges Grillen im Hof, bzw. später ein geselliges Getränkekonsumieren am Main an, bei dem es genug Gelegenheit für Diskussionen rund um die Wikipedia gab.</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2007/07/02/mitgliederversammlung-2007-samstaegliches-rahmenprogramm/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>12 Jahre und 8 Monate</title>
		<link>http://wikipedistik.de/2007/06/25/12-jahre-und-8-monate/</link>
		<comments>http://wikipedistik.de/2007/06/25/12-jahre-und-8-monate/#comments</comments>
		<pubDate>Mon, 25 Jun 2007 19:14:51 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Dump]]></category>
		<category><![CDATA[FZW]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Umfang]]></category>
		<category><![CDATA[Wikipedia]]></category>
		<category><![CDATA[Wikipedia:Kurier]]></category>
		<category><![CDATA[WP 1.0]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2007/06/25/12-jahre-und-8-monate/</guid>
		<description><![CDATA[<p>12 Jahre und 8 Monate ist grob geschätzt die Zeit, die man einplanen sollte, wenn man plant die deutschsprachige Wikipedia komplett durchzulesen.<br />
<!--nevermore--><br />
Einen nimmermüden Quell mehr oder weniger sinnvollen Wissens stellt die Seite &#8220;<a href="http://de.wikipedia.org/wiki/Wikipedia:Fragen zur Wikipedia" rel="nofollow" class="liwikipedia">Fragen zur Wikipedia</a>&#8221; dar. Möglicherweise durch die <a href="http://wikipedistik.de/2006/03/23/wikipedia-wird-vorerst-nicht-gedruckt/" class="liinternal">auf Eis gelegten</a> Pläne der <a href="http://wikipedistik.de/2006/01/26/die-gedruckte-wikipedia-kommt/" class="liinternal"><acronym title="Wikipedia">WP</acronym> 1.0</a> inspiriert fragte dort am 6. Juni der Benutzer Horsefreund, wie viele DIN-A4 Seiten benötigt würden, um den gesamten Textbestand der deutschsprachigen Wikipedia zu drucken.</p>
<p>Der <a href="http://de.wikipedia.org/w/index.php?title=Wikipedia:Fragen_zur_Wikipedia&#038;oldid=32923723#Auf_wie_viele_DIN-A4_Seiten_passt_Wikipedia.3F" rel="nofollow" class="liwikipedia">daraufhin entstandenen Diskussion</a> kann man eine Reihe interessanter Fakten entnehmen: Ausgehend von der Größe des vorletzten <a href="http://download.wikipedia.org/dewiki/20070427/" rel="nofollow" class="liwikipedia">SQL-Dumps</a> gilt&#8230;</p>
<ul>
<li>&#8230;die deutsche Ausgabe der Wikipedia wird zu etwa <strong>663.869</strong> einseitig bedruckten DIN A4 Seiten (bei 5000 Zeichen pro Seite).</li>
<li>&#8230;legt man diese Blätter längs aneinander, so ergibt sich ein Papierstreifen von <strong>197 km und 169 m</strong> Länge.</li>
<li>&#8230;platzsparenderweise legt man die Blätter quer aneinander und erhält so eine Länge von nur <strong>139 km und 412 m</strong>.</li>
<li>&#8230;schreibt man stattdessen alle Buchstaben in nur eine Zeile, so wird diese <strong>6638 km und 688m</strong> lang.</li>
<li>&#8230;ausgehend von einem Papiergewicht von 80 g/m², hätte die ausgedruckte Vollversion ein Gesamtgewicht von etwa <strong>3.319 kg</strong>.</li>
<li>&#8230;und wenn man von einer Lesegeschwindigkeit von 5 Minuten pro Seite ausgeht, so benötigt man für die komplette Lektüre die im Titel angegebene Dauer von <strong>12 Jahren und 8 Monaten</strong>.</li>
</ul>
<p>Problematisch ist allerdings, dass die Wikipedia sich in der Zwischenzeit massiv weiterentwickelt. Wenn man bedenkt, dass die Wikipedia gerade erst einmal 6,5 Jahre alt ist, scheint mir das (zumindest quantitativ) kein schlechtes Ergebnis zu sein.</p>
<p><small>(via <a href="http://de.wikipedia.org/w/index.php?title=Wikipedia%3AKurier&#038;diff=32865511&#038;oldid=32847706" rel="nofollow" class="liwikipedia">Wikipedia:Kurier</a>)</small></p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2007/06/25/12-jahre-und-8-monate/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Die Enzyklopädie der Massen?</title>
		<link>http://wikipedistik.de/2007/05/27/die-enzyklopaedie-der-massen/</link>
		<comments>http://wikipedistik.de/2007/05/27/die-enzyklopaedie-der-massen/#comments</comments>
		<pubDate>Sun, 27 May 2007 03:03:03 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[Wissenschaftliches]]></category>
		<category><![CDATA[Daniel Baur]]></category>
		<category><![CDATA[Jörg-Olaf Schäfers]]></category>
		<category><![CDATA[Jimmy Wales]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2007/05/27/die-enzyklopaedie-der-massen/</guid>
		<description><![CDATA[<p><a href="http://fx3.org/blog/" class="liexternal">Jörg-Olaf</a> hat letzte Woche an einem Seminar der Uni Paderborn teilgenommen, in dem es um das Thema <em>Wikipedia und Vandalismus</em> ging. Dabei tauchte die Frage auf, wie viele Leute die Inhalte der Wikipedia maßgeblich beeinflussen. Es wird vermutet, dass diese Gruppe vergleichsweise klein ist. Jimbo Wales argumentierte in seinen Reden damit auch oft gegen die &#8220;<a href="http://edge.org/3rd_culture/lanier06/lanier06_index.html" class="liexternal">Schwarmintelligenz-Kritik</a>&#8221; von Jaron Lanier.</p>
<p>Während des Seminars gab ich Olaf online die Zahl der angemeldeten Nutzer der deutschsprachigen Wikipedia, die mehr als 100 Edits haben, mit <em>1.141</em> an &#8211; was jedoch falsch ist. Diese Zahl gibt die Anzahl der angemeldeten Nutzer der deutschsprachigen Wikipedia an, die <strong><a href="http://stats.wikimedia.org/EN/TablesWikipediansEditsGt100.htm" class="liexternal">im März 2007</a></strong> mehr als 100 Bearbeitungen durchgeführt haben.</p>
<p>Uns interessierten allerdings die <strong>absoluten </strong>Zahlen. Ich habe mich daraufhin noch einmal auf die Suche begeben&#8230;</p>
<p><!--more--></p>
<p>Anfang Februar 2006 <a href="http://www.boston.com/news/nation/articles/2006/02/12/bias_sabotage_haunt_wikipedias_free_world/" class="liexternal">wies Jimmy Wales daraufhin</a>, dass 0,7 Prozent der Nutzer der englischsprachigen Wikipedia (damals ~615 Personen) für mehr als die Hälfte aller Bearbeitungen verantwortlich seien. Mitte 2005 sah das Verhältnis insbesondere bei der deutschsprachigen Wikipedia <a href="http://www.ojr.org/ojr/stories/050609Ulmanu/" class="liexternal">nach Angaben von Jimbo</a> noch so aus:</p>
<blockquote><p>What helps is that in fact 50 percent of all edits on the English-language Wikipedia site are done by a mere 0.7 percent of all users &#8212; 524 people &#8212; and only two percent have written over 70 percent of all articles, Wales said. On the German-language site, he added, nine percent &#8212; 320 people &#8212; of all users are responsible for more than 90 percent of edits.</p></blockquote>
<p>Viel aktuellere Zahlen habe ich auf Anhieb auch nicht gefunden. Aus diesem Grund habe ich <a href="http://de.wikipedia.org/wiki/Benutzer:DaB." rel="nofollow" class="liwikipedia">DaB.</a> (den Meister des <a href="http://meta.wikimedia.org/wiki/Toolserver" class="liexternal">Toolservers</a>, der auch ein <a href="http://www.wp-blog.de/" class="liexternal">Wikipedia-Blog</a> führt) um aktuelle Zahlen gebeten.</p>
<p><em>Anzahl der angemeldeten Benutzer mit mehr als x Beiträgen</em></p>
<p></p>
<table class="wptable rowstyle-alt" id="wptable-2"  cellspacing="1">
	<thead>
	<tr>
		<th class="sortable" style="width:60px" align="left">Beiträge</th>
		<th class="sortable" style="width:200px" align="center">Englischsprachige <acronym title="Wikipedia">WP</acronym></th>
		<th class="sortable" style="width:200px" align="center">Deutschsprachige <acronym title="Wikipedia">WP</acronym></th>
	</tr>
	</thead>
	<tr>
		<td style="width:60px" align="left">> 100</td>
		<td style="width:200px" align="center">43.613</td>
		<td style="width:200px" align="center">13.129</td>
	</tr>
	<tr class="alt">
		<td style="width:60px" align="left">> 1.000</td>
		<td style="width:200px" align="center">9.324</td>
		<td style="width:200px" align="center">3.136</td>
	</tr>
</table><p>
</p>
<p>Diese Zahlen sind auf dem Stand von gestern (deutschsprachige Wikipedia) und von vor 115 Tagen (englischsprachige Wikipedia).</p>
<p>Als kleine Anmerkung am Rande: Es gibt acht angemeldete Benutzer in der deutschsprachigen Wikipedia, die mehr als 100.000 Bearbeitungen vorgenommen haben. Da muss ich mich wohl noch <a href="http://tools.wikimedia.de/~interiot/cgi-bin/count_edits?user=Avatar&#038;dbname=dewiki_p" class="liexternal">etwas anstrengen</a> :-)</p>
<p>Zum Schluss darf der Hinweis nicht fehlen, dass es seit geraumer Zeit <a href="http://wikipedistik.de/2006/09/06/wer-schreibt-die-wikipedia/" class="liinternal">grundlegende Kritik</a> an dem vorliegenden Ansatz gibt.</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2007/05/27/die-enzyklopaedie-der-massen/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
		<item>
		<title>Hoher Bedarf an der Wikipedia-DVD</title>
		<link>http://wikipedistik.de/2006/12/07/hoher-bedarf-an-der-wikipedia-dvd/</link>
		<comments>http://wikipedistik.de/2006/12/07/hoher-bedarf-an-der-wikipedia-dvd/#comments</comments>
		<pubDate>Thu, 07 Dec 2006 14:33:49 +0000</pubDate>
		<dc:creator>Tim Bartel</dc:creator>
				<category><![CDATA[Wikipedia-News]]></category>
		<category><![CDATA[DVD]]></category>
		<category><![CDATA[Leon Weber]]></category>
		<category><![CDATA[Manuel Schneider]]></category>
		<category><![CDATA[Michael Diederich]]></category>
		<category><![CDATA[Mirror]]></category>
		<category><![CDATA[Statistik]]></category>
		<category><![CDATA[Torrent]]></category>
		<category><![CDATA[Traffic]]></category>
		<category><![CDATA[Wikipedia]]></category>

		<guid isPermaLink="false">http://wikipedistik.de/2006/12/07/hoher-bedarf-an-der-wikipedia-dvd/</guid>
		<description><![CDATA[<p>Gestern kurz nach 12:00 Uhr habe ich die <a href="http://de.wikipedia.org/wiki/Wikipedia:DVD/Download" rel="nofollow" class="liwikipedia">Download-Seite</a> der <a href="http://wikipedistik.de/2006/12/06/wikipedia-dvd-20062007/" class="liinternal">Wikipedia-DVD</a> mit den aktuellen Daten der Wikipedia-DVD bestückt. Etwas mehr als 24 Stunden später ist ein guter Zeitpunkt um mal zu schauen, wie denn der Bedarf an der Wikipedia-DVD aussieht. Man darf guten Gewissens sagen, dass die Verteilung dieses mal deutlich besser geklappt hat als in der Vergangenheit.</p>
<p><!--more--></p>
<p>Insgesamt haben wir mit etwa 35 potentiellen Mirror-Betreibern Kontakt aufgenommen und an ~15 davon im Vorfeld über einen Distributionsserver die DVD-Dateien per HTTP, FTP, rsync und BitTorrent verteilt. <a href="http://de.wikipedia.org/wiki/Benutzer:80686" rel="nofollow" class="liwikipedia">Manuel Schneider</a> hatte über verschiedene Fachlisten (GUUG, Linux-Verband, WilhelmTux, PingoS&#8230;) angefragt und ich die ehemaligen Mirror-Betreiber und einige weitere &#8220;typische&#8221; Mirror-Anbieter angeschrieben.</p>
<p>Der Zähler der FTP- und HTTP-Downloads, die über das Download-Rotations-Skript von Manuel gestartet wurden, liegt momentan bei 35.000. Dazu muss man sagen, dass vermutlich nicht alle Downloads auf Nutzerseite bis zum Ende durchgeführt wurden.</p>
<p>Zum Gebrauch der DVD benötigt man zwingend die Basisdatei <tt>wikipedia.zeno</tt>. Dieser Download wurde 10.000 mal gestartet. Von den Mirrors haben wir gehört, dass sie ordentlich ausgelastet sind:</p>
<blockquote><p>Perfekt. Wir schieben z.Z. 50MBit/s raus mit der DVD.</p></blockquote>
<blockquote><p>Also läuft wunderbar mit dem download, seitdem es in den heise news war hab ich durchgänig ca 180-250 Mbit outgoing und 250 user. Wollte euch nur mal einen kurzen überblick geben.</p></blockquote>
<p>Aufgrund der geringen Anzahl an HTTP-Mirrorn (wir stocken gerade noch um einen weiteren auf: <em>&#8220;Der Mirror sind zwei redundante SunServer, mit RAID und einer schnellen Anbindung (2x 2,4GB / 100BaseT) direkt im Rechenzentrum.&#8221;</em>) waren diese auch schon mal platt &#8211; <a href="http://de.wikipedia.org/wiki/Benutzer:MichaelDiederich" rel="nofollow" class="liwikipedia">Michael Diederich</a>, der einen davon anbietet, kann davon ein Liedchen singen.</p>
<p>An der <acronym title="Peer To Peer">P2P</acronym>-Front sieht es auch ganz gut aus. Wir hatten vorab dafür gesorgt, dass ~10 komplette Seeds zur Verfügung standen &#8211; dies hat den Einfall der Sauger-Horden nach der Veröffentlichung bei <a href="http://www.heise.de/newsticker/meldung/82123" class="liexternal">Heise</a> und <a href="http://golem.de/0612/49328.html" class="liexternal">Golem</a> etwas abgefangen. Momentan haben wir 150 Peers (=Rechner die downloaden) und 36 Seeds (=Rechner, die 100% der Dateien anbieten). Diese Nacht waren es über 550 Peers und 45 Seeds. Die .torrent-Datei wurde 3.700 mal downgeloaded.</p>
<p>Alleine der Distributionsserver hat mehr als 100 GB Traffic erzeugt. Michael hat per BT über 200 GB geseeded und noch mal deutlich mehr per HTTP verteilt.</p>
<p>Ein paar schöne Bildchen können dank Leon Weber hier bestaunt werden:<br />
<a href="http://vserver152.masterssystems.com/graphs/dvd/dvd-daily.png" class="liexternal">DVD-Verteilung (Tag)</a><br />
<a href="http://vserver152.masterssystems.com/graphs/dvd/dvd-hourly.png" class="liexternal">DVD-Verteilung (Stunde)</a></p>
<p>Und Webzugriffs-Statistiken finden sich <a href="http://statistik.mastersadmin.com/awstats.pl?config=u00008" class="liexternal">hier</a>.</p>
<p>Soviel der Zahlenspielerei, in ein paar Tagen noch mal mehr dazu&#8230;</p>]]></description>
		<wfw:commentRss>http://wikipedistik.de/2006/12/07/hoher-bedarf-an-der-wikipedia-dvd/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
	<creativeCommons:license>http://creativecommons.org/licenses/by/2.0/de/</creativeCommons:license>
	</item>
	</channel>
</rss>

