Das Projekt GNU/Linux.ch hat mich fasziniert, und daher wollte ich es mir gerne mal in Zahlen genauer anschauen. Dazu habe ich vor allem Metadaten der Artikel analysiert. Danke an das GNU/Linux.ch Core-Team für Erlaubnis und Unterstützung. Halte dich fest, es wird ein Regen voller Zahlen auf dich einprasseln, und vielleicht findest du noch die eine oder andere interessante Neuigkeit für dich.
Am Anfang jeder Analyse steht die Aggregation der Daten. Dazu benutze ich in der Regel ein Python-Skript und eine SQLite-Datenbank. Ich versuche, das Datenschema möglichst offen für verschiedene Analysen zu halten. Nach dem Erstellen des Schemas beginne ich mir zu überlegen, wie ich die Datenbank befülle. Dazu lade ich mir meistens einmal alle Inhalte als plain HTML herunter. Dadurch belastet man die Website nicht unnötig, weil es nie beim ersten Mal direkt klappt, die Daten einzulesen. Das Befüllen der Datenbank dauert meistens ein paar Minuten, je nachdem, wie viele Daten man hat und wie viele Insert Statements man an die Datenbank schicken muss.
Da ich es ganz genau nehme, habe ich in diesem Artikel einen Snapshot aller Artikel um Punkt 20:23:45.563410 Uhr am 26. August 2024 gemacht. Meine Auswertung umfasst 4065 Artikel, 180 Autoren, 8401 Kommentare, 9835 Schlagwörter (26052-mal gesetzt) und 2190110 Wörter (19,72 % sind Kommentare).
Auswertung
Jetzt fragst du dich bestimmt, welche interessanten Eigenschaften ich gefunden habe. Doch meistens fange ich recht einfach an, mir zu überlegen, was ich überhaupt für Daten habe, und daraus immer kompliziertere Fragen abzuleiten.
Welche Autoren haben die meisten Artikel geschrieben (Ralf Hersel 1920, Lioh Möller 730 oder Joël Schurter 173)? Was sind die Top 3 Schlagwörter (Linux 386, Version 320, GNOME 218)? Welche Artikel erhalten die meisten Kommentare ("Zum Wochenende: Ralf hat ein neues Smartphone" 50 Kommentare, "Zum Wochenende: Warum nicht mehr Leute Linux verwenden" 49 Kommentare oder "My Love - OpenDTU" 46 Kommentare)? Oder einfach nur: Welche Autoren benutzen im Schnitt die meisten Links pro Artikel (jk 48, @crossgolf_rebel 35 oder Tamer Higazi 23)?
Analysen für Leser
Doch es gibt auch Fragen, die sich treue Leser stellen könnten: Wann kommen neue Artikel raus? - Schau mal montags um 9 Uhr auf gnulinux.ch. Wie viele Artikel erscheinen im Schnitt pro Tag? - Es sind ganze 3,5 neue Artikel pro Tag. Es gibt einen neuen Artikel und du weißt nicht, wie lange du brauchst, um ihn zu lesen? - Im Schnitt wirst du 2,16 Minuten pro Artikel brauchen. Oder wie lange dauert es, wenn ich alle Artikel hintereinander lesen will? - Mach dir einen Tee, es wird dich bestimmt eine Woche beschäftigen, und über eine Woche, wenn du auch noch die Kommentare liest.
Eine besonders schnelle Antwort bekommt man von Caos, Sven oder gnu630 bei einem Kommentar. jk liefert die meisten Links pro Artikel. Chris Burger versucht, dich anscheinend mit Schlagwörtern zu beeindrucken. Doch besonders lange liest du an Artikeln von mmu_man (11227 Wörter, entspricht 56 Minuten). Erik Wischerhoff sollte anfangen, Artikel zu schreiben, anstatt zu kommentieren. Sein Kommentar alleine ist 2,6-mal so lang wie ein durchschnittlicher Artikel.
Analysen für Autoren
Doch viel interessanter für Autoren sind diese Fragen: Wie kurz soll meine Beschreibung sein? - Durchschnittlich 13 Wörter. Ist mein Titel zu lang? - Die durchschnittliche Länge beträgt 35 Zeichen. Wie wahrscheinlich ist es, dass mein Artikel kommentiert wird? - Mit einer Wahrscheinlichkeit von 44,8 %. Oder wie lange muss ich im Schnitt warten, bis der erste Kommentar geschrieben wird? - Mach dir einen Tee, es sind 46570 Minuten, das entspricht mehr als einem Monat.
Wie viele Schlagwörter werden im Schnitt pro Artikel benutzt? Es sind 6,4 Schlagwörter pro Artikel. Wenn du Linux benutzt, kannst du auch direkt GNU dazu schreiben, und wenn du Podcast schreibst, nimm auch Captain und CIW. #Linux wird anscheinend oft mit #Desktop benutzt. Doch mehr Schlagwörter führen nicht zu mehr Kommentaren und können sich sogar leicht negativ auswirken. Wenn du konstant Kommentare auf deine Artikel erhalten möchtest, solltest du dir ein Beispiel an Varut nehmen. Schreibe eigene Testberichte, äußere deine Meinung oder zeige deine Tipps & Tricks für mehr Kommentare.
Vielleicht stellst du dir die Frage, welche anderen Autoren gut zu dir passen? Dann habe ich eine Karte für dich. Dort siehst du, welche Autoren sich für dieselben Themen begeistern. Hier kommst du zum GitHub Gist und hier zur Webseite.
Ich bin gespannt, welche Schlüsse du aus diesen Zahlen ziehst und ob ich diese Veränderung auch später in den Daten sehen kann.
Kategorien
Diese Top 3 Schlagwörter gehören zu diesen Kategorien:
- Apps: Version, Anwendung und Android
- Desktop: GNOME, Desktop und KDE
- Distro: Linux, Version und Ubuntu
- Events: Linux, Veranstaltung und Konferenz
- Gesellschaft: Software, FSFE und Schweiz
Linux
Wir wissen, dass viel über Linux geschrieben wird. Doch welche Distribution wird am meisten erwähnt? Es ist Arch by the way, gefolgt von Ubuntu, Debian, Fedora, Mint, Tails, Manjaro, openSUSE, Kali und Red Hat. Ich freue mich auf die Kommentare, welche Distributionen bestimmt falsch platziert sind, aber das sind die harten Fakten, auch für Trisquel (vorletzter Platz) oder Bodhi (letzter Platz).
Software
Im Kampf um die Popularität: Nextcloud schlägt Owncloud, LibreOffice schlägt Microsoft Office, VLC schlägt Windows Media Player, GIMP schlägt Photoshop, Firefox schlägt Chrome, Thunderbird schlägt Outlook, Shotcut schlägt Adobe Premiere und Synology schlägt TrueNAS.
Firmen
Die Top 10 populärsten IT-Unternehmen sind:
- Google mit 409 Erwähnungen
- HP mit 376 Erwähnungen
- Dell mit 338 Erwähnungen
- Microsoft mit 297 Erwähnungen
- Intel mit 212 Erwähnungen
- Apple mit 209 Erwähnungen
- Cisco mit 157 Erwähnungen
- Amazon mit 155 Erwähnungen
- Samsung mit 121 Erwähnungen
- Adobe mit 106 Erwähnungen
Die Autoren
Schauen wir genauer auf die Autoren: Lioh Möller gewinnt den Preis für die meisten veröffentlichten Artikel an einem Tag (alleine 10 Artikel am 8. Juli 2020), gefolgt von Ralf Hersel (6 Artikel am 25. Mai 2021 und am 21. Juni 2023). Generell lässt sich jedoch sagen, dass Autoren früher im Schnitt mehr geschrieben haben als heute. Pro Artikel wird oft gegendert, z. B. "von mmu_man, übersetzt von Niklas", Jan Wiederhold und Teufel100. 16 Stück und damit die meisten Schlagwörter benutzt Chris Burger im Schnitt pro Artikel, gefolgt von Sascha Foerster mit 13. Michel, Nils B. und Philipp Seitzinger gewinnen den Preis für die im Schnitt längsten Sätze pro Artikel.
Die Schlagwörter als Landkarte
Abschließend habe ich diese Landkarte aus Schlagwörtern erstellt. Dabei werden Schlagwörter miteinander verbunden, sobald sie mehr als dreimal zusammen vorkommen. Schlagwörter, die weniger als eine Verbindung haben, werden ausgeblendet. Dabei habe ich mich auf die 2048 häufigsten Schlagwörter konzentriert. Wenn du zum Beispiel das Schlagwort Bücher findest, kannst du nun direkt sehen, es ist mit E-Book verwandt und dieses wiederum mit Calibre. Jetzt könntest du dir mal Calibre genauer anschauen, wenn du gerne Bücher liest. Oder du schaust dir mal die Verbindung zwischen Linux und Desktop an. Vielleicht findest du ja ein paar interessante Artikel dazu. Die Karte ist zudem interaktiv. Also zieh dir die Knoten gerne mal zurecht und schau, was du noch für interessante Zusammenhänge feststellen kannst. Generell lässt sich aus der Landkarte aus Schlagwörtern schlussfolgern, dass die meisten Schlagwörter eng miteinander verbunden sind und es nur ein paar wenige Gruppen gibt, die für sich stehen, wie zum Beispiel die Gruppe CCC, Hamburg, Congress und 37C3.
Hier als Link zum HTML Dokument auf GitHub Gist und hier direkt zur Webseite.
Tipp: Lasse die Karte einfach etwas länger offen im Browser und die Schlagwörter werden sich von alleine sortieren und zu Gruppen zusammenfinden.
Limitierungen
Ich wollte besonders viele Auswertungen in diesen Artikel einbringen. Daher seht mir bitte nach, wenn ich nur den Durchschnitt benutze und die Varianz nicht betrachte. Doch dann wäre es eher eine Studie geworden und kein Artikel. Es kann auch passiert sein, dass die Daten nicht korrekt geparst wurden und daher die Datengrundlage nicht korrekt ist. Doch ich habe mir viel Mühe gegeben und hoffe, dass es nicht zu viele fehlerhafte Daten gibt. Aber ich musste feststellen, dass die Zeit der Kommentare teilweise nicht korrekt war. Daher habe ich hier einige Fragestellungen gestrichen. Auch gab es Autoren ohne Namen oder mehrere Autoren haben gemeinsam an einem Artikel geschrieben (z. B. Marc Mader und Joël Schurter).
Schlusswort
Danke an GNU/Linux.ch für die Erlaubnis für diese Analyse. Es gibt noch viele spannende Fragen und ich freue mich auf diese in den Kommentaren. Zum Beispiel, warum die Datendetektivin bisher in diesem Artikel nicht genannt wurde? Ich denke, es wird viele Kommentare geben: Denn es hat sich gezeigt: Artikel mit vielen Zahlen bekommen leicht mehr Kommentare. Doch ich hoffe, auch ohne Kommentar hat dir dieser Artikel gefallen und du hast ein paar interessante Fakten über GNU/Linux.ch erfahren. Mal schauen, was sich bei der nächsten Analyse verändert hat.
Quelle: https://gnulinux.ch (26. August 2024, 20:23:45.563410)
Spannender und cooler Artikel!
Kleine Anmerkung: Mittlerweile sind die internen Vorgaben so, dass nur noch maximal 5 Schlagwörter pro Artikel verwendet werden können. Vielleicht für die eine oder den anderen ein interessanter Hinweis nach dem Lesen der Schlagwortanalyse.
Schöner Artikel, auch wenn das Wort Kommentar am Ende fast ein bisschen penetrant klang. Meine Frage wäre: Wie haben sich die verschiedenen Autorenaufrufe jeweils auf die Autorenzahl ausgewirkt?
Danke für deine Kritik, am Ende wollte ich mit den Kommentaren noch eine Analyse mit einbauen. Ist mir vielleicht nicht ganz so gut gelungen. Ich sehe ein, dass das etwas danach klingt als wäre ich auf viele Kommentare aus. Dabei sollte es ja um den Artikel gehen und Kommentare sind immer Bonus.
Leider verstehe ich deine Frage nicht ganz. Was meinst du mit Autorenaufrufe? Und meinst du mit der Autorenzahl die Anzahl an Autoren?
Hallo noch mal, ich meine neue Autoren pro Aufruf zum Mitmachen. Am besten pro Medium, für Post und Podcast separat.
Vielen Dank für Deine tolle Arbeit, Friedjof. Damit die Leser die interaktive Karte nicht selbst parat machen müssen, habe ich sie mal schnell auf meinen Server hochgeladen:
https://rum3ber.ch/tmp/gl_karte.html