Intelligente Bereinigung von Tabellen mit OpenRefine

Do, 18. März 2021, Daniel Schär

Einer der Gründe, um mit Daten in Google Sheets zu arbeiten, ist die Nutzung der Smart Cleanup-Funktion, die hilft, ungenaue Daten zu identifizieren und Korrekturen vorzuschlagen. Unter "Daten > Vorschläge zur Bereinigung" öffnet sich ein Menü in der Seitenleiste, das potenzielle Probleme aufzeigt, und man entscheiden kann, ob man den Vorschlag annehmen will oder nicht.

Die Funktion von Google Sheets ist ein guter Startpunkt für die Bereinigung von Tabellen, aber für professionelle Ergebnisse sollte man ein anspruchsvolleres Tool verwenden, wie beispielsweise OpenRefine, ein Open Source-Programm für Linux, Windows und Mac. Es setzt eine vorhandene Java-Installation voraus und läuft direkt im Browser.  

OpenRefine wurde von Metaweb als Open-Source-Projekt im Mai 2010 unter dem Namen Freebase Gridworks gestartet. Im Juli 2010 übernahm Google Metaweb und benannte es in Google Refine um, doch es blieb weiterhin ein Open-Source-Projekt zur Datenbereinigung. Von 2010 bis 2012 wurden mit Unterstützung von Google und der Community drei Upgrades durchgeführt, aber im Oktober 2013 gab Google die aktive Unterstützung auf. Seither wird es von der Community gepflegt. 

Erste Schritte mit OpenRefine

Nach dem Download entpackt man den komprimierten Ordner und öffnet diesen mit einem Terminal. Dort startet man das Programm mit  "./refine" und damit öffnet sich der Browser mit der Oberfläche von OpenRefine.

Zuerst bietet es sich an, die Sprache der Oberfläche unter "Language Settings" auf Deutsch umzustellen. Als Nächstes importiert man die entsprechenden Daten, wobei man aus einer breiten Auswahl von Formaten wählen kann, inklusive URLs, SQL-Datenbanken oder direkt von Google Sheets, und speichert diese in einem OpenRefine-Projekt. 

Die weiteren Schritte können nun sein: Das Suchen und Ersetzen von Zeichen, Schnipseln, die Umwandlung und Aufteilung von Zeilen und Spalten, das Zusammenfassen von Daten in einer Spalte. All dies geschieht mit einem Klick auf die entsprechende Spalte oder Zeile der Tabelle.

Schliesslich kommt der Schritt, wo man die Daten mit OpenRefine bereinigen und abgleichen will. Einen Abgleich führt man durch, um:

- Rechtschreibung oder Variationen in Eigennamen zu korrigieren,

- manuell eingegebene Schlagwörter mit Katalogen wie der Library of Congress Subject Headings (LCSH) abzugleichen

- Daten mit einem bestehenden Datensatz zu verknüpfen

- zu einer editierbaren Plattform wie Wikidata hinzufügen

Um ein OpenRefine-Projekt mit einem externen Datensatz abzugleichen, muss dieser Datensatz einen Webservice anbieten, der konform mit den Standards der Reconciliation Service API ist. Der Abgleich erfolgt halbautomatisch: OpenRefine gleicht Zellwerte so gut wie möglich mit den Abgleichsinformationen ab, aber der Benutzer muss die Ergebnisse überprüfen und genehmigen.

Visualisierung von Daten mit Datawrapper

Schliesslich möchte man seine Daten irgendwie weiterverarbeiten oder grafisch darstellen. Sehr interessant ist das kostenlose und umfangreiche Tool Datawrapper, mit dem man Tabellen, Karten und Grafiken interaktiv darstellen kann. Die Vorteile: Datawrapper funktioniert im Browser, auch ohne ein Konto zu erstellen, und der vierstufige Prozess ist auch für neue Benutzer intuitiv. Dabei kann man Quellenangaben und Links zu Datenquellen hinzufügen. Datawrapper unterstützt ein breiteres Spektrum an interaktiven Diagrammtypen. Via Mail kann man sich das fertige Produkt herunterladen. 

Ein gutes Tutorial zum Einstieg in OpenRefine:

https://histhub.ch/erste-schritte-mit-openrefine-ein-erstes-projekt

Das Handbuch (auf Englisch) und weitere Dokumentation findet man auf:  

https://docs.openrefine.org und https://openrefine.org/documentation.html#

Ein und aussagekräftiges OpenBook, das die Arbeit mit Tabula, OpenRefine und Datawrapper ausführlich beschreibt:

https://handsondataviz.org

Es wurden noch keine Kommentare verfasst, sei der erste!