Tabellen befreien mit Tabula

Mo, 2. Mai 2022, Lioh Möller

Tabellen in PDF Dateien dienen lediglich der Darstellung. Um sinnvoll mit den darin enthaltenen Daten arbeiten zu können, müssen diese extrahiert werden. Dazu eignet sich die Software Tabula, dessen Entwicklung als Freie Software von der Shuttleworth Foundation mitfinanziert wurde. Die Anwendung dient insbesondere der Vereinfachung journalistischer Arbeit.

Voraussetzung für die Nutzung ist eine installierte Java Runtime Umgebung. Nach dem Download und Start der Applikation ist diese über den integrierten Webserver auf http://127.0.0.1:8080 erreichbar.

Anhand der Import-Funktion können PDF Dateien mit Tabellen eingelesen werden. Die Anwendung erkennt letztere zuverlässig und erlaubt einen Export, beispielsweise im CSV Format.

Je nach Komplexität der enthaltenen Tabellen, kann es bei einem Export zu Fehlinterpretationen kommen. In unseren Tests scheiterte Tabula an einer von W3 bereitgestellten Beispieltabelle. Enthaltene Nutzdaten konnten allerdings weiterverarbeitet werden. Die Entwickler sind über Fehlerberichte dankbar, um die Anwendung langfristig zu verbessern.

Quelle: https://tabula.technology/
Git-Repository: https://github.com/tabulapdf/tabula

Danke an Sebastian Meineck, für seinen Tipp im Online-Recherche-Newsletter (ORN #24)

Tags

PDF