Tabellen befreien mit Tabula

2. Mai 2022 Lioh Möller Lesezeit: ~1 Minute 🗪 1 Kommentar

Mit der Anwendung Tabula lassen sich Tabellen aus PDF-Dokumenten extrahieren.

Tabellen in PDF Dateien dienen lediglich der Darstellung. Um sinnvoll mit den darin enthaltenen Daten arbeiten zu können, müssen diese extrahiert werden. Dazu eignet sich die Software Tabula, dessen Entwicklung als Freie Software von der Shuttleworth Foundation mitfinanziert wurde. Die Anwendung dient insbesondere der Vereinfachung journalistischer Arbeit.

Voraussetzung für die Nutzung ist eine installierte Java Runtime Umgebung. Nach dem Download und Start der Applikation ist diese über den integrierten Webserver auf http://127.0.0.1:8080 erreichbar.

Anhand der Import-Funktion können PDF Dateien mit Tabellen eingelesen werden. Die Anwendung erkennt letztere zuverlässig und erlaubt einen Export, beispielsweise im CSV Format.

Je nach Komplexität der enthaltenen Tabellen, kann es bei einem Export zu Fehlinterpretationen kommen. In unseren Tests scheiterte Tabula an einer von W3 bereitgestellten Beispieltabelle. Enthaltene Nutzdaten konnten allerdings weiterverarbeitet werden. Die Entwickler sind über Fehlerberichte dankbar, um die Anwendung langfristig zu verbessern.

Quelle: https://tabula.technology/
Git-Repository: https://github.com/tabulapdf/tabula

Danke an Sebastian Meineck, für seinen Tipp im Online-Recherche-Newsletter (ORN #24)

Tags

PDF

Tabellen

Tabula

Anwendung

Online-Recherche-Newsletter

Tabell

Export

Geschrieben von linmob am 3. Mai 2022 um 10:29

Wer jetzt nicht eine Webapplikation installieren möchte: Okular, KDE Plasma's Dokumentenbetrachter, hat auch eine Funktion um PDF-Tabellen sinnvoll kopieren zu können. Diese erfordert oft ein paar Klicks um Zeilen und Spalten richtig zu erfassen. Funktioniert dann aber sehr gut und hat mir bei meiner Abschlussarbeit sehr gute Dienste bei der Weiterverarbeitung/Nachanalyse von PDF-Tabellen geleistet.

Antworten

Tabellen befreien mit Tabula

Tags

Community