PDF zu ODT konvertieren

  Ralf Hersel   Lesezeit: 5 Minuten  🗪 6 Kommentare

Wer eine PDF-Datei in ein editierbares Dokument, unter Bewahrung aller Inhalte und Formatierungen, umwandeln möchte, muss sich mich Kompromissen abfinden.

pdf zu odt konvertieren

Manchmal denke ich, wir hätten bei GNU/Linux.ch schon jede Frage beantwortet und über jedes Thema geschrieben. Dem ist nicht so, wie ich gerade bemerkt habe. Ob man eine PDF-Datei überhaupt in ein editierbares Dateiformat umwandeln sollte, ist eine philosophische Frage. PDF wurde als ein plattformübergreifendes Austauschformat für fertiggestellte Dokumente konzipiert. Das nachträgliche Editieren gehört nicht zu den Anforderungen an dieses Format. Trotzdem zeigt sich im Alltag die Notwendigkeit, an PDF-Dateien Änderungen vornehmen zu können, z. B. weil die (editierbare) Originaldatei nicht verfügbar ist.

Nun stellt sich für GNU/Linux-Anwender:innen die Frage, wie man das am besten bewerkstelligt, ohne auf Adobe-Produkte oder auf Online-Lösungen zurückgreifen zu müssen. In der Microsoft Windows Welt kann ein PDF direkt in Word geöffnet und bearbeitet werden, ohne dabei grosse Inkompatibilitäten befürchten zum müssen. In der Freien Welt sieht das leider etwas anders aus.

In diesem Artikel beschreibe ich verschiedene Möglichkeiten, um diese Aufgabe zu meistern.

Wie ihr im Titel lesen könnt, strebe ich die Konvertierung einer PDF-Datei in das Open Document Format an, und zwar in Open Document Text (odt), damit der Inhalt mit LibreOffice Writer bearbeitet werden kann. Spoiler: Ich habe es nicht geschafft.

Als Beispiel-PDF habe ich diese Datei verwendet, weil sie typische Elemente einer PDF-Datei enthält: Text, viel Formatierung, Bilder und Layout-Elemente. Hier seht ihr einen Ausschnitt:

Beim Konvertieren einer PDF-Datei in ein editierbares Format kommt es ganz auf den Inhalt an. Je einfacher der Inhalt ist, desto einfacher ist auch die Konvertierung. Hat man es mit einem reinen Text-Inhalt zu tun, empfiehlt es sich, diesen zu markieren und in ein ODT-Dokument (z. B. LibreOffice Writer) zu kopieren. Alternativ könnt ihr auch das Kommandozeilenwerkzeug pdftotext einsetzen, welches zuverlässig den gesamten Text aus der PDF-Datei extrahiert:

pdftotext Notfalltreffpunkt.pdf

Das Schweizer Taschenmesser der Konvertier-Werkzeuge, Pandoc, hilft bei dieser Aufgaben wenig. Zwar ist Pandoc auf die Dokumentenkonvertierung spezialisiert, kann aber mit PDF-Dateien als Input ziemlich wenig anfangen. Das ist verständlich, weil PDFs keine Dokumente im eigentlichen Sinne sind, sondern ein Nur-Lesen-Format ist, welches aus Postscript hervorgegangen ist. Somit gehört es zu den Formaten der Druckvorstufe und nicht zu den Editoren.

Bei meinem ersten Konvertierungsversuch öffne ich die PDF-Datei mit der Anwendung OnlyOffice. Wie ihr im folgenden Screenshot seht, bringt das nichts.

OnlyOffice

Dann habe ich das PDF in die E-Book-Verwaltung Calibre importiert, dort als docx (Word-Format) exportiert und in LibreOffice Writer geöffnet. Das Ergebnis sieht auf der ersten Seite gut aus, fällt aber durch, weil die Inhalte als Bilder eingebunden werden und somit nicht editierbar sind.

PDF über Calibre zu docx in LibreOffice Writer geöffnet

Wer die LibreOffice-Suite installiert hat, kann ein PDF-Dokument mit Draw öffnen. Damit habe ich die besten Resultate erhalten. Im unten gezeigten Screenshot seht ihr zwei Probleme:

LibreOffice Draw

Die orange Box ragt über den linken Seitenrand hinaus und alle Texte werden (mindestens pro Zeile) als eigenständige Text-Objekte abgebildet, wie ihr an der Markierung erkennen könnt. Nach meiner Meinung kann man mit beiden Problemen umgehen. Die nicht masshaltigen Boxen kann man markieren und mit der Maus in die korrekte Position ziehen. Beim Text hängt es davon ab, ob man einzelne Wörter korrigieren oder komplette Absätze neu schreiben möchte. Im nächsten Screenshot habe ich den Originaltext entfernt und durch eine neue mehrzeilige Textbox (F2) ersetzt:

PDF in LibreOffice Draw mit Korrekturen

Damit empfehle ich LibreOffice Draw als beste Lösung, um PDFs in editierbare ODT-Dokumente umzuwandeln. Das Ergebnis ist zwar nicht optimal, lässt sich jedoch mit ein paar Handgriffen korrigieren. Falls euch bessere Methoden in den Sinn kommen, freut sich die Community, wenn ihr diese in die Kommentare schreibt.

Tags

PDF, LibreOffice, Konvertierung, ODT, Datei-Format

Daniel
Geschrieben von Daniel "PepeCyb" am 17. August 2023 um 10:22

Sehr gut funktioniert es mit der Free-Version vom Master PDF Editor (alles bis v.4). Die qt5-Version funktioniert unter aktuellen Linux-Distributionen sehr gut. Gibt es z.B. hier: https://www.linuxuprising.com/2019/04/download-master-pdf-editor-4-for-linux.html

Thomas S.
Geschrieben von Thomas S. am 17. August 2023 um 11:53

Das Schweizer-Taschenmesser für PDFs ist für mich https://github.com/Frooodle/Stirling-PDF. Ist jetzt bzgl. der ODT-Umwandlung auch nicht ideal, kann aber sehr vieles mehr.

Ausprobieren kann man es z. B. hier: https://pdf.adminforge.de. Der Server hat zur Texterkennung leider nur Englisch implementiert. Bei einer eigenen Installation kann man aber leicht (fast) alle gewünschten Sprachen hinzufügen.

kamome
Geschrieben von kamome am 17. August 2023 um 21:47

Inkscape macht mit dem Dokument für mich einen sehr guten Eindruck!

Matthias
Geschrieben von Matthias am 18. August 2023 um 09:39

Um die separaten Textzeilen wieder zu kompaktem Lauftext zu verbinden, einfach alle betreffenden Zeilen auswählen, dann RMB → Text konsolidieren. Der überstehende Balken muss nicht korrigiert werden, wenn wieder in A4-PDF exportiert wird. Wie im Quelldokument auch schon zu sehen, wird bei Anzeige und Ausdruck des PDF auf das Netto-Format reduziert.

MaM
Geschrieben von MaM am 18. August 2023 um 12:08

Ich probiere das "herumfuschen" an PDFs zu vermeiden, weil oft viel zu viel dabei kaputt geht (Metadaten, Signaturen, Schriftbild, Rasterung, Pfade, ...).

Wenn es aber gar nicht anders geht (Originaldatei bzw. Orginalanwendung nicht mehr verfügbar) dann habe ich mit Inkscape auch ganz gute Ergebnisse erzielt!

Matthias
Geschrieben von Matthias am 18. August 2023 um 20:09

Ich finde es wichtig zu erwähnen, dass LO Draw den Überstand der Objekte nicht erzeugt, nur zeigt. Die Balken ragen sicher schon im Quelldokument (Word 2016) über den Dokumentenrand hinaus.