Manchmal denke ich, wir hätten bei GNU/Linux.ch schon jede Frage beantwortet und über jedes Thema geschrieben. Dem ist nicht so, wie ich gerade bemerkt habe. Ob man eine PDF-Datei überhaupt in ein editierbares Dateiformat umwandeln sollte, ist eine philosophische Frage. PDF wurde als ein plattformübergreifendes Austauschformat für fertiggestellte Dokumente konzipiert. Das nachträgliche Editieren gehört nicht zu den Anforderungen an dieses Format. Trotzdem zeigt sich im Alltag die Notwendigkeit, an PDF-Dateien Änderungen vornehmen zu können, z. B. weil die (editierbare) Originaldatei nicht verfügbar ist.
Nun stellt sich für GNU/Linux-Anwender:innen die Frage, wie man das am besten bewerkstelligt, ohne auf Adobe-Produkte oder auf Online-Lösungen zurückgreifen zu müssen. In der Microsoft Windows Welt kann ein PDF direkt in Word geöffnet und bearbeitet werden, ohne dabei grosse Inkompatibilitäten befürchten zum müssen. In der Freien Welt sieht das leider etwas anders aus.
In diesem Artikel beschreibe ich verschiedene Möglichkeiten, um diese Aufgabe zu meistern.
Wie ihr im Titel lesen könnt, strebe ich die Konvertierung einer PDF-Datei in das Open Document Format an, und zwar in Open Document Text (odt), damit der Inhalt mit LibreOffice Writer bearbeitet werden kann. Spoiler: Ich habe es nicht geschafft.
Als Beispiel-PDF habe ich diese Datei verwendet, weil sie typische Elemente einer PDF-Datei enthält: Text, viel Formatierung, Bilder und Layout-Elemente. Hier seht ihr einen Ausschnitt:
Beim Konvertieren einer PDF-Datei in ein editierbares Format kommt es ganz auf den Inhalt an. Je einfacher der Inhalt ist, desto einfacher ist auch die Konvertierung. Hat man es mit einem reinen Text-Inhalt zu tun, empfiehlt es sich, diesen zu markieren und in ein ODT-Dokument (z. B. LibreOffice Writer) zu kopieren. Alternativ könnt ihr auch das Kommandozeilenwerkzeug pdftotext einsetzen, welches zuverlässig den gesamten Text aus der PDF-Datei extrahiert:
pdftotext Notfalltreffpunkt.pdf
Das Schweizer Taschenmesser der Konvertier-Werkzeuge, Pandoc, hilft bei dieser Aufgaben wenig. Zwar ist Pandoc auf die Dokumentenkonvertierung spezialisiert, kann aber mit PDF-Dateien als Input ziemlich wenig anfangen. Das ist verständlich, weil PDFs keine Dokumente im eigentlichen Sinne sind, sondern ein Nur-Lesen-Format ist, welches aus Postscript hervorgegangen ist. Somit gehört es zu den Formaten der Druckvorstufe und nicht zu den Editoren.
Bei meinem ersten Konvertierungsversuch öffne ich die PDF-Datei mit der Anwendung OnlyOffice. Wie ihr im folgenden Screenshot seht, bringt das nichts.
OnlyOffice
Dann habe ich das PDF in die E-Book-Verwaltung Calibre importiert, dort als docx (Word-Format) exportiert und in LibreOffice Writer geöffnet. Das Ergebnis sieht auf der ersten Seite gut aus, fällt aber durch, weil die Inhalte als Bilder eingebunden werden und somit nicht editierbar sind.
PDF über Calibre zu docx in LibreOffice Writer geöffnet
Wer die LibreOffice-Suite installiert hat, kann ein PDF-Dokument mit Draw öffnen. Damit habe ich die besten Resultate erhalten. Im unten gezeigten Screenshot seht ihr zwei Probleme:
LibreOffice Draw
Die orange Box ragt über den linken Seitenrand hinaus und alle Texte werden (mindestens pro Zeile) als eigenständige Text-Objekte abgebildet, wie ihr an der Markierung erkennen könnt. Nach meiner Meinung kann man mit beiden Problemen umgehen. Die nicht masshaltigen Boxen kann man markieren und mit der Maus in die korrekte Position ziehen. Beim Text hängt es davon ab, ob man einzelne Wörter korrigieren oder komplette Absätze neu schreiben möchte. Im nächsten Screenshot habe ich den Originaltext entfernt und durch eine neue mehrzeilige Textbox (F2) ersetzt:
PDF in LibreOffice Draw mit Korrekturen
Damit empfehle ich LibreOffice Draw als beste Lösung, um PDFs in editierbare ODT-Dokumente umzuwandeln. Das Ergebnis ist zwar nicht optimal, lässt sich jedoch mit ein paar Handgriffen korrigieren. Falls euch bessere Methoden in den Sinn kommen, freut sich die Community, wenn ihr diese in die Kommentare schreibt.
Sehr gut funktioniert es mit der Free-Version vom Master PDF Editor (alles bis v.4). Die qt5-Version funktioniert unter aktuellen Linux-Distributionen sehr gut. Gibt es z.B. hier: https://www.linuxuprising.com/2019/04/download-master-pdf-editor-4-for-linux.html
Das Schweizer-Taschenmesser für PDFs ist für mich https://github.com/Frooodle/Stirling-PDF. Ist jetzt bzgl. der ODT-Umwandlung auch nicht ideal, kann aber sehr vieles mehr.
Ausprobieren kann man es z. B. hier: https://pdf.adminforge.de. Der Server hat zur Texterkennung leider nur Englisch implementiert. Bei einer eigenen Installation kann man aber leicht (fast) alle gewünschten Sprachen hinzufügen.
Inkscape macht mit dem Dokument für mich einen sehr guten Eindruck!
Um die separaten Textzeilen wieder zu kompaktem Lauftext zu verbinden, einfach alle betreffenden Zeilen auswählen, dann RMB → Text konsolidieren. Der überstehende Balken muss nicht korrigiert werden, wenn wieder in A4-PDF exportiert wird. Wie im Quelldokument auch schon zu sehen, wird bei Anzeige und Ausdruck des PDF auf das Netto-Format reduziert.
Ich probiere das "herumfuschen" an PDFs zu vermeiden, weil oft viel zu viel dabei kaputt geht (Metadaten, Signaturen, Schriftbild, Rasterung, Pfade, ...).
Wenn es aber gar nicht anders geht (Originaldatei bzw. Orginalanwendung nicht mehr verfügbar) dann habe ich mit Inkscape auch ganz gute Ergebnisse erzielt!
Ich finde es wichtig zu erwähnen, dass LO Draw den Überstand der Objekte nicht erzeugt, nur zeigt. Die Balken ragen sicher schon im Quelldokument (Word 2016) über den Dokumentenrand hinaus.