Zum Wochenende: PDF - das Format aus der Hölle

  Ralf Hersel   Lesezeit: 11 Minuten  🗪 10 Kommentare

Warum ich PDF nicht mag und ob es Alternativen zu diesem Format gibt.

zum wochenende: pdf - das format aus der hölle

Unsere Artikel zum Wochenende sind häufig schlecht recherchiert, ungerecht, voller Meinung und ein Grund, um sich aufzuregen. Das soll so sein; einmal in der Woche darf man über die Stränge schlagen; so auch heute.

Im beruflichen Alltag rege ich mich oft über PDF-Dokumente auf, weil:

  • sie als Ersatz für editierbare Dokumente gesehen werden
  • sie in verschiedenen PDF-Readern unterschiedlich dargestellt werden
  • sie manchmal so zugenagelt sind, dass man nichts damit machen kann (was ein Feature ist)
  • sie eben kein 'portable document format' sind

Wer sich einmal mit der Spezifikation des Formats beschäftigt hat, wird den Titel dieses Artikels verstehen. Das Format ist in den vier ISO-Standards: ISO 32000-2 + ISO TS 32001 +  ISO TS 32002 + ISO TS 32003 spezifiziert. Diese kann man von der PDF-Association "kostenlos" herunterladen. Bei der ISO.org heisst es zu ISO 32000-2:

Dieses Dokument spezifiziert eine digitale Form zur Darstellung elektronischer Dokumente, die es Benutzern ermöglicht, elektronische Dokumente unabhängig von der Umgebung, in der sie erstellt wurden oder in der sie betrachtet oder gedruckt werden, auszutauschen und anzuzeigen.

Mein Versuch, alle genannten ISO-Normen "kostenlos" herunterzuladen, scheiterten am Zwang zur Anmeldung. Dann habe ich es direkt bei der ISO.org versucht:

An dieser Stelle habe ich fast die Lust verloren, diesen Artikel zu Ende zu schreiben. Eigentlich wollte ich euch den enormen Umfang und die Kompliziertheit des PDF-Formats aufzeigen. Vor Jahren habe ich versucht, mich in das Format einzuarbeiten und bin daran gescheitert. Daher nur soviel:

  • ISO 32000-2:2020: 986 Seiten, 216 CHF
  • ISO/TS 32001:2022: 4 Seiten, 42 CHF
  • ISO/TS 32002:2022: 4 Seiten, 42 CHF
  • ISO/TS 32003:2023: 5 Seiten, 42 CHF

Gesamthaft kommt man auf 999 Seiten zum Preis von 342 CHF.

Wer das Format verstehen möchte, kann sich mit den ISO-Standards beschäftigen, oder dieses Whitepaper lesen. Darin werden die Vor- und Nachteile gut dargestellt:

Vorteile

PDF bietet viele Vorteile. Diese Stärken haben wesentlich zum Erfolg und zur Verbreitung des Formats beigetragen:

  • PDF ist ein weltweit anerkannter Industriestandard. PDF ist seit 2008 von der ISO (International Standards Organisation) als Standard mit der Nummer ISO-32000 freigegeben.
  • PDF wurde auch im Hinblick auf die wachsende Bedeutung des Word Wide Web konzipiert. Während der rasanten Verbreitung des Webs in den vergangenen zehn Jahren hat sich PDF als Standardformat etabliert. Hauptsächlich für die elektronische Bereitstellung von Dokumenten aller Art.
  • Mehrseitige PDF Dokumente lassen sich für eine schnelle Webansicht optimieren. Man kann auch in riesigen Dokumenten mit mehreren tausend Seiten eine bestimmte Seite direkt abrufen bzw. anschauen, bevor die restlichen Seiten geladen werden.
  • PDF verfügt über sehr leistungsfähige Komprimierungsverfahren. Vor allem Bilder lassen sich damit ohne sichtbaren Qualitätsverlust und mit bedeutend geringerem Datenvolumen speichern.
  • Der PDF Betrachter von Adobe ist immer noch kostenlos erhältlich. Unterdessen gibt es aber auch zahlreiche Betrachter von anderen Herstellern, wie beispielsweise der Betrachter von PDF Tools AG.
  • PDF unterstützt mehrseitige Dokumente beliebiger Seitenformate.
  • Adobe hat eine herausragende PDF Spezifikation kreiert. Sie ist sehr ausführlich und detailliert und beinhaltet explizite Details über sämtliche Aspekte des Formats. Das erlaubt den Softwareunternehmen, eigene Programme zu schreiben, die PDF Dokumente erzeugen und lesen können.
  • PDF eignet sich für viele Einsatzbereiche. Der Markt bietet eine vielfältige Palette an Funktionen an, mit welchen man PDF Dokumente bearbeiten kann: in einem Arbeitsschritt erstellen, zusammenfügen, trennen, mit Stempel versehen, Inhalt extrahieren, verschlüsseln, konvertieren, betrachten, drucken, mit Formularverarbeitung verwenden usw.
  • PDF ist ohne Frage aus dem Status eines Dokumentformats herausgewachsen. Gängige Technologien wie Multimedia, XML, Java, Formularverarbeitung, Komprimierung, individuelle Verschlüsselung usw. sind Teil der Spezifikation geworden. Mit PDF hat man ein leistungsstarkes und vielseitiges Format für intelligente Anwendungen zur Verfügung.

Nachteile

Das PDF Format beinhaltet trotz der vielen Vorteile jedoch auch gewisse Einschränkungen:

  • Kompatibilitätsprobleme: Es gibt PDF-Dateien, die mehr als zehn Jahre alt sind. Die Erfahrung hat gezeigt, dass gewisse ältere Dateien mit neueren Betrachtern nicht mehr geöffnet werden können. Umgekehrt verhindert die
    rasante Entwicklung neuer Funktionen die Anzeige auf älterer Software und zwingt den Anwender zu laufenden Upgrades.
  • Das PDF-Format ist sehr komplex und wird nicht von allen Software-Herstellern korrekt implementiert. Durch qualitativ ungenügende Werkzeuge erstellte Dateien haben Konformitätsmängel, d.h. Probleme bezüglich der Übereinstimmung mit der Spezifikation. Das Problem wird noch dadurch verschärft, dass die Adobe Reader zu tolerant sind und der Anwender deshalb die Mängel nicht oder zu spät entdeckt.
  • PDF wuchert und beginnt, zu viele Fremdformate bzw. -technologien für eingebettete Objekte anzubieten (JavaScript, XMP, XFA, PJTF uvm.). Jedes einzelne dieser Formate ist in sich sehr komplex und entsprechend schwer zu beherrschen. Für sie gilt das oben gesagte in besonderem Masse.
  • PDF folgt nicht zwingend dem Prinzip WYSIWYG (what you see is what you get). Das betrifft vor allem die Darstellung von Farben und Schriften.
  • PDF-Dokumente können sich bei der Präsentation von der ursprünglichen Absicht unterscheiden. Es gibt jedoch Standards wie der im Jahre 2005 veröffentlichte ISO-Standard PDF/A, die sich speziell diesen Problemen annehmen und sie durch gezielte Gebote und Verbote verhindern.
  • Die Seitenbeschreibungssprache wurde primär für die Grafikindustrie entworfen und nicht für Anwendungen wie Textverarbeitungen.
  • PDF kennt zwar ergänzende Attribute wie die Dokumentenstruktur, die Leserichtung und das Erläutern von Bildern durch alternative Texte. Diese Eigenschaften sind jedoch optional, schwierig zu erstellen und zu handhaben. Entsprechend erzeugte Dateien (sog. „tagged“ PDF) kommen deshalb immer noch selten vor.

Ich bin der Meinung, dass PDF ein überlastetes Format ist. Eine Eier legende Wollmilchsau, die zu viele Anwendungsfälle abdecken will. Ursprünglich war PDF als Format für die Druckvorstufe gedacht, ähnlich wie früher Postscript. Heute wird PDF als Austausch-Format für fast alle Inhalte (Text, Bilder, Tabellen, Formulare, Zugriffsberechtigungen, Signaturen) verstanden. Das ist zu viel und erinnert mich an das Flash-Format (R.I.P.) von Adobe, welches Ende 2020 eingestellt wurde. Auch damit wurde versucht, alle erdenklichen Inhalte für Webseiten in einem Format abzubilden, was schlussendlich scheiterte.

Alternativen?

Wer bis hierhin weitergelesen hat, weiss, dass ich kein Freund von PDFs bin. Daher habe ich mich auf die Suche nach Alternativen gemacht. Mit einer Eingabe in der Suchmaschine kommt man nicht weit. Die Ergebnisse beziehen sich ausschliesslich auf alternative PDF-Reader, jedoch nicht auf alternative Formate. Darin zeigt sich eine strukturelle Schwäche der klassischen Suchmaschinen: sie reagieren nicht auf deine Frage, sondern auf die Wahrscheinlichkeit, was du meinen könntest.

Beim nächsten Versuch bin ich von der Pest zur Cholera gewechselt, indem ich GTP-3.5 Turbo in der DuckDuckGo-Suche befragt habe. Der Prompt lautete: "Welche Alternativen gibt es zum PDF-Format?"; das Ergebnis war:

  • DOCX: Das von Microsoft Word verwendete Dateiformat für Textdokumente.
  • EPUB: Ein offenes E-Book-Format, das für den Einsatz auf mobilen Geräten optimiert ist.
  • HTML: Eine Markup-Sprache zur Erstellung von Webseiten.
  • XPS: Ein von Microsoft entwickeltes elektronisches Dokumentenformat.
  • ODT: Das OpenDocument-Textformat, das von OpenOffice und LibreOffice verwendet wird.
  • Plain Text (TXT): Ein einfaches Dateiformat, das nur Text ohne Formatierung enthält.
  • RTF: Das Rich Text Format, das Text mit einfacher Formatierung speichert und von verschiedenen Textverarbeitungsprogrammen unterstützt wird.
  • Markdown: Markdown ist eine einfache Auszeichnungssprache, die häufig für das Schreiben von formatierten Texten verwendet wird, die dann in verschiedene Formate wie HTML, PDF oder DOCX konvertiert werden können.

Aus diesen Antworten ergibt sich, dass es nicht das eine Format für alle Anwendungsfälle gibt. Die Office-Formate DOCX und ODT kommen nahe an das heran, was PDF leistet. Auch Anforderungen an Dokumentenschutz, Signaturen und Formulare können damit umgesetzt werden. Die anderen Vorschläge schränken die Funktionalität ein, sind aber im Einzelfall besser für eine Aufgabe geeignet. So eignet sich eine HTML-Seite oder ein Wiki wesentlich besser für die Dokumentation als eine PDF-Datei. Mir kommt es oft so vor, als versuche der Einsatz von PDF-Dateien eine analoge Print-Welt in die Digitalisierung zu retten. Ein Beispiel dafür ist das Erstellen von Formularen mittels PDF-Dateien, die dann hin und her geschickt werden. Das ist eine falsch verstandene Digitalisierung. Besser geeignet für diese Aufgabe, sind Prozess-basierte Formularsysteme, wie z. B. Framaforms oder Umfragen mit Nuudel.

Fazit

Das PDF-Format ist kompliziert, möchte zu viele Anwendungsfälle abdecken und ist nicht das richtige Mittel, um Digitalisierung von Abläufen umzusetzen. Viele Anwender:innen verstehen PDF-Dateien als andere Form der Textverarbeitung und erwarten Editierbarkeit; was zwar möglich ist, aber nicht im Sinne des Erfinders war. Es gibt genügend alternative Formate, die bestimmte Aufgaben besser erfüllen als PDF.

Wenn es nach mir ginge, dürfte PDF dem Weg von FLASH folgen.

Titelbild: https://stockcake.com/ (Public Domain KI-Bild Suche. Prompt: 'hell document')

Quellen:
https://de.wikipedia.org/wiki/Portable_Document_Format
https://www.iso.org/standard/75839.html
https://pdfa.org/
https://www.pdf-tools.com/public/downloads/whitepapers/Whitepaper-PDF-Grundlagen-DE.pdf
https://framasoft.org/de/
https://nuudel.digitalcourage.de/

Tags

PDF, Format, Alternativen

Roland
Geschrieben von Roland am 26. April 2024 um 17:46

Mir geht es ganz anders. Ich mag es überhaupt nicht, wenn ich irgendwelche editierbaren Dateien (meist .doc oder .docx) zugeschickt erhalte, wenn ich den Inhalt doch nur lesen soll. Im Vergleich zu diesen Formaten sehen PDFs doch meist auf verschiedenen Geräten und Betriebssystemen gleich aus, und auch der Drucker macht in der Regel nichts anderes daraus. PDFs mögen nicht gut editierbar sein, aber dafür lassen sie sich bestens annotieren. Für mich ist PDF alternativlos in seiner Funktion als elektronisch verteilbares Dokument zum Betrachten und Annotieren.

Fabian
Geschrieben von Fabian am 26. April 2024 um 19:32

Für den spezifischen Fall, dass man mit gescannten Textseiten zu tun hat, zB ein gescannt es Buch ist DJVU ein Zauberformat: https://de.m.wikipedia.org/wiki/DjVu

Brutus
Geschrieben von Brutus am 26. April 2024 um 19:35

Tatsächlich liegt da scheinbar ein Missverständnis vor. PDF Dokumente stehen –wenn überhaupt– stets nur am Ende einer gewissen "Produktionskette" (Frage meinerseits: Was ist heute als "Druckvorstufe" Usus?).

Meine Mutter z.B. ist fast 80, sie hat aber verstanden, dass sie im Libreoffice .odt Dateien erstellen und bearbeiten kann, und dass alles was raus geht, und NICHT bearbeitet werden soll, als .pdf rausgeht.

Hierzu Spezialfall: Sie hat einen "Empfänger", da geht es um einen Verein, der seinerseits die Dinge editieren können muss. Der bekommt -aus seinen ausdrücklichen Wunsch hin- den Kram im Word Format.

Selber hatte ich früher(!) immer jeden Mist als PDF archiviert, was ich heute nach Möglichkeit als html abspeichere. Gerade heute war ich auf einer Seite zum Firefox (irgendeine FH in DE), und man konnte -ganz ohne clienseitiges Javascript- den Seiteninhalt -vorbildlich- als pdf, odt, word, html, epub abspeichern!

Dokumente erstelle ich gelegentlich als odt, bzw. in Markdown, dass ich dann wahlweise nach odt, docx, html oder pdf -epub geht auch- exportieren kann, falls erforderlich, mit Zwischenschritt über LaTex. Ich habe auch Desktop "Webseiten" in markdown/ html, wo dann automatisiert das Seitenmenü gepastet wird.

Software zum Lesen Konvertieren und Bearbeiten von PDF gibt es jede Menge. Lesen tue ich mit mupdf, bzw. -sofern nicht online- mit dem jeweiligen "offiziellen" Reader, hier aktuell ist das Evince.


PS: Den Vogel abgeschossen hat mal jemand, der mir Rechnungen als jpg geschickt hat, wo stattdessen pdf angemessen gewesen wäre, neuerdings mit -maschinenlesbarem- xml Teil 😉️

Erlebt habe ich auch mal –innerhalb derselben Firma!- dass sich "Wordanwender" Worddokumente zuschickten, die sie dann leider nicht hatten öffnen können, weil es unterschiedlich Wordversionen gewesen waren. Die Lösung: Man hatte docx "entzippen" können, um den Inhalt heraus zu popeln 🤣️

Flori
Geschrieben von Flori am 26. April 2024 um 20:43

PDF ist supertoll, ich speichere alles als Pdf. Auch Bilder von der Kamera, lassen sich dann überall ansehen. Musik wird in Pdf eingespeichert und Abgespielt. Ich verschicke Videos vom Kegelarbend als Pdf Multimediadatei an die Kollegen! Geht unter Windows und Ubuntu! Ein Programm was nicht PDF speichern kann ist ein schlechtes Programm.

Klaus
Geschrieben von Klaus am 26. April 2024 um 20:43

Ist halt Schade, dass der Document Scanner außer PDF keine anderen Formate für mehrseitige, gescannte Dokumente unterstützt. Immerhin kann ich diese Dokumente mit Hilfe eines Skripts (mit ocrmypdf & tesseract) beim Abspeichern als PDF durchsuchbar machen. Funktioniert ganz gut.

Ralf Hersel Admin
Geschrieben von Ralf Hersel am 26. April 2024 um 23:54

Vielen Dank für eure Kommentare. Offensichtlich schätzt ihr das PDF-Format; ganz im Gegensatz zu mir. Sehr überrascht hat mich der Kommentar von Flori, der PDF als das bevorzugte Format für Fotos und Musik einsetzt. Da drängt sich der Gedanke auf, ob manche Leute ein Format für alles haben möchten. Wenn ich daran denke, laufen mir kalte Schauer den Rücken hinunter.

Holger
Geschrieben von Holger am 28. April 2024 um 12:56

Für mich PDF das Format der Wahl. Seit 13 Jahren scanne ich bei mir sämtliche Dokumente ein und speichere sie als PDF/A. tesseract übernimmt die OCR und bettet den Text in das Dokument ein. Anfänglich habe ich mit einer Dokumentenstruktur im FS der QNAP gearbeitet, inzwischen übernimmt paperless-ngx den kompletten Workflow. Alternative Formate kommen bei mir nicht mal ansatzweise in Betracht.

Enno
Geschrieben von Enno am 29. April 2024 um 07:18

Für jene, die die Dokumente nicht im Netzwerk per Webinterface zu teilen brauchen, gab es Paperwork; vielleicht wäre Gscanpdf und Recoll ein Ersatz, zumindest fürs Aufbereiten, OCR und Durchsuchen, wobei ich den Featureumfang der Programme nicht überblicke, etwa das zusätzliche KI-unterstützte Taggen der Dokumente scheint bei Paperless eine große Rolle zu spielen.

koeto
Geschrieben von koeto am 29. April 2024 um 10:29

Mit meinen nun 63 Jahren hat mich das PDF-Format lange Jahre begleitet. Ich betrachte es, aus seiner Entstehungsgeschichte und meinem beruflichen Werdegang, immer noch als das beste Lese-Format in digitaler Ausführung. Ich selbst bin mit Büchern groß geworden; und habe mit und aus diesen Büchern auch Hardwareentwicklung und Programmierung im Embedded-Bereich gelernt. Noch bevor die Bücher dann weniger wurden habe ich die Entstehung und den Vorteil von PDF zum Lesen von Dokumentation, direkt auf meinem Arbeitswerkzeug PC, positiv wahrgenommen und auch sofort genutzt. Wie eben geschrieben, zum LESEN des Inhalts, also als reines Ausgabeformat. Ebenso wie man ein Buch nutzt. Notizen ja, aber nur für mich. Elektronischer Index und Suche im Text sogar viel besser als in Büchern. Und genau so benutze ich das PDF-Format bis heute - nur zum Lesen!

Irgendwann kam dann, nach meiner Meinung, der erste D..p (Singular) daher, der die Möglichkeit bot, eine PDF "nachträglich" zu ändern. Für mich stellte sich damals nur eine Frage: "Wer, um Himmelswillen, kommt auf die Idee ein Buch zu nehmen, die Seiten herauszureißen, den Inhalt dann mit einer Schreibmaschine zu ändern, alle Seiten dann wieder notdürftig zusammen zu binden, und anschließend mit der Post zu verschicken?" Leider wurden die D..p.. (Plural) dann immer mehr, denn die ganze Welt schien auf ein systemübergreifendes Dateiformat zum Austausch zu warten. Und wie für uns Menschen so üblich: Ungeeignetes wird dann so lange zurecht gefrickelt, bis es seine neu angedachte Aufgabe irgendwie erfüllen kann.

Ich für meinen Teil bin glücklich, dass es PDF als, schon damals systemübergreifendes, Dateiformat zum LESEN gibt!

Thomas Zellmann
Geschrieben von Thomas Zellmann am 30. April 2024 um 15:48

Grüezi, Herr Hersel, mit Interesse habe ich Ihren "Wochend-Meinungs-Artikel" gelesen und will hier nicht versuchen, Sie zum PDF-Fan zu machen, aber die Kommentare hier zeigen schon, dass die Mehrheit die Vorteile von PDF sehr schätzt. Man könnte jetzt über jeden Nachteil lange diskutieren und da ich viel mit PDF/A gearbeitet habe, greife ich nur diesen Punkt kurz auf. Andere Formate können für spezielle Anwendungsfälle - heute - sicher besser sein, aber was ist damit übermorgen? In der schnelllebigen IT-Branche hilft ein ISO Standard für die Langzeitarchivierung schon sehr, wichtige, digitale Dokumente auch langfristig lesbar zu erhalten. Viele Grüße