Papier-Posteingang digitalisieren

Mi, 22. Dezember 2021, Tim Moritz

Obwohl die Welt immer digitaler wird, kommen immer noch viele Dokumente per Post. Das ist nicht nur schlecht für die Umwelt, sondern auch unpraktisch. Von der Aufbewahrungspflicht mal abgesehen, wenn man dann mal ein spezifisches Dokument braucht, hat man entweder die Arbeit beim ordentlichen ablegen und abwägen der Wichtigkeit oder man hat irgendwo einen grossen Haufen, den man dann mühselig durchsuchen muss.


Mein Ziel war es, die Post, die man so in Papierform bekommt, in sinnvoller und einfacher Weise digital zu archivieren. Ich möchte euch heute meine eigene Lösung mit dem dazugehörigen Hard- und Softwaresetup vorstellen.

Meine Hardware

Ich konnte günstig ein gebrauchtes Multifunktionsgerät ECOSYS M6530cdn vom Hersteller Kyocera erwerben. Neben der Funktion beidseitig (Duplex) zu drucken und einem normalen Flachbett-Scanner, war für mich insbesondere der Duplex-Dokumenteneinzug interessant. So kann ich einen Stapel DinA4 Blätter einfach in den Einzug legen und alles auf einen Schlag beidseitig einscannen.

Ich habe das Gerät nur per LAN-Kabel in mein Heimnetz integriert und unter Linux (Manjaro) habe ich keine Probleme über das Netzwerk zu drucken und zu scannen. Auch die beiden grossen Smartphone Betriebssysteme im heimischen WLAN brauchten keine zusätzliche Software um drucken zu können.

Das Multifunktionsgerät kann ohne eingeschalteten PC benutzt werden. Es kann gescannte Dokumente auf einem angeschlossenen USB-Stick speichern, die per E-Mail versenden und auch im Netzwerk ablegen (FTP und SMB werden unterstützt). Letzteres verwende ich für meine Dokumentenablage. Da ich kein NAS habe, habe ich einfach einen USB-Stick an meinen Router angeschlossen, der dann als Samba-Freigabe im Heimnetz zur Verfügung steht.

Die meisten Einstellungen lassen sich zwar mit Hilfe des Displays direkt am Gerät festlegen, einfacher ist es jedoch das integrierte Webinterface zu nutzen. Hier lassen sich für die Scan-Funktion der Speicherort, das Dateiformat, das Format des Dateinamens und Funktionen wie "leere Seiten auslassen" oder "eine Datei pro Seite erstellen" einstellen.

Die Software

Eigentlich ist die Hardware mit ihren Funktionen schon ausreichend, um alle Dokumente bequem zu digitalisieren. Hat man aber eine gewisse Grösse des Archivs erreicht, verliert man schnell den Überblick.

Anfangs habe ich die Dokumente per Hand in Unterordnern strukturiert, wobei man auch bei meinem Gerät auch die Kurzwahltasten mit verschiedenen Speicherorten belegen könnte. Beides ist jedoch relativ Aufwändig, also machte ich mich auf die Suche nach einer einfacheren Lösung.

Die Lösung fand ich mit der freien Software Paperwork. Paperwork führt Texterkennung (OCR) auf PDFs durch und macht diese durchsuchbar. Es steht unter GNU AGPLv3.

Wenn man ein PDF in Paperwork importiert, dann wird eine Kopie davon im Paperwork-Datenverzeichnis abgelegt, inkl. einer Miniatur-Grafik und einer Textdatei, in der sich der erkannte Text in einer HTML-Struktur findet. Anhand dieser Datei lässt sich das Archiv durchsuchen und die Software weiss an welcher Stelle im PDF sich der gesuchte Text befindet.



Soweit ich weiss, ist Paperwork in jedem grösseren Paket-Repository verfügbar und lässt sich somit einfach wie gewohnt installieren. Es ist aber auch als Flatpak und sogar für Windows verfügbar. Es kommt mit einer recht übersichtlichen grafischen Benutzeroberfläche, aber auch mit zwei mächtigen Command-Line-Tools:

paperwork-cli als Command-Line-Interface für den Benutzer und paperwork-json als Schnittstelle um mit Scripten die Rückgaben im JSON-Format zu verarbeiten.

Paperwork kann wohl auch selbst scannen, diese Funktion benötige ich in meinem Setup allerdings nicht. Je nach Grösse des Archivs kann der erste Import schon gut Zeit in Anspruch nehmen, dafür kann man sich dann das manuelle sortieren sparen und sein Archiv bequem durchsuchen. Ziel erreicht!

Wenn ihr Fragen oder Anregungen habt, lasst es mich gerne wissen. Mich interessieren auch eure Lösungen, also nutzt die Kommentarfunktion oder lasst uns in der Community diskutieren.

Quelle: https://openpaper.work/
Bildquelle Titelbild: https://pixabay.com/photos/papers-projects-documents-3819540/
Bildquelle Screenshots: https://gitlab.gnome.org/World/OpenPaperwork/paperwork/#installation

Was ist eure Meinung dazu?

Diskutiere mit uns oder schreibe bei uns mit!