Papier-Posteingang digitalisieren

  Tim Moritz   Lesezeit: 5 Minuten  🗪 11 Kommentare

Berge von Papier auf dem Rechner durchsuchbar machen

papier-posteingang digitalisieren

Obwohl die Welt immer digitaler wird, kommen immer noch viele Dokumente per Post. Das ist nicht nur schlecht für die Umwelt, sondern auch unpraktisch. Von der Aufbewahrungspflicht mal abgesehen, wenn man dann mal ein spezifisches Dokument braucht, hat man entweder die Arbeit beim ordentlichen ablegen und abwägen der Wichtigkeit oder man hat irgendwo einen grossen Haufen, den man dann mühselig durchsuchen muss.


Mein Ziel war es, die Post, die man so in Papierform bekommt, in sinnvoller und einfacher Weise digital zu archivieren. Ich möchte euch heute meine eigene Lösung mit dem dazugehörigen Hard- und Softwaresetup vorstellen.

Meine Hardware

Ich konnte günstig ein gebrauchtes Multifunktionsgerät ECOSYS M6530cdn vom Hersteller Kyocera erwerben. Neben der Funktion beidseitig (Duplex) zu drucken und einem normalen Flachbett-Scanner, war für mich insbesondere der Duplex-Dokumenteneinzug interessant. So kann ich einen Stapel DinA4 Blätter einfach in den Einzug legen und alles auf einen Schlag beidseitig einscannen.

Ich habe das Gerät nur per LAN-Kabel in mein Heimnetz integriert und unter Linux (Manjaro) habe ich keine Probleme über das Netzwerk zu drucken und zu scannen. Auch die beiden grossen Smartphone Betriebssysteme im heimischen WLAN brauchten keine zusätzliche Software um drucken zu können.

Das Multifunktionsgerät kann ohne eingeschalteten PC benutzt werden. Es kann gescannte Dokumente auf einem angeschlossenen USB-Stick speichern, die per E-Mail versenden und auch im Netzwerk ablegen (FTP und SMB werden unterstützt). Letzteres verwende ich für meine Dokumentenablage. Da ich kein NAS habe, habe ich einfach einen USB-Stick an meinen Router angeschlossen, der dann als Samba-Freigabe im Heimnetz zur Verfügung steht.

Die meisten Einstellungen lassen sich zwar mit Hilfe des Displays direkt am Gerät festlegen, einfacher ist es jedoch das integrierte Webinterface zu nutzen. Hier lassen sich für die Scan-Funktion der Speicherort, das Dateiformat, das Format des Dateinamens und Funktionen wie "leere Seiten auslassen" oder "eine Datei pro Seite erstellen" einstellen.

Die Software

Eigentlich ist die Hardware mit ihren Funktionen schon ausreichend, um alle Dokumente bequem zu digitalisieren. Hat man aber eine gewisse Grösse des Archivs erreicht, verliert man schnell den Überblick.

Anfangs habe ich die Dokumente per Hand in Unterordnern strukturiert, wobei man auch bei meinem Gerät auch die Kurzwahltasten mit verschiedenen Speicherorten belegen könnte. Beides ist jedoch relativ Aufwändig, also machte ich mich auf die Suche nach einer einfacheren Lösung.

Die Lösung fand ich mit der freien Software Paperwork. Paperwork führt Texterkennung (OCR) auf PDFs durch und macht diese durchsuchbar. Es steht unter GNU AGPLv3.

Wenn man ein PDF in Paperwork importiert, dann wird eine Kopie davon im Paperwork-Datenverzeichnis abgelegt, inkl. einer Miniatur-Grafik und einer Textdatei, in der sich der erkannte Text in einer HTML-Struktur findet. Anhand dieser Datei lässt sich das Archiv durchsuchen und die Software weiss an welcher Stelle im PDF sich der gesuchte Text befindet.



Soweit ich weiss, ist Paperwork in jedem grösseren Paket-Repository verfügbar und lässt sich somit einfach wie gewohnt installieren. Es ist aber auch als Flatpak und sogar für Windows verfügbar. Es kommt mit einer recht übersichtlichen grafischen Benutzeroberfläche, aber auch mit zwei mächtigen Command-Line-Tools:

paperwork-cli als Command-Line-Interface für den Benutzer und paperwork-json als Schnittstelle um mit Scripten die Rückgaben im JSON-Format zu verarbeiten.

Paperwork kann wohl auch selbst scannen, diese Funktion benötige ich in meinem Setup allerdings nicht. Je nach Grösse des Archivs kann der erste Import schon gut Zeit in Anspruch nehmen, dafür kann man sich dann das manuelle sortieren sparen und sein Archiv bequem durchsuchen. Ziel erreicht!

Wenn ihr Fragen oder Anregungen habt, lasst es mich gerne wissen. Mich interessieren auch eure Lösungen, also nutzt die Kommentarfunktion oder lasst uns in der Community diskutieren.

Quelle: https://openpaper.work/
Bildquelle Titelbild: https://pixabay.com/photos/papers-projects-documents-3819540/
Bildquelle Screenshots: https://gitlab.gnome.org/World/OpenPaperwork/paperwork/#installation

Tags

Paperwork, USB-Stick, GNU, Dokumente, Software, Archiv, Dokument, Multifunktionsgerät, Duplex

Simon
Geschrieben von Simon am 22. Dezember 2021 um 13:44

Hallo Tim, ich habe auch lange nach einer Lösung gesucht meine Dokumente zu digitalisieren. Dann habe ich die Webapplikation paperless-ng gefunden. Dokumente können entweder hochgeladen oder von einem E-Mail Postfach importiert werden. Sie werden dann automatisch mit OCR durchsuchbar gemacht. Es ist möglich Stichwörter, Korrespondent und Datum anzugeben. Stichwörter und Korrespondent können automatisch vergeben werden. Dabei wird von den bisherigen vergebenen gelernt. Das Datum wird auch automatich erkannt (natürlich nicht immer perfekt). Durch die Volltextsuche sind Dokumente aber auch so schon schnell auffindbar.

Tim Moritz
Geschrieben von Tim Moritz am 22. Dezember 2021 um 16:25

Hallo Simon, danke für den Tipp. Das schaue ich mir auf jeden Fall an, denn gerade die automatische Erkennung des Datums fehlt mir aktuell. Vielleicht schreibe ich dann auch einen Artikel darüber, aber das darfst du auch gerne übernehmen :)

MaM
Geschrieben von MaM am 22. Dezember 2021 um 20:53

Ja ich hatte mir auch beides angeschaut, bin aber auch bei paperless-ng geblieben und nehme Scans mit eine RPI entgegen: https://workpress.plattform32.de/2021/05/dms-2021-wieder-dem-papierkrieg/

chris-Ratisbon
Geschrieben von chris-Ratisbon am 22. Dezember 2021 um 21:02

Paperless-ng kann ich auch nur empfehlen. Läuft bei mir auf einem Raspi. Der Scanner kopiert direkt ins Consume Verzeichnis. Die Nachbearbeitung / Verschlagwortung geht Superschnell - meist nur den Vorschlag annehmen.

Falk
Geschrieben von Falk am 6. Januar 2022 um 14:06

Ich kann auch nur Paperless-NG empfehlen. Wird sehr aktiv weiterentwickelt und sehr einfach mittels Docker ans laufen zu bringen. Nutze die Lösung jetzt seit fast 1 1/2 Jahren und bin mehr als zufrieden. Scannen mache ich teils per Scanner, teils per App und Mailanhänge "schmeiße" ich manuell in die ConsumerOrdner

Christian
Geschrieben von Christian am 22. Dezember 2021 um 14:00

Hi!

Paperwork habe ich mir auch immer wieder angeschaut, scheiterte aber immer daran, dass es nicht für mehrere Nutzer geeignet ist. Letztendlich habe ich auf einer virtuellen Maschine Mayan innerhalb von Docker installiert. Unser Drucker kann Scans automatisch auf einem Sambashare ablegen (NAS). Das wird von Mayan regelmässig kontrolliert und importiert.

VG Christian

Tim Moritz
Geschrieben von Tim Moritz am 22. Dezember 2021 um 16:27

Hi Christian,

die Anforderung habe ich zwar nicht, aber auch die Lösung werde ich mir mal anschauen und ggf. darüber berichten. Auch dir lasse ich gerne den Vortritt einen Beitrag auf gnulinux.ch zu veröffentlichen.

Vitali
Geschrieben von Vitali am 22. Dezember 2021 um 19:02

Wie funktioniert das drucken unter Android? Unter iOS gibt es Airprint.

Reto
Geschrieben von Reto am 22. Dezember 2021 um 22:43

Hallo Tim, und der vierte im Bunde aus Berlin: Papermerge - Document Management System www.papermerge.com wahrscheinlich das jüngste Projekt aber er arbeitet sehr viel daran. Der Unterschied bei den anderen, die scannen nicht. Paperwork macht sich das Leben ziemlich schwer mit dem Scanner einbinden.

Jens
Geschrieben von Jens am 4. Januar 2022 um 20:40

Hallo,

das ist ein sehr schöner Bericht. Ich suche auch seit längerer Zeit nach so einer Lösung. Ich habe aber noch keinen Scanner. Welche Dokumentenscanner funktionieren denn mit Linux? Welches Hetät könnt ihr empfehlen?

Jens

Bernhard
Geschrieben von Bernhard am 6. Februar 2022 um 22:20

Hab hier einen hp Officejet 8730 Pro laufen - zumindest von SimpleScan kann ich den direkt ansprechen (debian 10) über's LAN