Texterkennung (OCR ) vollindizierte PDF in der Archivierung
Was versteht man unter OCR?
OCR steht für Optical Character Recognition, was übersetzt "Optische Zeichenerkennung" bedeutet, jedoch ist die gebräuchlichere Bezeichnung "Texterkennung".
Es handelt sich dabei um eine Technologie, welche gedruckten Text auf Dokumenten oder einem Bild in elektronisch bearbeitbaren Text umwandelt. Texte, welche mit einer OCR-Software erfasst wurden, können in editierbare Textformate umgewandelt werden und lassen sich somit eine bequem bearbeiten, durchsuchen und indexieren.
Auch wir verwenden im Rahmen unserer Scanservices eine optische Texterkennung an.
Auf dieser Seite erhalten Sie alle wichtigen Informationen über die Funktionsweise und Einsatzgebiete der optischen Zeichenerkennung mit Hilfe von OCR-Software.
Wie funktioniert die optische Texterkennung? - Technischer Hintergrund
Eingescannte Dokumente werden prinzipiell als Bild (Rastergrafik) abgespeichert. In diesem Format sind die einzelnen Zeichen und Wörter vom Computer jedoch nicht als solche zu erkennen. OCR-Software analysiert daher das gesamte Dokument und versucht, die richtigen Buchstaben und Ziffern durch einen das Erkennen von Mustern im Bild (Patterns Recognition) sowie dem Abgleich mit zahlreichen Zeichen aus der eigenen Datenbank zu identifizieren.
Eine solche Software zur Texterkennung vergleicht die Bilddaten anhand von gespeicherten Buchstaben- und Wörter- Mustern, um aus den Bildern Text zu gewinnen.
Obwohl OCR eine sehr nützliche Technologie ist, kann die Software immer noch Fehler machen, insbesondere bei schlechter Bildqualität oder wenn Schriften und Zeichen schwer zu erkennen sind. Daher ist es wichtig, Ergebnisse des Einsatzes von OCR-Software zu überprüfen und gegebenenfalls zu korrigieren.
Je nach Qualität der Vorlage und Leistungsfähigkeit der Software, gelingt dies mal gut, mal schlecht und manchmal auch gar nicht. Von einer GUTEN Erkennung kann man ausgehen wenn ca. 85-90% der Texte erkannt wurden. Jeder Wert darüber ist in der Praxis eher unrealistisch.
Ablauf der Texterkennung
- Scan/Digitalisierung: Das zu verarbeitende Dokument wird gescannt, um eine digitale Rastergrafik zu erhalten. Das eingescannte Bild zeigt Text, der in Form eines Musters aus schwarzen und weißen Pixeln dargestellt wird.
- Preprocessing: Das Bild wird von der Software vorbereitet. Dabei sollen mögliche Unschärfen oder Verzerrungen reduziert werden. Beispielsweise wird anhand der Verbesserung von Kontrast oder Bildschärfe die Unterscheidbarkeit von Zeichen und Hintergrund verstärkt.
- Layoutanalyse: Um die Struktur des Dokuments zu verstehen, werden zunächst einzelne Elemente des Texts identifiziert. Dazu zählen beispielsweise Überschriften, Textblöcke, Absätze, Tabellen und Grafiken etc.
- Texterkennung: In diesem Schritt analysiert die OCR-Software die Pixelmuster im Bild mit Hilfe der Pattern Recognition und versucht enthaltende Buchstaben, Zeichen und Symbole zu identifizieren. Erkannte Buchstaben und Zeichen werden mit einer Datenbank abgeglichen.
- Textrekonstruktion: Nachdem die Zeichen erkannt wurden, werden sie geordnet, um Wörter und Sätze zu bilden. Anschließend werden Fehlerkorrekturalgorithmen angewendet, um potenzielle Fehlinterpretationen zu minimieren und die Genauigkeit zu erhöhen.
- Ablauf: Das Endergebnis ist ein maschinenlesbarer Text, welcher in Format vorliegt, das sich bearbeiten lässt (TXT, DOC, Word) oder in Form eines vollindizierten PDF.
Dokumenten mit automatischer OCR bearbeiten oder manuell erfassen?
Und das ist auch der Grund, warum wir bei der Archivierung von relevanten Geschäftsunterlagen uns nie komplett auf die Ergebnisse einer OCR verlassen.
Wichtige, eindeutige Suchbegriffe im Text, unter denen ein Dokument unbedingt recherchierbar sein muss, (Bsp. Die Rechnungsnummer bei Rechnungen, oder der Empfänger bei Schriftverkehr) werden bei einer Archivierung von uns oftmals noch manuell erfasst.
Unter dieser erfassten Rechnungsnummer werden die digitalen Dokumente in einer Datenbank gespeichert oder diese erfassten Daten bilden den Dateinamen der Dokumente (bsp. PDF Dateien). Siehe hierzu auch DATENERFASSUNG. Die Alternative zur manuellen Erfassung bildet eben diese hier beschriebene OCR Technik.
Selbst wenn eine OCR eine Erkennungsquote von 99% liefert, so bedeutet das, dass bei 1.000 archivierten Eingangsbelegen ca.100 Dokumente nicht korrekt abgelegt wurden. Im Falle einer Betriebsprüfung keine gute Grundlage. Entscheidende, wichtige Indizes pro Dokument sollten also u.U. manuell erfasst werden, wozu dann also eine OCR im Archivierungsbereich verwenden?

OCR für Volltext und Stichworte
Wenn es darum geht komplette Texte auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, funktioniert eine automatische Texterkennung im Vergleich zur manuellen Datenerfassung unschlagbar (Preis/Leistung). Wenn also nach Stichworten innerhalb größerer Texte oder eines bestimmten Belegkreises gesucht wird, liefert die OCR ausreichende Ergebnisse, zu 95% wird die OCR direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „Springen“. Die fehlenden 5% (nicht gefundene Suchanfragen) können durch eine gute Archivstruktur anderweitig gefunden werden.
Denn wie bereits erwähnt, sollten relevante Daten pro Dokument manuell erfasst werden. Diese können zusätzlich durch automatisch erkannte Feldindizes angereichert werden.
Werden beispielsweise Eingangsrechnungen archiviert, kann folgende Datenstruktur inkl. Erkennungsform definiert werden:
- Rechnungsnummer : Manuelle Erfassung
- Jahrgang : Manuelle Erfassung
- Datum : OCR
- Absender : OCR / bzw. Datenabgleich* anhand RG-Nr
- Rechnungsbetrag : OCR / bzw. Datenabgleich* anhand RG-Nr
*Datenabgleich: Kombination einer bestehenden Datenbank mit der Archivdatenbank über sog. Matchcodes (bsp. Rechnungsnummer).
Einsatz einer OCR in der Archivierung
Viele DMS (Dokumentenmanagement Systeme) haben eine OCR integriert, je nachdem welch qualitativ ausreichende Ergebnisse diese liefert, werten wir als Scandienstleister die bei uns digitalisierten Dokumente im Vorfeld ebenfalls per Texterkennung aus. Aber auch wenn eine OCR im DMS integriert ist und gute Ergebnisse liefert, kann diese u.U. die Performance des Systems beinträchtigen, eine Auslagerung der Texterkennung zu uns als Scandienstleister kann hier Abhilfe schaffen.
Ist keine OCR im DMS integriert, liefern wir als Scandienstleister diese Daten als Volltexterkennung und erweitern somit die Funktionalität der Archivierungssoftware.
Vollindizierte PDF
Hauptsächlich kommt die Texterkennung jedoch im Bereich der reinen PDF Archivierung zum Einsatz. Hierbei liefern wir sog. VOLLINDIZIERTE PDF Dateien. Zunächst erzeugen wir nach Kundenvorgabe PDF Dateien auf Dokumentenbasis: 1 Dokument kann hierbei ein Ordner, ein Register oder eine einzelne Rechnung sein.
Die so erzeugten PDF Dateien bearbeiten wir mit einer professionellen OCR Software und hinterlegen die erkannten Texte hinter die Bilder der PDF Dateien. Man nennt dies „Text hinter Bild“. Das Original Erscheinungsbild des Dokumentes bleibt nach dem Scannen erhalten, die OCR tauscht NICHT die Bilder gegen den erkannten Text aus, sondern legt den Text quasi als 1:1 Schablone hinter die Bilder. Trotzdem können ganze Textseiten, Textpassagen oder einzelne Wörter direkt im PDF markiert und kopiert werden.
Diese vollindizierten PDF Dateien sind komplett nach Wörtern oder Textpassagen durchsuchbar. Eine solche Textsuche funktioniert mit der Windows Suchfunktion sogar über eine große Anzahl von PDF Dateien. Dadurch ist es also auch möglich, komplette Archivierungen kleiner bis sehr großer Dokumenten- und Aktenbestände zu archivieren, umfangreich recherchierbar zu machen und dabei keine Softwareinvestition tätigen zu müssen.
Sprechen Sie uns gerne an und wir erörtern gemeinsam mit Ihnen in welchen Bereichen Ihrer Archivanforderungen eine OCR sinnvoll einzusetzen ist.
Kontakt aufnehmen
Jetzt Testscans und Textauswertungen Ihrer Belege hier anfordern
