Texterkennung (OCR ) vollindizierte PDF in der Archivierung
Finden statt Suchen
OCR steht für Optical-Character-Recognition, übersetzt heißt es Optische Zeichen Erkennung, gebräuchlicher ist aber die Bezeichnung TEXTERKENNUNG. Auch wir bieten im Rahmen unserer Scanservices eine Texterkennung an, auf dieser Seite erfahren Sie mehr über die Funktionsweise und Einsatzgebiete der OCR.
Technischer Hintergrund
Digitalisierte Dokumente, also gescannte Unterlagen, liegen nach dem Scan als reine Matrix Daten vor, also als „Bilder“, auch Rastergrafiken genannt. Der darauf abgebildete Text ist keine auswertbare Information, sondern im IT Sinne nur Bildpunkte. Um daraus verwertbare Daten, wieder Texte zu erzeugen, ist eine OCR Software notwendig. Eine solche Texterkennungssoftware vergleicht die Bilddaten anhand von gespeicherten Buchstaben- und Wörter- Mustern, um aus den Bildern Text zu gewinnen.
Je nach Qualität der Vorlage und Leistungsfähigkeit der Software, gelingt dies mal gut, mal schlecht und manchmal auch gar nicht. Von einer GUTEN Erkennung kann man ausgehen wenn ca. 85-90% der Texte erkannt wurden. Jeder Wert darüber ist in der Praxis eher unrealistisch.
Automatische OCR oder manuelle Erfassung ?
Und das ist auch der Grund, warum wir bei der Archivierung von relevanten Geschäftsunterlagen uns nie komplett auf die Ergebnisse einer OCR verlassen. Wichtige, eindeutige Suchbegriffe, unter denen ein Dokument unbedingt recherchierbar sein muss, (Bsp. Die Rechnungsnummer bei Rechnungen, oder der Empfänger bei Schriftverkehr) werden bei einer Archivierung von uns oftmals noch manuell erfasst. Unter dieser erfassten Rechnungsnummer werden die digitalen Dokumente in einer Datenbank gespeichert oder diese erfassten Daten bilden den Dateinamen der Dokumente (bsp. PDF Dateien). Siehe hierzu auch DATENERFASSUNG. Die Alternative zur manuellen Erfassung bildet eben diese hier beschriebene OCR Technik.
Selbst wenn eine OCR eine Erkennungsquote von 99% liefert, so bedeutet das, dass bei 1.000 archivierten Eingangsbelegen ca.100 Dokumente nicht korrekt abgelegt wurden. Im Falle einer Betriebsprüfung keine gute Grundlage. Entscheidende, wichtige Indizes pro Dokument sollten also u.U. manuell erfasst werden, wozu dann also eine OCR im Archivierungsbereich?

OCR für Volltext und Stichworte
Wenn es darum geht komplette Texte auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, ist eine automatische Texterkennung im Vergleich zur manuellen Datenerfassung unschlagbar (Preis/Leistung). Wenn also nach Stichworten innerhalb größerer Texte oder eines bestimmten Belegkreises gesucht wird, liefert die OCR ausreichende Ergebnisse, zu 95% wird die OCR direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „Springen“. Die fehlenden 5% (nicht gefundene Suchanfragen) können durch eine gute Archivstruktur anderweitig gefunden werden.
Denn wie bereits erwähnt, sollten relevante Daten pro Dokument manuell erfasst werden. Diese können zusätzlich durch automatisch erkannte Feldindizes angereichert werden.
Werden beispielsweise Eingangsrechnungen archiviert, kann folgende Datenstruktur inkl. Erkennungsform definiert werden:
- Rechnungsnummer : Manuelle Erfassung
- Jahrgang : Manuelle Erfassung
- Datum : OCR
- Absender : OCR / bzw. Datenabgleich* anhand RG-Nr
- Rechnungsbetrag : OCR / bzw. Datenabgleich* anhand RG-Nr
*Datenabgleich: Kombination einer bestehenden Datenbank mit der Archivdatenbank über sog. Matchcodes (bsp. Rechnungsnummer).
Einsatz einer OCR in der Archivierung
Viele DMS (Dokumentenmanagement Systeme) haben eine OCR integriert, je nachdem welch qualitativ ausreichende Ergebnisse diese liefert, werten wir als Scandienstleister die bei uns digitalisierten Dokumente im Vorfeld ebenfalls per Texterkennung aus. Aber auch wenn eine OCR im DMS integriert ist und gute Ergebnisse liefert, kann diese u.U. die Performance des Systems beinträchtigen, eine Auslagerung der Texterkennung zu uns als Scandienstleister kann hier Abhilfe schaffen.
Ist keine OCR im DMS integriert, liefern wir als Scandienstleister diese Daten als Volltexterkennung und erweitern somit die Funktionalität der Archivierungssoftware.
Vollindizierte PDF
Hauptsächlich kommt die Texterkennung jedoch im Bereich der reinen PDF Archivierung zum Einsatz. Hierbei liefern wir sog. VOLLINDIZIERTE PDF Dateien. Zunächst erzeugen wir nach Kundenvorgabe PDF Dateien auf Dokumentenbasis: 1 Dokument kann hierbei ein Ordner, ein Register oder eine einzelne Rechnung sein.
Die so erzeugten PDF Dateien werten wir mittels professioneller OCR Software aus und hinterlegen die erkannten Texte hinter die Bilder der PDF Dateien. Man nennt dies „Text hinter Bild“. Das Original Erscheinungsbild des Dokumentes bleibt nach dem Scannen erhalten, die OCR tauscht NICHT die Bilder gegen den erkannten Text aus, sondern legt den Text quasi als 1:1 Schablone hinter die Bilder. Trotzdem können ganze Textseiten, Textpassagen oder einzelne Wörter direkt im PDF markiert und kopiert werden.
Diese vollindizierten PDF Dateien sind komplett nach Wörtern oder Textpassagen durchsuchbar. Eine solche Textsuche funktioniert mit der Windows Suchfunktion sogar über eine große Anzahl von PDF Dateien. Dadurch ist es also auch möglich, komplette Archivierungen kleiner bis sehr großer Dokumenten- und Aktenbestände zu archivieren, umfangreich recherchierbar zu machen und dabei keine Softwareinvestition tätigen zu müssen.
Sprechen Sie uns gerne an und wir erörtern gemeinsam mit Ihnen in welchen Bereichen Ihrer Archivanforderungen eine OCR sinnvoll einzusetzen ist.
Kontakt aufnehmen
Jetzt Testscans und Textauswertungen Ihrer Belege hier anfordern
