Services

Texterkennung (OCR ) vollindizierte PDF in der Archivierung

Was versteht man unter OCR?

OCR steht für Optical Character Recognition, was übersetzt "Optische Zeichenerkennung" bedeutet, jedoch ist die gebräuchlichere Bezeichnung "Texterkennung".

Es handelt sich dabei um eine Technologie, welche gedruckten Text auf Dokumenten oder einem Bild in elektronisch bearbeitbaren Text umwandelt. Texte, welche mit einer OCR-Software erfasst wurden, können in editierbare Textformate umgewandelt werden und lassen sich somit eine bequem bearbeiten, durchsuchen und indexieren.

Auch wir bieten im Rahmen unserer Scanservices eine optische Texterkennung an.

Auf dieser Seite erhalten Sie alle wichtigen Informationen über die Funktionsweise und Einsatzgebiete der optischen Zeichenerkennung mit Hilfe von OCR-Software.

Wie funktioniert die optische Texterkennung? - Technischer Hintergrund

Eingescannte Dokumente werden prinzipiell als Bild (Rastergrafik) abgespeichert. Dabei untersucht die OCR in Zeilen und Spalten angeordnete Punkte in unterschiedlicher Einfärbung (Pixel). Texterkennung beschreibt hier den Prozess, Muster und Konzentrationen (Patterns Recognition) an Pixeln im Bild als Schriftzeichen zu erkennen und mit Daten aus umfangreichen Datenbanken abzugleichen.

Auf diese Weise können Schriftzeichen und häufig verwendete Schriftarten erkannt werden. Die Software erstellt eine neue Textdatei, welche entweder als Text hinter dem Bild oder als separate Datei gespeichert werden kann.

Obwohl OCR eine sehr nützliche Technologie ist, kann die Software immer noch Fehler machen, insbesondere bei schlechter Bildqualität oder wenn Schriften und Zeichen schwer zu erkennen sind. Daher ist es wichtig, Ergebnisse des Einsatzes von OCR-Software zu überprüfen und gegebenenfalls zu korrigieren.

Je nach Qualität der Vorlage und Leistungsfähigkeit der Software, gelingt dies mal gut, mal schlecht und manchmal auch gar nicht. Von einer GUTEN Erkennung kann man ausgehen wenn ca. 85-90% der Texte erkannt wurden. Jeder Wert darüber ist in der Praxis eher unrealistisch.

Welche Vorteile bietet eine OCR

Unser Service der optischen Zeichenerkennung (OCR) bietet eine Reihe von Vorteilen für Unternehmen:

Zeitersparnis durch gezielte Suche nach Stichworten anstatt kompletten Text lesen zu müssen
Effizienzsteigerung und geringerer manueller Arbeitsaufwand
Kostenreduktion dank geringerem Personalaufwand durch Automatisierung von Prozessen
In Kombination mit einem DMS ermöglicht eine OCR die Volltextsuche über das gesamte Archiv sowie das Extrahieren bestimmter Informationen aus dem Text (z.B. Rechnungsbetrag oder Kundennummer etc.)
Vermeidung manueller Fehler

Anwendungsgebiete von OCR

Insgesamt ist die Verwendung von OCR in Unternehmen vielfältig und wird in nahezu allen Branchen und Abteilungen eingesetzt, um die Effizienz zu steigern, Kosten zu senken und den Zugriff auf Informationen zu verbessern.

Insbesondere Abteilungen mit einem hohen Aufkommen und Durchlauf von Dokumenten profitieren vom Einsatz einer optischen Zeichenerkennung.

Dazu zählen zum Beispiel:

Buchhaltung und Finance: Extrahieren von Daten aus Rechnungen, Quittungen oder Bestellungen etc.
Kundenservice und Kommunikation: Informationen aus E-Mails, Formularen oder gescannten Briefen extrahieren und in das CMS einspeisen
Compliance und Rechtsabteilung: Durchsuchen von Verträgen nach bestimmten Begriffen
Dokumentenverwaltung und Archiv: Schnelle Suche nach Dokumenten und Informationen sowie automatische Zuordnung
Computergestützte Aktenanalyse: Mit Techniken aus dem Bereich künstliche Intelligenz (Machine Learning) lassen sich große Mengen an Text einfach analysieren und manuelle Analyseverfahren fallen weg

Ablauf der Texterkennung

Scan/Digitalisierung: Das zu verarbeitende Dokument wird gescannt, um eine digitale Rastergrafik zu erhalten. Das eingescannte Bild zeigt Text, der in Form eines Musters aus schwarzen und weißen Pixeln dargestellt wird.
Preprocessing: Das Bild wird von der Software vorbereitet. Dabei sollen mögliche Unschärfen oder Verzerrungen reduziert werden. Beispielsweise wird anhand der Verbesserung von Kontrast oder Bildschärfe die Unterscheidbarkeit von Zeichen und Hintergrund verstärkt.
Layoutanalyse: Um die Struktur des Dokuments zu verstehen, werden zunächst einzelne Elemente des Texts identifiziert. Dazu zählen beispielsweise Überschriften, Textblöcke, Absätze, Tabellen und Grafiken etc.
Texterkennung: In diesem Schritt analysiert die OCR-Software die Pixelmuster im Bild mit Hilfe der Pattern Recognition und versucht enthaltende Buchstaben, Zeichen und Symbole zu identifizieren. Erkannte Buchstaben und Zeichen werden mit einer Datenbank abgeglichen.
Textrekonstruktion: Nachdem die Zeichen erkannt wurden, werden sie geordnet, um Wörter und Sätze zu bilden. Anschließend werden Fehlerkorrekturalgorithmen angewendet, um potenzielle Fehlinterpretationen zu minimieren und die Genauigkeit zu erhöhen.
Ablauf: Das Endergebnis ist ein maschinenlesbarer Text, welcher in Format vorliegt, das sich bearbeiten lässt (TXT, DOC, Word) oder in Form eines vollindizierten PDF.

Dokumente mit automatischer Texterkennung bearbeiten oder manuell erfassen?

Und das ist auch der Grund, warum wir uns bei unserem Service der Archivierung von relevanten geschäftlichen Dokumenten nie komplett auf die Ergebnisse einer OCR verlassen.

Wichtige, eindeutige Suchbegriffe im Text, unter denen ein Dokument unbedingt recherchierbar sein muss, (z.B. die Rechnungsnummer bei Rechnungen, oder der Empfänger bei Schriftverkehr) extrahieren wir bei einer Archivierung oftmals noch manuell.

Unter dieser erfassten Rechnungsnummer werden die digitalen Dokumente in einer Datenbank gespeichert oder diese erfassten Daten bilden die Dateinamen von Dokumenten (bsp. PDF Dateien). Siehe hierzu auch DATENERFASSUNG. Die Alternative zur manuellen Erfassung bildet eben diese hier beschriebene OCR Technik.

Selbst wenn eine OCR 99% der Zeichen in den Bildern erkennen kann, so bedeutet das, dass bei 1.000 archivierten Eingangsbelegen ca.10 Dokumente nicht korrekt abgelegt wurden. Im Falle einer Betriebsprüfung ist dies keine gute Grundlage für Ihr Unternehmen. Entscheidende, wichtige Indizes in den Dokumenten sollten daher u.U. manuell erfasst werden.

Wozu dann also Bilder im Archivierungsbereich mit einer OCR bearbeiten?

OCR für Volltext und Stichworte

Wenn es darum geht komplette Texte zu erkennen und auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, funktioniert eine automatische Texterkennung im Vergleich zur manuellen Datenerfassung unschlagbar (Preis/Leistung). Wenn also nach Stichworten innerhalb größerer Texte oder eines bestimmten Belegkreises gesucht wird, liefert die OCR ausreichende Ergebnisse, zu 95% wird die OCR direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „Springen“. Die fehlenden 5% (nicht gefundene Suchanfragen) können durch eine gute Archivstruktur anderweitig gefunden werden.

Denn wie bereits erwähnt, sollten relevante Daten pro Dokument manuell erfasst werden. Diese können wir zusätzlich durch automatisch erkannte Feldindizes extrahieren.

Werden beispielsweise Eingangsrechnungen archiviert, kann folgende Datenstruktur inkl. Erkennungsform definiert werden:

Rechnungsnummer : Manuelle Erfassung
Jahrgang : Manuelle Erfassung
Datum : OCR
Absender : OCR / bzw. Datenabgleich* anhand RG-Nr
Rechnungsbetrag : OCR / bzw. Datenabgleich* anhand RG-Nr

*Datenabgleich: Kombination einer bestehenden Datenbank mit der Archivdatenbank über sog. Matchcodes (bsp. Rechnungsnummer).

Einsatz einer OCR in der Archivierung

Viele DMS (Dokumentenmanagement Systeme) verfügen über eine integrierte OCR. Abhängig von der Qualität, der Ergebnisse, diese liefert, werten wir als Scandienstleister die bei uns digitalisierten Dokumente im Vorfeld ebenfalls per Texterkennung aus.

Aber auch wenn eine OCR im DMS integriert ist und gute Ergebnisse liefert, kann diese u.U. die Performance des Systems beinträchtigen, eine Auslagerung der Texterkennung zu uns als Scandienstleister kann hier Abhilfe schaffen.

Ist keine OCR im DMS integriert, liefern wir mit unserem Service diese Daten als Volltexterkennung und erweitern somit die Funktionalität der Archivierungssoftware.

Vollindizierte PDF

Hauptsächlich kommt die Texterkennung jedoch im Bereich der reinen PDF Archivierung zum Einsatz. Hierbei liefern wir sog. VOLLINDIZIERTE PDF Dateien. Zunächst erzeugen wir nach Kundenvorgabe PDF Dateien auf Dokumentenbasis: 1 Dokument kann hierbei ein Ordner, ein Register oder eine einzelne Rechnung sein.

Die so erzeugten PDF Dateien bearbeiten wir mit einer professionellen OCR Software und hinterlegen die erkannten Texte hinter die Bilder der PDF Dateien. Man nennt dies „Text hinter Bild“. Das Original Erscheinungsbild des Dokumentes bleibt nach dem Scannen erhalten, die OCR tauscht NICHT die Bilder gegen den erkannten Text aus

Der Text wird als 1:1 Schablone hinter den Bildern gespeichert. Trotzdem können ganze Seiten, Textpassagen oder einzelne Wörter direkt im PDF markiert und kopiert werden.

Diese vollindizierten PDF Dateien sind komplett nach Wörtern oder Textpassagen durchsuchbar. Eine solche Textsuche funktioniert mit der Windows Suchfunktion sogar über eine große Anzahl von PDF Dateien. Dadurch ist es also auch möglich, komplette Archivierungen kleiner bis sehr großer Dokumenten- und Aktenbestände zu archivieren, umfangreich recherchierbar zu machen und dabei keine Softwareinvestition tätigen zu müssen.

Ansonsten können Sie noch die Volltextsuche im Adobe Acrobat nutzen.

Sprechen Sie uns gerne an und wir erörtern gemeinsam mit Ihnen in welchen Bereichen Ihrer Archivanforderungen eine OCR sinnvoll einzusetzen ist.

Service inkl. Texterkennung

Jetzt Testscans und OCR Ihrer Belege anfordern.

Kostenlose Info Hotline0800 396 76 00

E-Mailinfo@smart-store.de

Kostenlose Info Hotline

0800 396 76 00

E-Mail