Glossar

Unser Glossar erläutert die wichtigsten Fachbegriffe aus den Bereichen Texterkennung, Formularverarbeitung und Datenerfassung. Die Sammlung erhebt keinen Anspruch auf Vollständigkeit oder wissenschaftliche Korrektheit, sondern soll vor allem Laien die wichtigsten Begriffe unserer Branche näher bringen.

Auflösung

Die Auflösung eines Scanners wird in dpi (englisch: dots per inch = Punkte pro Zoll) angegeben und ist ein Maß dafür, wie feinmaschig die zu scannende Vorlage abgetastet wird. Für OCR-Zwecke genügen in der Regel Auflösungen zwischen 300 und 400 dpi, zum Scannen von Bildern für Reprozwecke werden Auflösungen von 1200 dpi und mehr verwendet.

Archivsystem

Ein Archivsystem ist ein Programm zur geordneten Ablage digitaler Dokumente. Archivsysteme ermöglichen eine schnelle Recherche der archivierten Dokumenten durch die Vergabe von Stichwörtern bei der Ablage. Archivsysteme mit integrierter OCR sind darüber hinaus in der Lage, den Inhalt von gescannten Dokumenten oder Bilddateien automatisch zu indizieren und somit eine Volltextsuche zu ermöglichen.

Barcode

Strichcode Ein Barcode (englisch: bar = strich) oder auch Strichcode ist eine maschinenlesbare Folge von unterschiedlich breiten senkrechten Streifen, die eine Zahl oder ein Wort codiert. Barcodes werden zur automatischen Identifikation auf Verpackungen oder Dokumenten aufgedruckt und können mit speziellen Barcode-Scannern oder auch mit Dokumentenscannern und geeigneter Software erkannt werden.


Belegauswertung, Belegerfassung, Belegerkennung, Belegverarbeitung

Belegauswertung, -erfassung, -erkennung und -verarbeitung sind Synonyme für die automatische Erfassung von Dokumenten mit fester Seitenstruktur wie zum Beispiel Formularen, Fragebögen, Lottoscheinen, Stundenzetteln u.ä. Zur Belegerfassung können entweder spezielle Hardware-Systeme (sogenannte Belegleser) oder PCs mit handelsüblichen Scannern und Software-Lösungen wie das von uns entwickelte FormPro eingesetzt werden.

Belegleser

Ein Belegleser ist ein Hardware-System zur automatischen Erfassung von Dokumenten mit fester Seitenstruktur wie zum Beispiel Formularen, Fragebögen, Lottoscheinen, Stundenzetteln u.ä.

Bilddatei

Eine Bilddatei ist eine codierte Form eines digitalisierten Bildes. Bilddateien können entweder Rastergrafiken oder Vektrografiken enthalten, wobei für OCR nur Rastergrafiken von Bedeutung sind. Eine Rastergrafik ist ein rechteckiges Bild mit einer bestimmten Auflösung und Farbtiefe, die je nach Bilddateityp unkomprimiert oder unterschiedlich stark komprimiert werden kann. Bei der Arbeit mit Dokumenten werden Bilddateien am häufigsten im TIFF-Format gespeichert, zur Speicherung von Fotos verwendet man üblicherweise das JPEG-Format.

Blindfarbe

Als Blindfarbe wird das gewollte Ausblenden einer bestimmter Primärfarbe (rot, grün oder blau) beim Scannen bezeichnet. Mit Hilfe einer Blindfarbe können zum Beispiel vorgedruckte Linien und Rahmen auf Formularen oder Fragebögen beim Scannen ausgeblendet werden. Dies ermöglicht zum einen eine bessere Komprimierung der Bilder und gewährleistet zum anderen eine optimale Auswertung mit Hilfe von OCR oder ICR.
Zur Verwendung einer Blindfarbe wird üblicherweise ein Graustufenscanner mit einer speziellen Lampe ausgerüstet oder ein Farbscanner verwendet. Moderne Dokumentenscanner verfügen heutzutage alle über die Möglichkeit zur Auswahl einer Blindfarbe.

Datenerfassung

Datenerfassung ist der Überbegriff der Eingabe von Daten in einen Computer. Man unterscheidet zwischen manueller und automatischer Datenerfassung, wobei automatische Datenerfassung das Ziel hat, manuelle Datenerfassung völlig oder wenigstens teilweise zu ersetzen. Systeme zur automatischen Datenerfassung sind zum Beispiel Scanner, OCR-Software und Belegleser.

Dokumentenerkennung

Unter Dokumentenerkennung versteht man die Umwandlung eines Dokuments, das in Form einer Rastergrafik vorliegt, in eine editierbare Form. Für gewöhnlich werden bei der Dokumentenerkennung gedruckte Dokumente eingescannt und mit Hilfe einer OCR-Software in eine Textdatei (z.B. DOC, HTML, PDF, TXT) umgewandelt, die anschließend mit einer Textverarbeitung weiterverarbeitet werden kann.

Dokumentenscanner

Dokumentenscanner Fujitsu fi-6130 Dokumentenscanner sind PC-Peripheriegeräte zur schnellen Digitalisierung von Dokumenten. Im Unterschied zu Flachbettscannern verfügen Dokumentenscanner stets über einen automatischen Seiteneinzug (ADF) zur Aufnahme von Stapeln zwischen 50 und 1000 Seiten und sind zur Verarbeitung großer Seitenmengen ausgelegt. Optional sind Dokumentenscanner mit Funktionen wie Blindfarbe, Duplexfähigkeit und Endorsern ausgestattet.
Die bekanntesten Hersteller von Dokumentenscannern sind Bell+Howell, Canon, Fujitsu und Kodak. Links zu allen Scanner-Herstellern finden Sie auf unserer Seite Scanner Links.

Farbtiefe

Die Farbtiefe bestimmt die Anzahl der möglichen Werte für einen Bildpunkt einer Rastergrafik und beträgt üblicherweise 1 Bit (Schwarzweiß), 8 Bit (256 Graustufen) oder 24 Bit (Farbe). Für OCR-Zwecke reichen Schwarzweißbilder völlig aus, da die OCR-Engines keine Graustufen- oder Farbinformationen verwerten. Bei der Umwandlung von Dokumenten mit eingebetteten Bildern kann aber in heutigen Programmen auch im Farbmodus gescannt werden.

Flachbettscanner

Flachbettscanner Hewlett-Packard ScanJet 4300 Flachbettscanner sind PC-Peripheriegeräte zur Digitalisierung von Dokumenten. Im Unterschied zu Dokumentenscannern verfügen Flachbettscanner meist nicht über einen automatischen Seiteneinzug (ADF) zur Aufnahme mehrerer Seiten. Flachbettscanner sind somit weniger gut zur Erfassung großer Seitenmengen geeignet, ermöglichen dafür aber das Scannen von Büchern.
Die bekanntesten Hersteller von Flachbettscannern sind Epson und Hewlett-Packard. Links zu allen Scanner-Herstellern finden Sie auf unserer Seite Scanner Links.


Formularauswertung, Formularerfassung, Formularerkennung, Formularverarbeitung

Formularauswertung, -erfassung, -erkennung und -verarbeitung sind Synonyme für die automatische Erfassung von Inhalten ausgefüllter Formulare. Voraussetzung für eine automatische Formularauswertung ist, dass alle auszuwertenden Seiten exakt denselben Aufbau haben und die auszulesenden Inhalte stets an denselben Positionen stehen. Je nachdem, wie die Formulare aufgebaut sind und wie sie ausgefüllt wurden, werden die Inhalte mit Hilfe von OCR, ICR oder OMR ausgewertet.

Fragebogenauswertung

Fragebogenauswertung beinhaltet die automatische Erfassung von Inhalten ausgefüllter Fragebögen. Im Unterschied zu Formularen sind Fragebögen häufig so konzipiert, dass die darin gestellten Fragen vollständig oder zum größten Teil mit Ankreuzungen beantwortet werden können (siehe Multiple-Choice-Fragen). Dadurch wird eine automatische Erkennung mit hoher Geschwindigkeit, niedriger Fehlerrate und geringem Nachbearbeitungsaufwand ermöglicht.

Handschrifterkennung

Handschrifterkennung (ICR) ist eine Technologie zur automatischen Erkennung handgeschriebener Zeichen. Je nach Anwendung unterscheidet man zwischen Erkennung vektorbasierter Handschrift, wie sie bei Tablet-PCs und PDAs zum Einsatz kommt, und Erkennung rasterbasierter Handschrift, wie sie zur Auswertung gescannter Vorlagen benötigt wird. Naturgemäß wird bei der Handschrifterkennung eine deutlich niedrigere Genauigkeit (ca. 95%) erreicht als bei der Erkennung gedruckter Zeichen (>99%). Daher ist es besonders wichtig, maschinell auszuwertende Formulare mit Hilfe von Kammfeldern und Blindfarben so zu gestalten, dass eine optimale Auswertung gewährleistet ist.

ICR

ICR (englisch: Intelligent Character Recognition = Intelligente Zeichenerkennung) ist der Fachbegriff für die automatische Erkennung handgeschriebener Zeichen. Siehe auch Handschrifterkennung.

ISIS

ISIS ist ein von der Firma Captiva entwickelter Treiber-Standard zur Ansteuerung von Dokumentenscannern unter Microsoft Windows. Im Unterschied zu TWAIN ermöglicht der ISIS-Standard die vollständige Kontrolle eines kompatiblen Scanners bei gleichzeitig maximaler Scangeschwindigkeit.

Kammfeld

Als Kammfelder bezeichnet man bei handschriftlich auszufüllenden Formulare solche Eingabefelder, die durch senkrechte Striche in Kästchen für die einzelnen Zeichen unterteilt sind. Durch Kammfelder, besonders in Kombination mit Blindfarben kann eine deutlich höhere Erkennungsgenauigkeit erzielt werden, da eine saubere Trennung der Zeichen gewährleistet ist.

Layout-Analyse

Layout-Analyse ist ein Arbeitsschritt der OCR, der vor allem bei komplexen Dokumenten mit mehrspaltigem Text, Tabellen und eingebetteten Grafiken große Bedeutung hat. Bei der Layout-Analyse untersucht die OCR-Software den Aufbau eines Dokuments, unterscheidet automatisch zwischen Bildern und Text und versucht, den Textfluss des Dokuments zu erkennen. Moderne OCR-Software kann bei guter Layout-Analyse die Dokumentenstruktur fast originalgetreu wiedergeben und in einer Textdatei (z.B. DOC, HTML oder PDF) ausgeben.

Ligatur

In der Typografie bezeichnet eine Ligatur die Verbindung von zwei oder mehr sich berührender Buchstaben, z.B. ft. Für OCR-Software besteht die Schwierigkeit bei Ligaturen darin, diese bei der Segmentierung als Doppelzeichen zu erkennen und richtig zu deuten.

Merkmalserkennung

Merkmalserkennung ist ein OCR-Verfahren zur Klassifizierung von Zeichen, das heutzutage von den meisten OCR-Programmen verwendet wird. Bei der Merkmalserkennung werden Zeichen in geometrische Elemente wie Linien, Bögen und Kreise zerlegt und die Kombination dieser Elemente wird mit abgespeicherten Kombinationen bekannter Zeichen verglichen. Diese Methode ist wesentlich flexibler als die früher eingesetzte Mustererkennung und kommt auch mit Variationen der Schriftart und Schriftgröße zurecht.

Multiple-Choice-Frage

Multiple-Choice-Fragen (englisch: multiple choice = Mehrfachauswahl) werden bei Fragebögen oder Prüfungstests verwendet, um zu einer zu beantwortenden Frage eine bestimme Anzahl vorgegebener Antworten zur Auswahl anzubieten. Statt die Frage in eigenen Worten zu beantworten, kann der Ausfüllende eine oder mehrere der Vorgaben ankreuzen, was die automatische Auswertung erheblich vereinfacht.

Mustererkennung

Mustererkennung ist ein OCR-Verfahren zur Klassifizierung von Zeichen, das heute aufgrund seiner mangelnden Flexibilität kaum noch Bedeutung hat. Bei der Mustererkennung werden die gescannten Zeichen nach der Segmentierung mit abgespeicherten Mustern verglichen und dem Muster mit der besten Übereinstimmung zugeordnet. Diese Methode aus den Anfangstagen der OCR eignet sich nur zur Erkennung fest vorgegebener Schriftarten und wird heute nur noch in Spezialanwendungen eingesetzt. Siehe auch Merkmalserkennung.

OCR

OCR (englisch: Optical Character Recognition = Optische Zeichenerkennung) ist der Fachbegriff für die automatische Erkennung gedruckter Zeichen mit Hilfe optischer Abtastung (z.B. durch Scanner oder Digitalkameras). Einfach ausgedrückt versucht man, mit OCR das Abschreiben gedruckter Texte vom Computer erledigen zu lassen.
Als Vater der OCR gilt Lawrence Roberts, der 1960 am MIT erste Versuche zur automatischen Erkennung von Zeichen unternahm. Erste Anwendungen der OCR in der Praxis gab es bereits 1965 in Form von Hardware-Lösungen. Damals beschränkte sich die Erkennung allerdings noch auf eigens entworfene Schriftarten wie OCR-A und OCR-B. 1976 entwickelte Ray Kurzweil das erste omnifonte, d.h. schriftartenunabhängige OCR-System. Mit zunehmender Leistungsfähigkeit der PCs haben seit Mitte der 80er software-basierte OCR-Lösungen immer mehr an Genauigkeit und Bedeutung hinzugewonnen.
OCR gliedert sich in die Arbeitsschritte Scannen, Layout-Analyse, Segmentierung, Zeichenerkennung und Wörterbuchabgleich, wobei bei modernen Systemen die Grenzen zwischen diesen Vorgängen immer mehr verwischen. Häufige Anwendungen von OCR sind Dokumentenerkennung, Archivsysteme, Formularauswertung und Belegerfassung.

OCR-Software

Bei OCR-Software handelt es sich um Computerprogramme zur Anwendung von OCR. Typische Vertreter von OCR-Software wie OmniPage bieten Funktionen zum Scannen oder zum Import von Bilddateien, führen automatisch eine Layout-Analyse durch und erkennen den Inhalt von Dokumenten mit Hilfe leistungsstarker OCR-Algorithmen. Die konvertierten Dokumente können zur weiteren Bearbeitung in zahlreichen Formaten wie DOC, HTML, PDF oder TXT abgespeichert werden.
Zum Einlesen von Formularen oder Fragebögen mit fest vorgegebener Struktur gibt es spezialisierte OCR-Software wie zum Beispiel FormPro. Eine besondere Form von OCR-Software stellen Entwicklerwerkzeuge wie das OmniPage Capture SDK dar, das Software-Entwicklern eine einfache Inegration von OCR in eigene Anwendungen ermöglicht.

Omnifont

Omnifont bedeutet schriftartenunabhängig. Im Zusammenhang mit OCR ist damit gemeint, dass nicht nur bestimmte, vordefinierte Schriftarten (Fonts) erkannt werden, sondern dass mit Hilfe flexibler Erkennungsalgorithmen auch unbekannte Schriften anhand von bestimmten allgemeingültigen Merkmalen erkannt werden können.

OMR

OMR (englisch: Optical Mark Recognition = Optische Markierungserkennung) ist der Fachbegriff für die automatische Erkennung von Markierungen (Ankreuzungen) mit Hilfe optischer Abtastung (z.B. durch Scanner oder Digitalkameras). OMR wird häufig bei der Auswertung von Formularen, Fragebögen oder Prüfungstests eingesetzt, um Ankreuzfelder oder Multiple-Choice-Fragen auszuwerten. Da mit Hilfe von OMR lediglich festgestellt werden muss, ob innerhalb eines rechteckigen Bereichs eine Markierung gesetzt ist oder nicht, ist OMR wesentlich genauer als OCR oder ICR.

Rastergrafik

Eine Rastergrafik ist ein rechteckiges Bild, das aus einzelnen Bildpunkten zusammengesetzt ist. Die Bildqualität und der Speicherbedarf einer Rastergrafik werden durch ihre Auflösung und Farbtiefe bestimmt.

Scannen

Druckzeichen stark vergrößert Scannen im Zusammenhang mit OCR ist die optische Abtastung einer gedruckten Vorlage mit einen Scanner. Die Vorlage wird dabei in Bildpunkte zerlegt und jedem dieser Bildpunkte wird ein Wert für Schwarzweiß-, Graustufen- bzw. Farbinformationen zugeordnet.
Die Auflösung eines Scanners wird in dpi (englisch: dots per inch = Punkte pro Zoll) angegeben und ist ein Maß dafür, wie feinmaschig die Vorlage abgetastet wird. Für OCR-Zwecke genügen Auflösungen zwischen 300 und 400 dpi, zum Scannen von Bildern für Reprozwecke werden Auflösungen von 1200 dpi und mehr verwendet.
Dauer des Scanvorgangs und Speicherbedarf des Bildes hängen außer von der Auflösung auch von der Farbtiefe ab. Die Farbtiefe bestimmt die Anzahl der möglichen Werte für einen Bildpunkt und beträgt üblicherweise 1 (Schwarzweiß), 8 (256 Graustufen) oder 24 (Farbe).
Als Ergebnis eines Scanvorgangs erhält man eine Rastergrafik, die mit einem Bildbearbeitungsprogramm geöffnet werden kann. Soll der in dieser Grafik enthaltene Text jedoch mit einer Textverarbeitung bearbeitet werden, muss ein OCR-Programm in dem Bild nach Zeichen suchen und diese interpretieren.

Scanner

Scanner sind PC-Peripheriegeräte zur Digitalisierung von Dokumenten. Man kann bei den Scannern zwischen Barcode-Scannern, Flachbettscannern und Dokumentenscannern unterscheiden. Links zu allen wichtigen Scanner-Herstellern finden Sie auf unserer Seite Scanner Links.

Schrifterkennung

Schrifterkennung ist ein Synonym für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.

Segmentierung

Segmentierung ist ein Arbeitsgang der OCR. Bei der Segmentierung wird das Abbild eines Textes in Zeilen und die Zeilen werden in Zeichen bzw. Ligaturen zerlegt. Danach können die Zeichen mit Hilfe eines geeigneten OCR-Verfahrens wie Mustererkennung oder Merkmalserkennung erkannt werden.

Strichcode

Strichcode Ein Strichcode oder auch Barcode (englisch: bar = strich) ist eine maschinenlesbare Folge von unterschiedlich breiten senkrechten Streifen, die eine Zahl oder ein Wort codiert. Strichcodes werden zur automatischen Identifikation auf Verpackungen oder Dokumenten aufgedruckt und können mit speziellen Strichcode-Scannern oder auch mit Dokumentenscannern und geeigneter Software erkannt werden.

Texterfassung, Texterkennung

Texterfassung und Texterkennung sind Synonyme für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.

TWAIN

TWAIN ist ein von den Firmen Aldus, Eastman-Kodak, Hewlett-Packard und Logitech entwickelter Treiber-Standard zur Ansteuerung von Scannern und Digitalkameras unter Microsoft Windows. Durch seine weite Verbreitung wird es von praktisch allen Scannern und Bildbearbeitungsprogrammen unterstützt. Siehe auch ISIS.

Wörterbuchabgleich

Wörterbuchabgleich ist ein Arbeitsschritt der OCR zur automatischen Kontrolle bzw. Korrektur des Ergebnisses der Textanalyse. Die ersten OCR-Programme mit Wörterbuchabgleich führten diesen nur zur Überprüfung durch, um alle nicht im Wörterbuch enthaltener Wörter hervorzuheben. Modernere OCR-Programme beziehen ihre Wörterbücher immer stärker in den Erkennungsvorgang mit ein und verwenden sie bei Mehrdeutigkeiten als Entscheidungshilfe.

Zeichen

Ein Zeichen ist ein standardisierter Code zur Speicherung und Darstellung eines Buchstabens, einer Ziffer oder eines Sonderzeichens auf einem Computer. Die Menge aller zulässigen Zeichen wird auch als Zeichensatz bezeichnet.

Zeichenerkennung

Zeichenerkennung ist ein Synonym für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.

Zeichensatz

Ein Zeichensatz ist die Menge aller darstellbaren Zeichen auf einem Computersystem. Je nach Anwendung unterscheidet man zwischen 8-Bit-Zeichensätzen mit 256 Zeichen (z.B. ANSI oder ASCII) und 16-Bit-Zeichensätzen mit vielen tausend Zeichen (Unicode). Bei 8-Bit-Zeichensätzen gibt es viele unterschiedliche nationale Varianten, sogenannte Code Pages, zur Darstellung sprachspezifischer Sonderzeichen.