Glossar
Unser Glossar erläutert die wichtigsten Fachbegriffe aus den Bereichen Texterkennung, Formularverarbeitung und Datenerfassung. Die Sammlung erhebt keinen Anspruch auf Vollständigkeit oder wissenschaftliche Korrektheit, sondern soll vor allem Laien die wichtigsten Begriffe unserer Branche näher bringen.
Auflösung
Die Auflösung eines Scanners wird in dpi (englisch: dots per inch = Punkte pro Zoll) angegeben und ist ein Maß dafür, wie feinmaschig die zu scannende Vorlage abgetastet wird. Für OCR-Zwecke genügen in der Regel Auflösungen zwischen 300 und 400 dpi, zum Scannen von Bildern für Reprozwecke werden Auflösungen von 1200 dpi und mehr verwendet.
Barcode
Ein Barcode (englisch: bar = strich) oder auch Strichcode ist eine maschinenlesbare Folge von unterschiedlich breiten senkrechten Streifen, die eine Zahl oder ein Wort codiert. Barcodes werden zur automatischen Identifikation auf Verpackungen oder Dokumenten aufgedruckt und können mit speziellen Barcode-Scannern oder auch mit Dokumentenscannern und geeigneter Software erkannt werden.
Bilddatei
Eine Bilddatei ist eine codierte Form eines digitalisierten Bildes. Bilddateien können entweder Rastergrafiken oder Vektorgrafiken enthalten, wobei für OCR nur Rastergrafiken von Bedeutung sind. Eine Rastergrafik ist ein rechteckiges Bild mit einer bestimmten Auflösung und Farbtiefe, die je nach Bilddateityp unkomprimiert oder unterschiedlich stark komprimiert werden kann. Bei der Arbeit mit Dokumenten werden Bilddateien am häufigsten im PDF- oder TIFF-Format gespeichert, zur Speicherung von Fotos verwendet man üblicherweise das JPEG-Format.
Blindfarbe
Als Blindfarbe wird beim Scannen die gezielte Ausblendung einer bestimmter Primärfarbe (rot, grün oder blau) bezeichnet. Mit Hilfe einer Blindfarbe können zum Beispiel vorgedruckte Linien und Rahmen auf Formularen oder Fragebögen beim Scannen ausgeblendet werden. Dies ermöglicht zum einen eine bessere Komprimierung der Bilder und gewährleistet zum anderen eine optimale Auswertung mit Hilfe von OCR oder ICR.
Datenerfassung
Datenerfassung ist der Überbegriff der Eingabe von Daten in einen Computer. Man unterscheidet zwischen manueller und automatischer Datenerfassung, wobei automatische Datenerfassung das Ziel hat, manuelle Datenerfassung völlig oder wenigstens teilweise zu ersetzen. Systeme zur automatischen Datenerfassung sind zum Beispiel Scanner, OCR-Software und Belegleser.
Dokumentenerkennung
Unter Dokumentenerkennung versteht man die Umwandlung eines Dokuments, das in Form einer Rastergrafik vorliegt, in ein editierbares oder durchsuchbares Format. Für gewöhnlich werden bei der Dokumentenerkennung gedruckte Dokumente eingescannt und mit Hilfe einer OCR-Software in eine Textdatei (z.B. DOC, HTML, PDF, TXT) umgewandelt, die anschließend mit einer Textverarbeitung weiterverarbeitet werden kann.
Dokumentenscanner
Dokumentenscanner sind PC-Peripheriegeräte zur schnellen Digitalisierung von Dokumenten. Im Unterschied zu Flachbettscannern verfügen Dokumentenscanner stets über einen automatischen Seiteneinzug (ADF) zur Aufnahme von Stapeln zwischen 50 und 1000 Seiten. Optional sind Dokumentenscanner mit Funktionen wie Blindfarbe, Duplexfähigkeit und Endorsern ausgestattet.
Die bekanntesten Hersteller von Dokumentenscannern sind Canon, Fujitsu, Kodak und Xerox.
Flachbettscanner
Flachbettscanner sind PC-Peripheriegeräte zur Digitalisierung von Dokumenten. Im Unterschied zu Dokumentenscannern verfügen Flachbettscanner meist nicht über einen automatischen Seiteneinzug (ADF) zur Aufnahme mehrerer Seiten. Flachbettscanner sind somit weniger gut zur Erfassung großer Seitenmengen geeignet, ermöglichen dafür aber das Scannen von Büchern.
Die bekanntesten Hersteller von Flachbettscannern sind Epson und Hewlett-Packard.
Farbtiefe
Die Farbtiefe bestimmt die Anzahl der möglichen Werte für einen Bildpunkt einer Rastergrafik und beträgt üblicherweise 1 Bit (Schwarzweiß), 8 Bit (256 Graustufen) oder 24 Bit (16,7 Mio. Farben). Für OCR-Zwecke reichen Schwarzweißbilder völlig aus, da die OCR-Engines keine Graustufen- oder Farbinformationen verwerten. Bei der Umwandlung von Dokumenten mit eingebetteten Bildern kann es aber auch sinnvoll sein, im Farbmodus zu scannen.
Formularauswertung, Formularverarbeitung
Formularauswertung und -verarbeitung sind Synonyme für die automatische Erfassung von Daten ausgefüllter Formulare. Voraussetzung für eine automatische Formularauswertung ist, dass alle auszuwertenden Seiten exakt denselben Aufbau haben und die auszulesenden Inhalte stets an denselben Positionen stehen. Je nachdem, wie die Formulare aufgebaut sind und wie sie ausgefüllt wurden, werden die Inhalte mit Hilfe von OCR, ICR oder OMR ausgewertet.
Fragebogenauswertung
Fragebogenauswertung beinhaltet die automatische Erfassung von Inhalten ausgefüllter Fragebögen. Im Unterschied zu Formularen sind Fragebögen häufig so konzipiert, dass die darin gestellten Fragen vollständig oder zum größten Teil mit Ankreuzungen beantwortet werden können (siehe Multiple-Choice-Fragen). Dadurch wird eine automatische Erkennung mit hoher Geschwindigkeit, niedriger Fehlerrate und geringem Nachbearbeitungsaufwand ermöglicht.
Handschrifterkennung (ICR) ist eine Technologie zur automatischen Erkennung handgeschriebener Zeichen. Je nach Anwendung unterscheidet man zwischen der Erkennung vektorbasierter Handschrift, wie sie bei Tablet-PCs und PDAs zum Einsatz kommt, und rasterbasierter Handschrift, wie sie bei gescannten Vorlagen benötigt wird. Mehr erfahren…
ICR (englisch: intelligent character recognition = Intelligente Zeichenerkennung) ist der Fachbegriff für die automatische Erkennung handgeschriebener Zeichen. Mehr erfahren…
ISIS
ISIS ist ein von der Firma EMC Captiva (heute OpenText) entwickelter Treiber-Standard zur Ansteuerung von Dokumentenscannern unter Microsoft Windows. Im Unterschied zu TWAIN ermöglicht der ISIS-Standard die vollständige Kontrolle eines kompatiblen Scanners bei gleichzeitig maximaler Scangeschwindigkeit.
Multiple-Choice-Frage
Multiple-Choice-Fragen (englisch: multiple choice = Mehrfachauswahl) werden bei Fragebögen oder Prüfungstests verwendet, um zu einer zu beantwortenden Frage eine bestimme Anzahl vorgegebener Antworten zur Auswahl anzubieten. Statt die Frage in eigenen Worten zu beantworten, kann der Ausfüllende eine oder mehrere der Vorgaben ankreuzen, was die automatische Auswertung erheblich vereinfacht.
OCR (englisch: optical character recognition = Optische Zeichenerkennung) ist der Fachbegriff für die automatische Erkennung gedruckter Zeichen mit Hilfe optischer Abtastung (z.B. durch Scanner oder Digitalkameras). Einfach ausgedrückt versucht man, mit OCR das Abschreiben gedruckter Texte vom Computer erledigen zu lassen. Mehr erfahren…
Bei OCR-Software handelt es sich um Computerprogramme zur Anwendung von OCR. Typische Vertreter von OCR-Software wie OmniPage oder OmniPage Server bieten Funktionen zum Scannen oder zum Import von Bilddateien und erkennen den Inhalt von Dokumenten mit Hilfe leistungsstarker OCR-Algorithmen. Die konvertierten Dokumente können zur weiteren Bearbeitung in zahlreichen Formaten wie DOC, HTML, PDF oder TXT abgespeichert werden. Mehr erfahren…
Omnifont
Omnifont bedeutet schriftartenunabhängig. Im Zusammenhang mit OCR ist damit gemeint, dass nicht nur bestimmte, vordefinierte Schriftarten (Fonts) erkannt werden, sondern dass mit Hilfe flexibler Erkennungsalgorithmen auch unbekannte Schriften anhand von bestimmten allgemeingültigen Merkmalen erkannt werden können.
OMR (englisch: optical mark recognition = Optische Markierungserkennung) ist der Fachbegriff für die automatische Erkennung von Markierungen (Ankreuzungen) mit Hilfe optischer Abtastung (z.B. durch Scanner oder Digitalkameras). Mehr erfahren…
Scannen
Scannen im Zusammenhang mit OCR ist die optische Abtastung einer gedruckten Vorlage mit einem Scanner. Die Vorlage wird dabei in Bildpunkte zerlegt und jedem dieser Bildpunkte wird ein Wert für Schwarzweiß-, Graustufen- bzw. Farbinformationen zugeordnet.
Scanner
Scanner sind PC-Peripheriegeräte zur Digitalisierung von Dokumenten. Man kann bei den Scannern zwischen Barcode-Scannern, Flachbettscannern und Dokumentenscannern unterscheiden.
Schrifterkennung
Schrifterkennung ist ein Synonym für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.
Strichcode
Ein Strichcode oder auch Barcode (englisch: bar = strich) ist eine maschinenlesbare Folge von unterschiedlich breiten senkrechten Streifen, die eine Zahl oder ein Wort codiert. Strichcodes werden zur automatischen Identifikation auf Verpackungen oder Dokumenten aufgedruckt und können mit speziellen Strichcode-Scannern oder auch mit Dokumentenscannern und geeigneter Software erkannt werden.
Texterfassung, Texterkennung
Texterfassung und Texterkennung sind Synonyme für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.
TWAIN
TWAIN ist ein von den Firmen Aldus, Eastman-Kodak, Hewlett-Packard und Logitech entwickelter Treiber-Standard zur Ansteuerung von Scannern und Digitalkameras unter Microsoft Windows. Durch seine weite Verbreitung wird es von praktisch allen Scannern und Bildbearbeitungsprogrammen unterstützt. Siehe auch ISIS.
Zeichen
Ein Zeichen ist ein standardisierter Code zur Speicherung und Darstellung eines Buchstabens, einer Ziffer oder eines Sonderzeichens auf einem Computer. Die Menge aller zulässigen Zeichen wird auch als Zeichensatz bezeichnet.
Zeichenerkennung
Zeichenerkennung ist ein Synonym für die automatische Umwandlung gedruckter Zeichen in editierbare Textdateien. Siehe auch OCR.
Zeichensatz
Ein Zeichensatz ist die Menge aller darstellbaren Zeichen auf einem Computersystem. Je nach Anwendung unterscheidet man zwischen 8-Bit-Zeichensätzen mit 256 Zeichen (z.B. ANSI oder ASCII) und 16-Bit-Zeichensätzen mit vielen tausend Zeichen (Unicode). Bei 8-Bit-Zeichensätzen gibt es viele unterschiedliche nationale Varianten, sogenannte Code Pages, zur Darstellung sprachspezifischer Sonderzeichen.