OCR

OCR (englisch: optical character recognition = Optische Zeichenerkennung) ist der Fachbegriff für die automatische Erkennung gedruckter Zeichen mit Hilfe optischer Abtastung (z.B. durch Scanner oder Digitalkameras). Einfach ausgedrückt versucht man, mit OCR das Abschreiben gedruckter Texte vom Computer erledigen zu lassen.

Voraussetzung für OCR ist die Digitalisierung von Dokumenten mit Scannern oder Digital­kameras. Die resultierenden Bilder werden von Software in editierbare, durchsuchbare Formate konvertiert. Moderne OCR kann dabei auch Formatierungen und komplexe Layouts erkennen und Dokumente original­getreu wiedergeben.

Als Vater der OCR gilt Lawrence Roberts, der 1960 am MIT Versuche zur automatischen Erkennung von Zeichen unternahm. Erste Anwendungen der OCR in der Praxis gab es bereits 1965 in Form von Hardware-Lösungen. Damals beschränkte sich die Erkennung allerdings noch auf eigens entworfene Schriftarten wie OCR-A und OCR-B. 1976 entwickelte Ray Kurzweil das erste omnifonte, d.h. schriftartenunabhängige OCR-System. Mit zunehmender Leistungsfähigkeit der PCs haben seit Mitte der 1980er Jahre software-basierte OCR-Lösungen immer mehr an Genauigkeit und Bedeutung hinzugewonnen.