Was ist OCR?


Bei einer Volltexterkennung oder OCR werden textliche Bildinhalte in digitale Textformate übersetzt. Der Begriff OCR steht hierbei für „Optical Character Recognition“ (optische Zeichenerkennung), jedoch ist dieser Begriff mittlerweile veraltet. Zunehmend wird Text durch neuronale Netze verarbeitet, die nicht Zeichen für Zeichen lesen, sondern ganze Zeilen statt einzelner Zeichen erkennen. Unter der Texterkennung allgemein versteht man die automatische Erkennung von Text bzw. Schrift innerhalb von Bildern. Texterkennung und OCR wird daher im deutschen Sprachraum oft synonym verwendet.

Wobei hilft uns OCR?

Mithilfe von automatischer Texterkennung können aus Scans historischer Dokumente wie Behördenschriftgut, Bücher oder Zeitungen durchsuchbare Dateien erzeugt werden. Diese Dateien können dann online der Öffentlichkeit zur Verfügung gestellt werden. Digitalisierung ist in Archiven und Bibliotheken bereits seit einigen Jahren ein wichtiges Thema, dahingegen ist die Nutzung von Texterkennungssoftware in öffentlichen Einrichtungen bisher noch wenig verbreitet. Dabei liefert die Durchsuchbarkeit von Texten sowohl der Wissenschaft als auch Genealoginnen und Genealogen einen komfortablen Zugang zu historischem Schriftgut. Erkannte Texte können durchsucht, kopiert, bearbeitet und für eine Extraktion von Forschungsdaten verwendet werden.

Mit welchen Texterkennungs- und Transkriptionssoftwares beschäftigt sich OCR-BW?

Drucke:
  • Tesseract
  • OCRmyPDF
  • OCR-D
  • eScriptorium
  • Transkribus
Handschriften:
  • Transkribus
  • eScriptorium

Was sind die Voraussetzungen für eine erfolgreiche Texterkennung?

Damit eine erfolgreiche OCR durchgeführt werden kann, müssen schon beim Scannen der Dokumente einige Dinge beachtet werden. Denn bereits hierbei können entscheidende Fehler unterlaufen, die eine gute Texterkennung erschweren, wenn nicht sogar unmöglich machen. Folgende Punkte sollten daher stets berücksichtigt werden:

  • Die Dokumente sollten in ausreichender Qualität gescannt werden. Es wird eine Auflösung von mindestens 300-400 dpi empfohlen.
  • Die Dokumente sollten sorgfältig gescannt werden, d. h. das Dokument sollte gerade ausgerichtet und vollständig sichtbar sein. Zudem sollte darauf geachtet werden, dass der Text möglichst glatt liegt und keine Wellen schlägt, was vor allem bei gebundenen Dokumenten am Falz passieren kann.
  • Auf das Binarisieren des Textes sollte verzichtet werden. OCR-BW empfiehlt, Farbscans für die Texterkennung zu nutzen.
  • Die Seiten des Dokuments sollten als einzelne Bilder gespeichert werden. Vorzugsweise sollten TIFF-Dateien erzeugt werden und kein zusammenhängendes PDF.
  • Das Scannen von Einzelseiten erfordert oft weniger Nachbearbeitungsaufwand als ein doppelseitiger Scan.