Druckwerke


Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung mit kommerzieller und nicht-kommerzieller Software im Bereich der Texterkennung von Drucken zurück. Besonders mit den Open-Source-Softwareprodukten Tesseract und Ocropus wurden in Projekten bereits sehr gute Ergebnisse erzielt.

Auf den folgenden Seiten finden Sie detaillierte Informationen zur Anwendung der eingesetzten Technologien in diesem Projekt. Zu den dokumentierten Texterkennungs- und Transkriptionssoftwares aus dem Open-Source-Bereich gehören Tesseract, OCRmyPDF, eScriptorium (Kraken) sowie OCR-D.

eScriptorium

OCRmyPDF

Tesseract

OCR-D

Hinweise zur Texterkennung von Fraktur

1. Welche Standardmodelle für Fraktur gibt es bei Tesseract?

Für alte Texte gibt es momentan mehrere Modelle. So ist zum Beispiel deu_frak ein Modell, das von einem Benutzer für Tesseract 3 trainiert wurde. Die aktuellen Standardmodelle sind frk für deutsche Frakturschrift (enthält deutsches Wörterbuch) sowie script/Fraktur für Frakturschrift und historische Antiqua-Texte mit erweitertem Zeichenvorrat für alle westeuropäischen Sprachen.

2. Welche Probleme gibt es mit den Tesseract-Standardmodellen für Fraktur?

Die Standardmodelle enthalten bekannte Probleme und Fehler. Das Modell deu-frak unterstützt nur die alte (musterbasierte) OCR-Engine, funktioniert also nicht mit einem neuronalen LSTM-Netz, mit dem normalerweise bessere OCR-Ergebnisse erzielt werden können. Das Modell frk hat einige Einschränkungen bezüglich des Zeichensatzes, den es erkennen kann. Es hat auch Probleme, insbesondere mit ch- und ck-Ligaturen. Das Modell script/Fraktur unterstützt einen größeren Zeichensatz als frk, hat aber ähnliche Probleme mit ch und ck.

3. Welche alternativen Modelle der UB Mannheim können für Fraktur verwendet werden?

Für Tesseract hat das Projektteam bereits eigene Modelle trainiert, die sehr gute Ergebnisse bei der Texterkennung von Fraktur liefern und bei denen Fehler aus frk und script/Fraktur behoben sind. Die Modelle kennen außerdem die Varianten deutscher Umlaute. Zu diesen Modellen gehören vor allem Frak2021 und GT4HistOCR. Diese und weitere Modelle stehen unter folgendem Link zum Download bereit: https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/. Eine aktuelle Messung der Character Error Rate (CER) hat ergeben, dass das folgende Modell von Frak2021 die kleinste Fehlerrate erzeugt: https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/frak2021/tessdata_fast/frak2021_1.069_755545_3685930.traineddata.

4. Wie installiert man zusätzliche Tesseract-Modelle?

Das Herunterladen von zusätzlichen Tesseract-Modellen gestaltet sich einfach. Unter Windows laden Sie zunächst das gewünschte Modell unter dem folgenden Link herunter:  https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/. Anschließend schneiden Sie es aus dem Download-Ordner aus und fügen es in dem entsprechenden Ordner zu den anderen Schrift- bzw. Sprachmodellen hinzu. (Standardpfad: C:\Program Files\Tesseract-OCR\tessdata)

Gehen Sie in Linux in den Ordner, indem die Schrift- bzw. Sprachmodellen abgelegt werden und laden Sie dann mittels dem Befehl wget und dem entsprechenden Link, das gewünschte Modell herunter. (Beispiel: wget https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/frak2021/tessdata_fast/frak2021_1.069.traineddata)

5. Gibt es auch Tesseract-Modelle mit Wörterbuch?

Ja, das oben genannte Tesseract-Modell gibt es auch mit Wörterbuch. Es liefert damit eine nochmals leicht verbesserte CER von 3,25 %. (https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/frak2021/tessdata_fast/frak2021_1.069.traineddata).

Prinzipiell lässt sich das Wörterbuch ergänzen oder austauschen, was im Einzelfall das OCR-Ergebnis weiter verbessern kann.

6. Wie kann die OCR-Qualität weiter verbessert werden?

Qualitätsmängel kann es bei der Layoutanalyse (insbesondere der Zeilenerkennung) und bei der eigentlichen Texterkennung geben.

Tesseract hat bekannte Schwächen mit komplexen Seitenlayouts. Typische Probleme sind mangelhafte Trennung von Textspalten oder Textbereiche, die nicht als solche erkannt wurden, was zu fehlendem Text führt (relativ häufig bei Seitenzahlen). Im Extremfall kann es so passieren, dass eine Seite voller Text als leere Seite („Empty page“) gemeldet wird. Für solche Fälle helfen teilweise spezielle Aufrufparameter (noch zu dokumentieren). Eine bessere Layoutanalyse erfordert aber andere Software, beispielsweise von OCR-D.

Die Qualität der Texterkennung hängt stark vom eingesetzten Modell ab. Möglicherweise kann es die Ergebnisse verbesseren, wenn zwei Modelle, die bereits gute Ergebnisse liefern kombiniert werden. Dafür müssen beide Modelle mit einem ‚+‘ bei der Eingabe in die Konsole verbunden werden (Beispiel: Frak2021+GT4HistOCR). Eine deutliche Qualitätssteigerung lässt sich mit werkspezifischem Training erzielen. Dazu wird ein gutes vorhandenes Modell mit ausgewählten Beispielen aus dem jeweiligen Werk nachtrainiert. Im Idealfall kann ein so erzeugtes neues Modell den Text im entsprechenden Werk dann fast perfekt erkennen.

Hinweise zum richtigen Scannen

Bevor die eigentliche OCR erfolgreich durchgeführt werden kann, muss das Dokument zunächst gescannt werden. Dabei können bereits entscheidende Fehler passieren, die eine gute Texterkennung quasi unmöglich machen. Folgende Punkte sollten daher stets berücksichtigt werden:

  • Die Dokumente sollten in ausreichender Qualität gescannt werden. Es wird eine Auflösung von mindestens 300-400 dpi empfohlen.
  • Die Dokumente sollten sorgfältig gescannt werden, d. h. das Dokument sollte gerade ausgerichtet und vollständig sichtbar sein. Zudem sollte darauf geachtet werden, dass der Text keine Wellenbewegung macht, dies kann vor allem bei gebundenen Dokumenten am Falz passieren.
  • Auf das Binarisieren des Textes sollte verzichtet werden. OCR-BW empfiehlt Farbscans für die Texterkennung zu nutzen.
  • Die Seiten des Dokuments sollten als einzelne Bilder gespeichert werden. Vorzugsweise sollten TIFF-Dateien erzeugt werden und kein zusammenhängendes PDF.