FAQ – Häufig gestellte Fragen

Hier finden Sie Antworten auf die am häufigst gestellten Fragen rund um das Thema automatisierte Texterkennung sowie die im Projekt OCR-BW genutzte Software. Wenn die Antwort auf Ihre Frage nicht dabei ist, stellen Sie diese per Mail an Larissa Will unter larissa.will(at)uni-mannheim.de.

Allgemein

Was muss beim Scannen der Dokumente beachtet werden, um die Voraussetzungen für eine gute Texterkennung zu schaffen?

Bevor die eigentliche OCR erfolgreich durchgeführt werden kann, muss das Dokument zunächst gescannt werden. Dabei können bereits entscheidende Fehler passieren, die eine gute Texterkennung quasi unmöglich machen. Folgende Punkte sollten daher stets berücksichtigt werden:

  • Die Dokumente sollten in ausreichender Qualität gescannt werden. Es wird eine Auflösung von mindestens 300-400 dpi empfohlen.
  • Die Dokumente sollten sorgfältig gescannt werden, d. h. das Dokument sollte gerade ausgerichtet und vollständig sichtbar sein. Zudem sollte darauf geachtet werden, dass der Text keine Wellenbewegung macht, dies kann vor allem bei gebundenen Dokumenten am Falz passieren.
  • Auf das Binarisieren des Textes sollte verzichtet werden. OCR-BW empfiehlt Farbscans oder zumindest Scans in Graustufen für die Texterkennung zu nutzen.
  • Die Seiten des Dokuments sollten als einzelne Bilder gespeichert werden. Vorzugsweise sollten TIFF-Dateien erzeugt werden und kein zusammenhängendes PDF.
Welche Texterkennungssoftware eignet sich für Drucke?

Für die Texterkennung von Drucken gibt es eine Reihe von Programmen, die sich gut dafür eignen.

  • Frei verfügbar:
    • Tesseract
    • Kraken bzw. eScriptorium
    • OCR-D
    • PERO-OCR
  • Kostenpflichtige Software:
    • Transkribus
    • ABBY Finereader

Im Projekt OCR-BW wurde vor allem Tesseract für die effiziente Erkennung von großen Datenmengen alter Drucke genutzt. In eScriptorium lässt sich dagegen unkompliziert Ground Truth für eventuell erforderliche Nachtrainings erstellen. Moderne Drucke lassen sich gut mit ABBY Finereader erkennen. PERO-OCR liefert sehr gute Universalmodelle für Hand- als auch Druckschriften.

Welche Texterkennungssoftware eignet sich für Handschriften?

Für Handschriften empfehlen wir vor allem Transkribus sowie eScriptorium als kostenfreie Open-Source Alternative, wobei wir für letzteres momentan noch kein universelles Handschriftenmodell bereitstellen können. Auch PERO-OCR bietet generische Handschriftenmodelle (v. a. für Kurrentschrift), die sehr gute Ergebnisse liefern.

Welche Alternativen gibt es zum teilweise kostenpflichtigen Transkribus?

Es gibt eine Vielzahl von kostenfreien Alternativen zu Transkribus, die alle ihre Vor- und Nachteile haben. Im Projekt OCR-BW wurde ein besonderes Augenmerk auf die Texterkennungs- und Transkriptionsplattform eScriptorium gelegt, aber auch das von der Universität Brünn (Tschechien) entwickelte PERO-OCR bietet gute Möglichkeiten.

eScriptorium

Kann ich Modelle von Transkribus in eScriptorium importieren?

Die Modellübertragung ist nicht direkt möglich, jedoch kann die Ground Truth also die, in Transkribus erstellte Transkription und die dazugehörigen Bilder in eScriptorium importiert werden. Anschließend kann das Modell in eScriptorium erneut trainiert werden. Eine detaillierte Anleitung hierzu finden Sie auf Github.

Welche Modelle eignen sich für historische Drucke in Frakturschrift?

Für Texte in Frakturschrift v. a. aus dem 19./20. Jahrhundert eignen sich z. B. die Modelle Fraktur_2022-02-20, luther-best, reichsanzeiger_6, austriannewspaper_best oder digitue_best . Die Modelle sind in der eScriptorum-Instanz der UB Mannheim verfügbar und stehen außerdem zum Download bereit. Außerdem finden Sie verschiedene Kraken-Modelle auch auf Zenodo.

Welches Modell eignet sich für Behördenschriftgut, das mit einer Schreibmaschine erstellt wurde?

Die UB Mannheim arbeitet derzeit an einem Modell, das Schreibmaschinenschrift aus dem 20. Jahrhundert gut erkennen kann.

Welche Modelle eignen sich für die Erkennung von Handschriften?

Für die Erkennung von Handschriften gibt es momentan noch kein generisches Kraken-Modell. Wenn Sie Ground-Truth für frei verfügbare Dokumente haben und uns zur Verfügung stellen, würden wir uns sehr freuen. Wenden Sie sich dafür an Larissa Will unter larissa.will(at)uni-mannheim.de.

Wie kann ich Modelle für Layouterkennung bzw. Texterkennung finden und importieren?

Modelle für die Layout- und Texterkennung finden Sie bei der UB Mannheim sowie auf Zenodo. In eScriptorium können Sie das gewünschte Modell ganz einfach unter: Meine Modelle → Modell hochladen importieren. Achten Sie darauf, dass Sie dem Modell außerhalb von eScriptorium bereits den gewünschten Namen geben, da es in eScriptorium selbst nicht mehr unbenannt werden kann. Eine detaillierte Anleitung zum (Nach-)Training von Modellen finden Sie au Github.

Wie kann ich Modelle aus eScriptorium exportieren?

Modelle für die Layout- und Texterkennung lassen sich ganz leicht aus eScriptorium exportieren. Gehen Sie dafür unter Meine Modelle und klicken beim gewünschten Modell auf den grünen Download-Button.

Tesseract

Wie wende ich Tesseract in der Kommandozeile an?

Für die Nutzung von Tesseract haben wir jeweils eine detaillierte Anleitung für die Installation und Nutzung unter Linux und Windows auf Github bereitgestellt.

Muss ich Tesseract über die Kommandozeile nutzen?

Nein, es besteht auch die Möglichkeit Tesseract über verschiedene graphische Oberflächen zu nutzen. Dazu gehört die vom ehemaligen Projektmitarbeiter Jan Kamlah entwickelte GUI TesseractXplore. Sie finden weitere Hinweise zum Download und zur Anwendung in der Dokumentation auf Github.

Welche Standardmodelle für Fraktur gibt es bei Tesseract?

Für alte Texte gibt es momentan mehrere Modelle. So ist zum Beispiel deu_frak ein Modell, das von einem Benutzer für Tesseract 3 trainiert wurde. Die aktuellen Standardmodelle sind frk für deutsche Frakturschrift (enthält deutsches Wörterbuch) sowie script/Fraktur für Frakturschrift und historische Antiqua-Texte mit erweitertem Zeichenvorrat für alle westeuropäischen Sprachen.

Die Standardmodelle enthalten bekannte Probleme und Fehler. Das Modell deu-frak unterstützt nur die alte (musterbasierte) OCR-Engine, funktioniert also nicht mit einem neuronalen LSTM-Netz, mit dem normalerweise bessere OCR-Ergebnisse erzielt werden können. Das Modell frk hat einige Einschränkungen bezüglich des Zeichensatzes, den es erkennen kann. Es hat auch Probleme, insbesondere mit ch- und ck-Ligaturen. Das Modell script/Fraktur unterstützt einen größeren Zeichensatz als frk, hat aber ähnliche Probleme mit ch und ck.

Welche alternativen Modelle der UB Mannheim können für Fraktur verwendet werden?

Für Tesseract hat das Projektteam von OCR-BW bereits eigene Modelle trainiert, die sehr gute Ergebnisse bei der Texterkennung von Fraktur liefern und bei denen Fehler aus frk und script/Fraktur behoben sind. Die Modelle kennen außerdem die Varianten deutscher Umlaute. Zu diesen Modellen gehören vor allem Frak2021 und GT4HistOCR. Diese und weitere Modelle stehen bei der UB Mannheim zum Download bereit. Eine aktuelle Messung der Character Error Rate (CER) hat ergeben, dass das folgende Modell von Frak2021 die kleinste Fehlerrate erzeugt Frak2021_1.069.

Wie installiert man zusätzliche Tesseract-Modelle?

Das Herunterladen von zusätzlichen Tesseract-Modellen gestaltet sich einfach. Unter Windows laden Sie zunächst das gewünschte Modell hier herunter. Anschließend schneiden Sie es aus dem Download-Ordner aus und fügen es in dem entsprechenden Ordner zu den anderen Schrift- bzw. Sprachmodellen hinzu. (Standardpfad: C:\Program Files\Tesseract-OCR\tessdata)

Gehen Sie in Linux in den Ordner, indem die Schrift- bzw. Sprachmodellen abgelegt werden und laden Sie dann mittels dem Befehl wget und dem entsprechenden Link, das gewünschte Modell herunter. (Beispiel: wget https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/frak2021/tessdata_fast/frak2021_1.069.traineddata)

Gibt es auch Tesseract-Modelle mit Wörterbuch?

Das Modell von Frak2021, das momentan die kleinste Fehlerrate erzeugt, gibt es auch mit Wörterbuch. Es liefert damit eine nochmals leicht verbesserte CER von 3,25 %. Das Modell steht für Sie zum Download bereit.

Prinzipiell lässt sich das Wörterbuch ergänzen oder austauschen, was im Einzelfall das OCR-Ergebnis weiter verbessern kann.

Wie kann ich die Texterkennung bzw. die Ergebnisse weiter verbessern?

Qualitätsmängel kann es bei der Layoutanalyse (insbesondere der Zeilenerkennung) und bei der eigentlichen Texterkennung geben.

Tesseract hat bekannte Schwächen mit komplexen Seitenlayouts. Typische Probleme sind mangelhafte Trennung von Textspalten oder Textbereiche, die nicht als solche erkannt wurden, was zu fehlendem Text führt (relativ häufig bei Seitenzahlen). Im Extremfall kann es so passieren, dass eine Seite voller Text als leere Seite („Empty page“) gemeldet wird. Für solche Fälle helfen teilweise spezielle Aufrufparameter. Eine bessere Layoutanalyse erfordert aber andere Software, beispielsweise von OCR-D.

Die Qualität der Texterkennung hängt stark vom eingesetzten Modell ab. Möglicherweise kann es die Ergebnisse verbesseren, wenn zwei Modelle, die bereits gute Ergebnisse liefern kombiniert werden. Dafür müssen beide Modelle mit einem ‚+‘ bei der Eingabe in die Konsole verbunden werden (Beispiel: Frak2021+GT4HistOCR). Eine deutliche Qualitätssteigerung lässt sich mit werkspezifischem Training erzielen. Dazu wird ein gutes vorhandenes Modell mit ausgewählten Beispielen aus dem jeweiligen Werk nachtrainiert. Im Idealfall kann ein so erzeugtes neues Modell den Text im entsprechenden Werk dann fast perfekt erkennen.