Druckwerke


Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung mit kommerzieller und nicht-kommerzieller Software im Bereich der Texterkennung von Drucken zurück. Besonders mit den Open-Source-Softwareprodukten Tesseract und Ocropus wurden in Projekten bereits sehr gute Ergebnisse erzielt.

Auf den folgenden Seiten finden Sie detaillierte Informationen zur Anwendung der eingesetzten Technologien in diesem Projekt. Zu den dokumentierten Texterkennungs- und Transkriptionssoftwares aus dem Open-Source-Bereich gehören Tesseract, OCRmyPDF, eScriptorium (Kraken) sowie OCR-D.

eScriptorium

OCRmyPDF

Tesseract

OCR-D

Eine Nutzungs- und Installationsanleitung zu OCR-D finden Sie auf der Projekthomepage von OCR-D.

Erstellung von Ground Truth

Ground-Truth zum Training bzw. Nachtraining eigener Modelle finden Sie bei OCR-D und Github unter den folgenden Links:

Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Hilfen für unterschiedliche Transkriptionsplattformen hierzu finden Sie ebenfalls auf Github.