Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung mit kommerzieller und nicht-kommerzieller Software im Bereich der Texterkennung von Drucken zurück. Besonders mit den Open-Source-Softwareprodukten Tesseract und Ocropus wurden in Projekten bereits sehr gute Ergebnisse erzielt.
Auf den folgenden Seiten finden Sie detaillierte Informationen zur Anwendung der eingesetzten Technologien in diesem Projekt. Zu den dokumentierten Texterkennungs- und Transkriptionssoftwares aus dem Open-Source-Bereich gehören Tesseract, OCRmyPDF, eScriptorium (Kraken) sowie OCR-D.
eScriptorium
- Alle Github-Dokumentationen zu eScriptorium
- Lokale Installation (Windows/Linux)
- Lokale Installation (MacOS) (Englisch)
- Nutzungsanleitung
- Video: Einführung in eScriptorium
- Modellübertragung von Transkribus nach eScriptorium
OCRmyPDF
Tesseract
- Alle Github-Dokumentationen zu Tesseract
- Installations- und Nutzungsanleitung (Linux)
- Installations- und Nutzungsanleitung (Windows)
- Anleitung zum Training mit Tesseract und Tesstrain
OCR-D
Eine Nutzungs- und Installationsanleitung zu OCR-D finden Sie auf der Projekthomepage von OCR-D.
Erstellung von Ground Truth
Ground-Truth zum Training bzw. Nachtraining eigener Modelle finden Sie bei OCR-D und Github unter den folgenden Links:
- OCR & Ground-Truth-Resources
- HTR United
- Ground-Truth für Charlottenburger Amtsschrifttum
- Ground-Truth für Digitalisate der UB Mannheim
- Ground-Truth für Digitalisate der UB Tübingen
- Richtlinien für das Erstellen von Ground-Truh
- Hilfe bei der Veröffentlichung von Ground-Truth
Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Hilfen für unterschiedliche Transkriptionsplattformen hierzu finden Sie ebenfalls auf Github.