Anwendung von Texterkennungs- und Transkriptionssoftware
Die Universitätsbibliotheken Mannheim und Tübingen blicken auf langjährige Erfahrung mit kommerzieller und nicht-kommerzieller Software im Bereich der Texterkennung von Drucken und Handschriften zurück.
Auf der folgenden Seiten finden Sie detaillierte Informationen zur Anwendung der eingesetzten Technologien, mit der die Tübingen und Mannheim bereits Erfahrung gesammelt haben. Darüber hinaus finden Sie weitere interessante Ressourcen und Informationen rund um das Thema OCR.
eScriptorium
- Alle Github-Dokumentationen zu eScriptorium
- Lokale Installation (Windows/Linux)
- Lokale Installation (MacOS) (Englisch)
- Nutzungsanleitung
- Video: Einführung in eScriptorium
- Modellübertragung von Transkribus nach eScriptorium
OCRmyPDF
Tesseract
- Alle Github-Dokumentationen zu Tesseract
- Installations- und Nutzungsanleitung (Linux)
- Installations- und Nutzungsanleitung (Windows)
- Anleitung zum Training mit Tesseract und Tesstrain
OCR-D
Eine Nutzungs- und Installationsanleitung zu OCR-D finden Sie auf der Projekthomepage von OCR-D.
Erstellung von Ground Truth
Ground-Truth zum Training bzw. Nachtraining eigener Modelle finden Sie bei OCR-D und Github unter den folgenden Links:
- OCR & Ground-Truth-Resources
- HTR United
- Ground-Truth für Charlottenburger Amtsschrifttum
- Ground-Truth für Digitalisate der UB Mannheim
- Ground-Truth für Digitalisate der UB Tübingen
- Richtlinien für das Erstellen von Ground-Truh
- Hilfe bei der Veröffentlichung von Ground-Truth
Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Hilfen für unterschiedliche Transkriptionsplattformen hierzu finden Sie ebenfalls auf Github.
Hilfen für Virtuelle Keyboards
Sie wissen noch gar nicht, welche Software für Ihr Projekt in Frage kommt? Dann finden Sie es heraus mit dem OCR Recommender.