Aufgrund des Feiertags in Baden-Württemberg findet die nächste offene OCR-Sprechstunde via Zoom erst am Donnerstag, den 15.06.2023 um 15 Uhr statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.
Die Universitätsbibliotheken Mannheim und Tübingen sind dieses Jahr auf der BiblioCon in Hannover (23. bis 26. Mai 2023) mit mehreren Veranstaltungen zum Thema automatisierte Texterkennung von historischen Handschriften und Drucken vertreten:
Am Donnerstag, den 11.05.2023 um 15 Uhr findet die nächste offene OCR-Sprechstunde via Zoom statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.
Das Kompetenzzentrum OCR der UB Tübingen und der UB Mannheim hat in Kooperation mit dem Forschungsdatenzentrum in der Love Data Week (13. bis 17. Februar) einen Transcribathon auf der Texterkennungs- und Transkriptionsplattform eScriptorium veranstaltet. Die Teilnehmenden bekamen die Möglichkeit, die handschriftlichen Reisetagebücher des Tübinger Orientalisten Julius Euting (1839–1913) zu transkribieren.
Die Veranstaltung war ein großer Erfolg: Insgesamt wurden circa 135 Seiten von acht aktiven Teilnehmenden transkribiert. Zu Vorführungszwecken wurden bereits mit den Rohdaten zwei erste Modelle trainiert, die eine Genauigkeit zwischen 81 und 86 % erzielten. Mit diesen Ergebnissen ist unser Ziel natürlich noch lange nicht erreicht. Im nächsten Schritt werden alle transkribierten Seiten korrigiert und auf einen einheitlichen Transkriptionsstandard gebracht. Anschließend wird damit das universale Handschriftenmodell german_handwriting für Kraken nachtrainiert und die kompletten Reisetagebücher Eutings online mit Volltexten bereitgestellt.
Wir werden Sie darüber informieren, wenn die Ergebnisse veröffentlicht werden!
Das Kompetenzzentrum OCR wünscht Ihnen schöne Osterfeiertage! 🐰
Am Donnerstag, den 09.03.2023 um 15 Uhr findet die nächste offene OCR-Sprechstunde via Zoom statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.
Am Donnerstag, den 09.02.2023 um 15 Uhr findet die nächste offene OCR-Sprechstunde via Zoom statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.
Zum Auftakt des Transcribathons treffen wir uns am Montag, dem 13.02.2023, um 13.30 Uhr online via Zoom und besprechen die Funktionalitäten von eScriptorium sowie die Ziele des Transcribathons. Über die Woche können die Teilnehmenden dann fleißig transkribieren und in die spannenden Reiseberichte aus fernen Ländern wie Syrien, Ägypten und Algerien eintauchen. Am Freitag, dem 17.02.2023, um 13.30 Uhr treffen wir uns dann erneut, besprechen die Ergebnisse und küren die Sieger:innen des Transcribathons.
Sollten Sie am Auftakt nicht teilnehmen können, aber würden gerne am Transcribathon teilnehmen, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de)
Am Donnerstag, den 12.01.2023 um 15 Uhr findet die erste OCR-Sprechstunde des neuen Jahres via Zoom statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.
Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.de/sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071). Sollten Sie technische Probleme oder Fragen haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).
Der Frage nach dem bestmöglichen Ansatz beim Training von eigenen Modellen für die automatische Texterkennung von Handschriften ist die UB Tübingen nachgegangen. An verschiedenen Textkorpora vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts wurden unterschiedliche Herangehensweisen getestet, wie sich mit dem geringstmöglichen Aufwand ein möglichst gutes Modell entwickeln lässt. Die Ergebnisse können im aktuellen o-bib-Heft Bd. 9 Nr. 4 (2022) nachgelesen werden.