Schlagwort-Archive: Tesseract

Aktueller Stand OCR in Baden-Württemberg

Am 16. Oktober 2020 haben die baden-württembergisches Landes- und Universitätsbibliotheken in einem OCR-Workshop zum Thema „Dokumentenerbe digital – Digitalisierung historischer Bestände baden-württembergischer Bibliotheken“ diskutiert. In verschiedenen Vorträgen wurden die jeweiligen Bemühungen auf dem Feld der automatischen Handschriften- und Druckerkennung vorgestellt und Erfahrungen ausgetauscht. Auch das OCR-BW-Projektteam hat in diesem Rahmen über die bisherigen Projektergebnisse informiert.

Die UB Mannheim stellte die Texterkennung von historischen Drucken mit OCR-D und Tesseract mithilfe des dort entwickelten generischen Modells für historische Schriftarten „GT4HistOCR“ sowie dessen Workflow-Einbindung vor. Dank der Mitwirkung der UB Mannheim sowohl an OCR-D als auch an OCR-BW werden Synergien zwischen beiden Projekten genutzt. Die UB Tübingen zeigte zwei unterschiedliche Herangehensweisen für die Entwicklung von Texterkennungsmodellen mit Transkribus und veranschaulichte, wie sich am effizientesten bestmögliche Ergebnisse erzielen lassen. Ein weiteres Thema war die Problematik der noch nicht normierten Transkriptionsrichtlinien für Handschriften.

In weiteren Vorträgen wurden OCR-Projekte der Uni/UB Heidelberg vorgestellt. Den Einstieg machte Jochen Barth mit einem Bericht zum aktuellen Stand der OCR-Aktivitäten an der UB Heidelberg. In ihrem Beitrag „Naval Kishore Press – digital: Texterkennung südasiatischer Schriften mit Transkribus“ berichtete Nicole Merkel-Hilf über ihre mehrjährigen Erfahrungen bezüglich der Volltexterzeugung für Druckwerke in der Devanagari-Schrift als Teilprojekt des FID Asien sowie die geplante Ausweitung auf andere südasiatische Schriften. Jakub Šimek stellte mit „eScriptorium: Erste Versuche und mutmaßliche Perspektiven“ eine Open-Source-Alternative zu Transkribus vor und berichtete über erste Erfahrungen. Im letzten Vortrag des Tages informierte Matthias Arnold zum Thema „Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschließung – Early Chinese Periodicals Online“ über die Herausforderungen, die die chinesische Schrift an die automatische Layouterkennung stellt. Abschließend wurde in der Runde über weitere Pläne und Aktivitäten an baden-württembergischen Bibliotheken gesprochen und Kooperationsmöglichkeiten überlegt.

Links zu den Präsentationen
Texterkennung von historischen Drucken mit OCR-D und Tesseract: urn:nbn:de:bsz:180-madoc-574249
Texterkennung von Handschriften mit Transkribus: https://doi.org/10.5281/zenodo.4106571

1. Workshop zu OCR und Handschriftenerkennung an der UB Tübingen

Am 19. Februar 2020 richtete die UB Tübingen den ersten Workshop des Projekts OCR-BW aus. Nachdem das Projekt 2019 gestartet war, stellte sich schnell heraus, dass im Bereich OCR und HTR starkes Interesse sowohl von Seiten der Wissenschaft wie auch von anderen Gedächtnisinstitutionen besteht. Dementsprechend war auch der Workshop mit etwa 50 Teilnehmerinnen und Teilnehmern aus dem ganzen Bundesland sehr gut besucht. Es wurde deutlich, dass OCR/HTR kein Thema ist, das nur für Geisteswissenschaften Relevanz hat. Auch aus vielen anderen Fachdisziplinen kamen Interessierte, die vor dem Problem stehen, gedruckte oder handschriftliche Materialien für verschiedene Fragestellungen maschinell verarbeiten zu müssen. Die Spannbreite reicht hier vom mittelalterlichen Manuskript über maschinengeschriebene Katalogkarten bis hin zu einer aktuellen Textedition mit Sonderzeichen.

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Die diskutierten Beispiele verdeutlichten den technischen Fortschritt und zeigten, dass für verschiedene Quellengattungen bereits sehr gute Ergebnisse möglich sind. Bei aller eigener Begeisterung musste jedoch auch betont werden, dass die Ergebnisse zwar überzeugend sind, aber das Verhältnis von notwendigem Aufwand zum erzielten Ergebnis nicht außer Acht gelassen werden sollte. Das Projektteam steht nun vor der Aufgabe, die Anregungen der Teilnehmerinnen und Teilnehmer in die weitere Projektarbeit und Entwicklung des Kompetenzzentrums miteinzubeziehen sowie einen Modus zu finden, wie die Wissenschaft und andere Gedächtniseinrichtungen im Bereich der automatischen Volltexterkennung bestmöglich mit den zur Verfügung stehenden Ressourcen unterstützt werden können. Wir bedanken uns für die vielen positiven Rückmeldungen und freuen uns über weitere Anregungen!

Das OCR-BW Projektteam der UB Mannheim und UB Tübingen (Foto: A. Rempfer)