Alle Beiträge von Jan Kamlah

Präsentationen des 1. Workshops veröffentlicht

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Ein weiterer Beitrag ergänzte diese Themen mit Tipps und Tricks zur Paläographie. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Die Präsentation Automatische Texterkennung von Druckwerken mit Tesseract von Stefan Weil und Jan Kamlah (beide Universitätsbibiothek Mannheim) zeigte den Einsatz von Tesseract als Stand-Alone-Produkt sowie in der Kombination mit weiteren softwaretechnischen Werkzeugen.

Der Vortag von Dorothee Huff von der Universitätsbibliothek Tübingen zur Automatischen Texterkennung mit Transkribus umfasste eine Einführung in Transkribus und die Präsentation von aktuellen Ergebnissen.

Im Anschluss gab Dr. Regina Keyler vom Universitätsarchiv Tübingen in ihrem Vortrag noch Tipps und Tricks zur Paläographie.

Wir bedanken uns ganz herzlich für die Teilnahme am Workshop und das rege Interesse an den Themen. Bei weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen
Einführung in Tesseract : https://doi.org/10.5281/zenodo.3734046
Einführung in Transkribus: https://doi.org/10.5281/zenodo.3736509
Tipps und Tricks zur Paläographie: https://doi.org/10.5281/zenodo.3738142

Jahresrückblick 2019

Das Jahr 2019 geht dem Ende entgegen. Wir möchten diese Gelegenheit nutzen für einen kurzen Rückblick auf die Ereignisse seit dem gemeinsamen OCR-BW Kick-off-Meeting.

Die Universitätsbibliothek Tübingen hat mit der Testphase der Software Transkribus begonnen, um deren Potential für die automatische Handschriften- und Layouterkennung an verschiedenen Beispielen und für unterschiedliche Nutzungskontexte zu prüfen. Dafür wurden seit Beginn des Projekts ca. 320 Seiten transkribiert und mehrere HTR-Modelle trainiert. Dabei konnte eine Fehlerquote bei der automatischen Texterkennung von unter 5% erzielt werden. Die bisherigen Resultate sind somit als positiv einzustufen und lassen erwarten, dass auf diesem Weg große Textkorpora mit durchsuchbarem Volltext angereichert werden können.
Im Februar 2020 wird der erste Transkribus-Workshop in Tübingen stattfinden, wo die vorläufigen Projektergebnisse vorgestellt und Nutzungsmöglichkeiten von OCR und HTR in der Forschung diskutiert werden sollen.

Die Universitätsbibliothek Mannheim ist dabei, die Bedarfe von Archiven, Bibliotheken und Museen in Baden-Württemberg zu erfassen und hat deshalb bereits einige ausgewählte Einrichtungen besucht:

  • Landesarchiv in Stuttgart (21.10.2019, gemeinsam mit UB Tübingen)
  • Stadtarchiv Mannheim Marchivum (29.10.2019)
  • Stadtarchiv Ladenburg (03.12.2019)
  • Kreisarchiv Rhein-Neckar-Kreis (19.12.2019)

Weitere Besuche der beiden Landesbibliotheken und bei der UB Freiburg sind zu Beginn des neuen Jahres geplant.

Alle besuchten Einrichtungen zeigten großes Interesse am Thema OCR und sind sehr an einer fachlichen Beratung und Unterstützung bei der automatischen Volltexterkennung interessiert. Wir haben auch bereits konkrete Beispiele für digitalisierte Zeitungen und andere Druckschriften erhalten und für diese OCR durchgeführt. Ganz herzlichen Dank für die gute und stets freundliche Zusammenarbeit, die 2020 noch ausgebaut werden soll.

Auch von anderen Einrichtungen und Forschungsprojekten aus dem Land kamen Anfragen mit ganz unterschiedlichen Anwendungsfällen, von historischen Handschriften und Druckwerken in Fraktur bis hin zu neueren Karteikarten.

Wir wünschen frohe und erholsame Weihnachtsfeiertage und alles Gute für das neue Jahr!