Präsentationen des 2. Workshops von OCR-BW

Mit rund 35 Teilnehmenden war auch der zweite Workshop von OCR-BW gut besucht. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Zu Beginn des Workshops stellten die UB Mannheim und die UB Tübingen die Projektergebnisse aus den letzten beiden Jahren vor.

Darauf folgten vier vertiefende Vorträge:

Die Präsentation Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm ist ein Bericht über Ergebnisse aus dem Referendariatspraktikum von Fabian Voigtschild und Maria Nüchter an der UB Mannheim. Im Fokus stehen das Potenzial und die Einsatzmöglichkeiten von werksspezifischem Training für historische Drucke.

Neue Modelle dank GT-Aufwertung und Anreicherung von Jan Kamlah (Universitätsbibiothek Mannheim) präsentiert die Ergebnisse von neuen Tesseractmodellen für Fraktur- und historische Antiquaschriften und zeigt den Nutzen von Aufwertung und Anreicherung von bestehenden GT-Datensätzen auf.

Der Vortrag von Benjamin Rosemann und Elisabeth Klindworth vom Landesarchiv Stuttgart zu OCR im Archiv – Ein Blick in das FDMLab@LABW ist ein Werkstattbericht über die aktuellen Ergebnissen aus dem FDMLab Projekt.

Im Vortrag von Dorothee Huff (Universitätsbibliothek Tübingen) mit dem Titel Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus geht es um das Training von werksspezifischen Modellen für juristische Konzilien (1602–1883) und wie gut schon geeignete Basismodell abschneiden.

Bei den drei Hands-on-Workshops stellte Jan Kamlah die graphische Oberfläche TesseractXplore für Tesseract vor. Stefan Weil zeigte, wie man mit einfachen Mitteln Volltexte für PDF-Dateien der Danziger Volksstimme und ihrer Vorgängerzeitung Volkswacht Danzig erzeugen kann, und Dorothee Huff demonstrierte in ihrem Workshop Funktionalitäten für Fortgeschritte von Transkribus.

Wir bedanken uns ganz herzlich bei den Referentinnen und Referenten für ihre Vorträge. Dank auch allen Teilnehmenden für ihr Dabeisein und das rege Interesse an den Themen.

Für Ihre weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen

Projektvorstellungen:
UB Mannheim
UB Tübingen

Vorträge:
Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm (Fabian Voigtschild und Maria Nüchter)
Neue Modelle dank GT-Aufwertung und Anreicherung (Jan Kamlah)
OCR im Archiv – Ein Blick in das FDMLab@LABW (Benjamin Rosemann, Elisabeth Klindworth)
Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus (Dorothee Huff)

Hands-on-Workshops:
TesseractXplore (Jan Kamlah)
Volltexte für PDF-Dateien anhand der Volkswacht Danzig (Stefan Weil)
Advanced Funktionen von Transkribus (Dorothee Huff)

2. OCR-BW-Workshop

Wir möchten Sie herzlich zum zweiten Workshop am 9. Juni 2021 einladen. Der Workshop richtet sich an Anwender und Interessierte zum Thema „Texterkennung von Handschriften und Druckwerken“ und legt den Fokus auf die Softwareprogramme Tesseract und Transkribus.

Viele Einrichtungen und Institutionen in Baden-Württemberg digitalisieren bereits ihre historischen Drucke und Handschriften. Damit verbunden ist die Erschließung der Digitalisate durch gute Text-erkennung. Das Projekt OCR-BW unterstützt und berät seit fast zwei Jahren bei der Anwendung aktueller Programme zur Texterkennung. Der Workshop soll die Teilnehmerinnen und Teilnehmer vertieft über das Projekt, aktuelle Forschungen und Programmanwendungen informieren.

Neben der Vorstellung abgeschlossener und zukünftiger Projektaktivitäten umfasst der Workshop verschiedene praxisnahe Vorträge und eine ca. zweistündige Hands-On-Session, wobei Ihnen drei Optionen zur Wahl stehen. Jedem Vortrag folgt eine kurze Diskussionsrunde, in der Fragen zur vorangegangenen Präsentation thematisiert werden können. Eine an die Vorträge anschließende Feedback-Runde bietet darüber hinaus eine Plattform für den Erfahrungsaustausch. In der Hands-On-Session werden Ihnen die Projektmitarbeiterinnen und Projektmitarbeiter die im OCR-BW-Projekt eingesetzten Technologien anhand praktischer Beispiele vorstellen.

Das Programm

Programm_Workshop_2021

Anmeldung und Fragen
Bei Fragen senden Sie bitte bis zum 31.05.2021 eine E-Mail an
Jan Kamlah (jan.kamlah@bib.uni-mannheim.de).

Ausbau des Kompetenzzentrums: OCR-BW geht in die zweite Runde

Das OCR-BW Projekt hat während seiner bisherigen Laufzeit viel positive Resonanz von Institutionen und Wissenschaftler/innen des Landes Baden-Württemberg erhalten. Es konnte hier bei zahlreichen Anfragen im Bereich der Texterkennung von Druckwerken und Handschriften Unterstützung geleistet werden. Außerdem wurden selbst Ground-Truth-Korpora erstellt, neue Erkennungsmodelle trainiert und softwaretechnische Werkzeuge veröffentlicht.

Das MWK hat auf Grundlage dieser Erfolge nun offiziell der Verlängerung des OCR-BW Projektes stattgegeben. In dieser zweiten Projektphase soll das Unterstützungsangebot weiterhin bestehen bleiben. Zudem sollen das Schulungsangebot mit Online-Material erweitert, alternative Open-Source-Transkriptionsplattformen evaluiert, Ground-Truth-Korpora ausgebaut und Projektarbeiten mit Student/innen durchgeführt werden. Wir freuen uns sehr über die Chance das Projekt fortzusetzen und das Angebot des Kompentenzzentrums an der UB Mannheim und UB Tübingen auszubauen!

Aktueller Stand OCR in Baden-Württemberg

Am 16. Oktober 2020 haben die baden-württembergisches Landes- und Universitätsbibliotheken in einem OCR-Workshop zum Thema „Dokumentenerbe digital – Digitalisierung historischer Bestände baden-württembergischer Bibliotheken“ diskutiert. In verschiedenen Vorträgen wurden die jeweiligen Bemühungen auf dem Feld der automatischen Handschriften- und Druckerkennung vorgestellt und Erfahrungen ausgetauscht. Auch das OCR-BW-Projektteam hat in diesem Rahmen über die bisherigen Projektergebnisse informiert.

Die UB Mannheim stellte die Texterkennung von historischen Drucken mit OCR-D und Tesseract mithilfe des dort entwickelten generischen Modells für historische Schriftarten „GT4HistOCR“ sowie dessen Workflow-Einbindung vor. Dank der Mitwirkung der UB Mannheim sowohl an OCR-D als auch an OCR-BW werden Synergien zwischen beiden Projekten genutzt. Die UB Tübingen zeigte zwei unterschiedliche Herangehensweisen für die Entwicklung von Texterkennungsmodellen mit Transkribus und veranschaulichte, wie sich am effizientesten bestmögliche Ergebnisse erzielen lassen. Ein weiteres Thema war die Problematik der noch nicht normierten Transkriptionsrichtlinien für Handschriften.

In weiteren Vorträgen wurden OCR-Projekte der Uni/UB Heidelberg vorgestellt. Den Einstieg machte Jochen Barth mit einem Bericht zum aktuellen Stand der OCR-Aktivitäten an der UB Heidelberg. In ihrem Beitrag „Naval Kishore Press – digital: Texterkennung südasiatischer Schriften mit Transkribus“ berichtete Nicole Merkel-Hilf über ihre mehrjährigen Erfahrungen bezüglich der Volltexterzeugung für Druckwerke in der Devanagari-Schrift als Teilprojekt des FID Asien sowie die geplante Ausweitung auf andere südasiatische Schriften. Jakub Šimek stellte mit „eScriptorium: Erste Versuche und mutmaßliche Perspektiven“ eine Open-Source-Alternative zu Transkribus vor und berichtete über erste Erfahrungen. Im letzten Vortrag des Tages informierte Matthias Arnold zum Thema „Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschließung – Early Chinese Periodicals Online“ über die Herausforderungen, die die chinesische Schrift an die automatische Layouterkennung stellt. Abschließend wurde in der Runde über weitere Pläne und Aktivitäten an baden-württembergischen Bibliotheken gesprochen und Kooperationsmöglichkeiten überlegt.

Links zu den Präsentationen
Texterkennung von historischen Drucken mit OCR-D und Tesseract: urn:nbn:de:bsz:180-madoc-574249
Texterkennung von Handschriften mit Transkribus: https://doi.org/10.5281/zenodo.4106571

Präsentationen des 1. Workshops veröffentlicht

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Ein weiterer Beitrag ergänzte diese Themen mit Tipps und Tricks zur Paläographie. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Die Präsentation Automatische Texterkennung von Druckwerken mit Tesseract von Stefan Weil und Jan Kamlah (beide Universitätsbibiothek Mannheim) zeigte den Einsatz von Tesseract als Stand-Alone-Produkt sowie in der Kombination mit weiteren softwaretechnischen Werkzeugen.

Der Vortag von Dorothee Huff von der Universitätsbibliothek Tübingen zur Automatischen Texterkennung mit Transkribus umfasste eine Einführung in Transkribus und die Präsentation von aktuellen Ergebnissen.

Im Anschluss gab Dr. Regina Keyler vom Universitätsarchiv Tübingen in ihrem Vortrag noch Tipps und Tricks zur Paläographie.

Wir bedanken uns ganz herzlich für die Teilnahme am Workshop und das rege Interesse an den Themen. Bei weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen
Einführung in Tesseract : https://doi.org/10.5281/zenodo.3734046
Einführung in Transkribus: https://doi.org/10.5281/zenodo.3736509
Tipps und Tricks zur Paläographie: https://doi.org/10.5281/zenodo.3738142

1. Workshop zu OCR und Handschriftenerkennung an der UB Tübingen

Am 19. Februar 2020 richtete die UB Tübingen den ersten Workshop des Projekts OCR-BW aus. Nachdem das Projekt 2019 gestartet war, stellte sich schnell heraus, dass im Bereich OCR und HTR starkes Interesse sowohl von Seiten der Wissenschaft wie auch von anderen Gedächtnisinstitutionen besteht. Dementsprechend war auch der Workshop mit etwa 50 Teilnehmerinnen und Teilnehmern aus dem ganzen Bundesland sehr gut besucht. Es wurde deutlich, dass OCR/HTR kein Thema ist, das nur für Geisteswissenschaften Relevanz hat. Auch aus vielen anderen Fachdisziplinen kamen Interessierte, die vor dem Problem stehen, gedruckte oder handschriftliche Materialien für verschiedene Fragestellungen maschinell verarbeiten zu müssen. Die Spannbreite reicht hier vom mittelalterlichen Manuskript über maschinengeschriebene Katalogkarten bis hin zu einer aktuellen Textedition mit Sonderzeichen.

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Die diskutierten Beispiele verdeutlichten den technischen Fortschritt und zeigten, dass für verschiedene Quellengattungen bereits sehr gute Ergebnisse möglich sind. Bei aller eigener Begeisterung musste jedoch auch betont werden, dass die Ergebnisse zwar überzeugend sind, aber das Verhältnis von notwendigem Aufwand zum erzielten Ergebnis nicht außer Acht gelassen werden sollte. Das Projektteam steht nun vor der Aufgabe, die Anregungen der Teilnehmerinnen und Teilnehmer in die weitere Projektarbeit und Entwicklung des Kompetenzzentrums miteinzubeziehen sowie einen Modus zu finden, wie die Wissenschaft und andere Gedächtniseinrichtungen im Bereich der automatischen Volltexterkennung bestmöglich mit den zur Verfügung stehenden Ressourcen unterstützt werden können. Wir bedanken uns für die vielen positiven Rückmeldungen und freuen uns über weitere Anregungen!

Das OCR-BW Projektteam der UB Mannheim und UB Tübingen (Foto: A. Rempfer)

Workshop zu OCR und Handschriftenerkennung (19. Februar 2020)

Sammeln sich bei Ihnen Scans von Handschriften, alten Drucken oder Archivalien, die darauf warten, analysiert zu werden? Suchen Sie nach einer Möglichkeit, diese leichter und effizienter les- und durchsuchbar machen zu können? Wir haben eine Lösung!

Um über das Projekt zu informieren sowie den Teilnehmerinnen und Teilnehmern die Möglichkeit zu bieten, die Anwendung von Tesseract und Transkribus selbst zu testen, veranstaltet die Universitätsbibliothek Tübingen am 19. Februar 2020 einen Workshop. Hier werden Ihnen die Projektmitarbeiterinnen und Projektmitarbeiter die im OCR-BW-Projekt eingesetzten Technologien vorstellen, aktuelle Ergebnisse und Beispiele für den Einsatz von Tesseract und Transkribus präsentieren und Sie in Hinblick auf die Einsatzmöglichkeiten in Ihren eigenen Projekten beraten.

Programm

  • 13:00-14:00 Grußwort und Projektvorstellung OCR-BW
  • 14:00-14:30 Fragerunde
  • Kaffee
  • 15:00-15:45 Workshops: Tesseract / Transkribus im praktischen Einsatz
  • 15:45-16:30 Workshops: Transkribus / Tesseract im praktischen Einsatz
  • 16:30 Einführung Paläographie

Ort: Historischer Lesesaal der Universitätsbibliothek Tübingen, Wilhelmstraße 32.

Bei Interesse an der Teilnahme oder bei Fragen senden Sie bitte eine Mail an Dorothee Huff  unter ocr@ub.uni-tuebingen.de.

Jahresrückblick 2019

Das Jahr 2019 geht dem Ende entgegen. Wir möchten diese Gelegenheit nutzen für einen kurzen Rückblick auf die Ereignisse seit dem gemeinsamen OCR-BW Kick-off-Meeting.

Die Universitätsbibliothek Tübingen hat mit der Testphase der Software Transkribus begonnen, um deren Potential für die automatische Handschriften- und Layouterkennung an verschiedenen Beispielen und für unterschiedliche Nutzungskontexte zu prüfen. Dafür wurden seit Beginn des Projekts ca. 320 Seiten transkribiert und mehrere HTR-Modelle trainiert. Dabei konnte eine Fehlerquote bei der automatischen Texterkennung von unter 5% erzielt werden. Die bisherigen Resultate sind somit als positiv einzustufen und lassen erwarten, dass auf diesem Weg große Textkorpora mit durchsuchbarem Volltext angereichert werden können.
Im Februar 2020 wird der erste Transkribus-Workshop in Tübingen stattfinden, wo die vorläufigen Projektergebnisse vorgestellt und Nutzungsmöglichkeiten von OCR und HTR in der Forschung diskutiert werden sollen.

Die Universitätsbibliothek Mannheim ist dabei, die Bedarfe von Archiven, Bibliotheken und Museen in Baden-Württemberg zu erfassen und hat deshalb bereits einige ausgewählte Einrichtungen besucht:

  • Landesarchiv in Stuttgart (21.10.2019, gemeinsam mit UB Tübingen)
  • Stadtarchiv Mannheim Marchivum (29.10.2019)
  • Stadtarchiv Ladenburg (03.12.2019)
  • Kreisarchiv Rhein-Neckar-Kreis (19.12.2019)

Weitere Besuche der beiden Landesbibliotheken und bei der UB Freiburg sind zu Beginn des neuen Jahres geplant.

Alle besuchten Einrichtungen zeigten großes Interesse am Thema OCR und sind sehr an einer fachlichen Beratung und Unterstützung bei der automatischen Volltexterkennung interessiert. Wir haben auch bereits konkrete Beispiele für digitalisierte Zeitungen und andere Druckschriften erhalten und für diese OCR durchgeführt. Ganz herzlichen Dank für die gute und stets freundliche Zusammenarbeit, die 2020 noch ausgebaut werden soll.

Auch von anderen Einrichtungen und Forschungsprojekten aus dem Land kamen Anfragen mit ganz unterschiedlichen Anwendungsfällen, von historischen Handschriften und Druckwerken in Fraktur bis hin zu neueren Karteikarten.

Wir wünschen frohe und erholsame Weihnachtsfeiertage und alles Gute für das neue Jahr!