OCR-BW auf dem Südwestdeutschen Archivtag am 20.05.2022

Dieses Jahr ist OCR-BW auf dem 81. Südwestdeutschen Archivtag in Reutlingen vertreten. Die Veranstaltung widmet sich den Herausforderungen, mit denen Archive im digitalen Zeitalter konfrontiert sind.

Passend dazu steht Ihnen das Team von OCR-BW auf der dazugehörigen Fachmesse am 20.05.2022 in der Reutlinger Stadthalle für alle Fragen rund um die Anwendung von Texterkennungs- und Transkriptionssoftware zur Verfügung. Weitere Informationen zur Veranstaltung finden Sie unter: https://www.landesarchiv-bw.de/de/aktuelles/termine/73866.

Wir freuen uns, nach der Pandemie endlich wieder persönlich mit Ihnen ins Gespräch zu kommen!

Save-the-Date: 3. OCR-BW-Workshop am 22.06.2022

Der diesjährige Projektworkshop von OCR-BW findet am Mittwoch, dem 22. Juni 2022, an der Universität Mannheim statt. Die Veranstaltung wird in einem hybriden Format abgehalten, so können Interessierte sowohl vor Ort als auch vom eigenen Büro aus virtuell teilnehmen.

Neben Berichten des Projektteams der UB Tübingen und der UB Mannheim sind auch Vorträge von verschiedenen Wissenschaftlerinnen und Wissenschaftlern sowie Institutionen über deren Erfahrungen mit automatisierter Texterkennung geplant. Ergänzt wird das Programm durch praktische Hands-On-Sessions, die den Teilnehmerinnen und Teilnehmern einen Einblick in die praktische Anwendung von Texterkennungsprogrammen gewähren. Ein Thema des Workshops ist unter anderem der Einsatz von Texterkennungs- und Transkriptionssoftware in der Lehre.

Weitere Informationen zum genauen Ablauf des Workshops werden in den nächsten Wochen bekannt gegeben.

Einführung in die Transkriptionsplattform eScriptorium

Am Freitag den, 25.03.2022 um 11 Uhr findet eine kleine Einführung in die Arbeit mit der Transkriptionsplattform eScriptorium statt. Falls Sie gerne teilnehmen würden, senden Sie uns einfach eine Mail an larissa.will(at)uni-mannheim.de. Anschließend erhalten Sie einen Link zum virtuellen Veranstaltungsraum.

Wir freuen uns Ihnen eScriptorium in kleinem Rahmen vorführen und Ihre Fragen dazu beantworten zu können.

eScriptorium im Produktionsbetrieb

Inzwischen ist unser eScriptorium über die URL https://ocr-bw.bib.uni-mannheim.de/escriptorium/ erreichbar. Die neue Instanz läuft auf einem leistungsfähigen Server mit GPU-Unterstützung, was die Geschwindigkeit von Segmentierung, automatisierter Texterkennung und Modelltraining deutlich erhöht. Der produktiven Nutzung von eScriptorium steht somit nichts mehr im Weg.

Für die Erkennung von Frakturschrift des 19. Jahrhunderts haben wir mit Hilfe des Datensatzes „Austrian Newspapers“ ein Modell für die OCR-Software Kraken trainiert. Auf Basis dieses Frakturschriftmodells führten wir innerhalb von eScriptorium diverse Nachtrainings mit unterschiedlichen historischen Dokumenten der Universitätsbibliothek Tübingen durch. Eines der so erzeugten Modelle erzielt mit einer Zeichenerkennungsrate von 99,9 % (11 Fehler auf 9567 Zeichen) ein außerordentlich gutes Ergebnis. Auch die anderen Modelle erzielen mit Genauigkeiten von über 92 % sehr ordentliche Ergebnisse.

Sollten Sie Fragen oder Interesse an der Nutzung von eScriptorium haben, wenden Sie sich an Larissa Will unter: larissa.will(at)uni-mannheim.de.

Jahresrückblick 2021

Das Team von OCR-BW ist mit dem Projektverlauf im letzten Jahr durchaus zufrieden. Zahlreichen Einrichtungen wie der Badischen Landesbibliothek Karlsruhe, dem MARCHIVUM oder der Bibliothèque Nationale et Universitaire de Strasbourg konnte bei der voranschreitenden Digitalisierung und dem Umgang mit Texterkennung unter die Arme gegriffen werden. Auch einzelne Forschende von Universitäten wandten sich wiederholt an das Projektteam sowie auch immer wieder die interessierte Öffentlichkeit.

Im Bereich der Handwritten Text Recognition gab es in den letzten Monaten neue Entwicklungen. Während der Expert Client von Transkribus durch die READ COOP beständig weiterentwickelt wird und aufgrund seiner vielen Funktionalitäten sowie zufriedenstellenden Ergebnisse im Projektzusammenhang für die automatische Handschriftenerkennung auch das Mittel der Wahl bleibt, gibt es vielversprechende Weiter- und Neuentwicklungen, die eine einfachere Handhabung von Transkribus ermöglichen und neue Anwendungsszenarien eröffnen. Mit der Browserversion Transkribus Lite gestaltet sich Handhabung intuitiver und ist zudem auf die Grundfunktionen von Transkribus beschränkt, sodass Gelegenheitsnutzende nicht überfordert werden. Wenn das Material also nicht zu anspruchsvoll ist und die Texterkennung hauptsächlich als Lesehilfe dient wie z. B. bei Transkriptionen im Rahmen von Citizen Science Projekten, stellt Transkribus Lite eine gute Alternative dar. Zudem befindet sich aktuell eine API in Entwicklung, die eine schnellere Verarbeitung von großen Materialmengen hinsichtlich der automatischen Texterkennung ermöglichen soll.

Aber auch bei der Open-Source-Alternative eScriptorium hat sich einiges getan seitdem die UB Mannheim im November letzten Jahres ihre Testinstanz in Betrieb genommen hat. Momentan hat eScriptorium gegenüber Transkribus zwar noch einige Nachteile wie die erschwerte Usability oder die fehlende Möglichkeit zur Aufteilung von Trainingsmaterialien sowie der Beeinflussung von Parametereinstellungen oder Epochenzahl. Dies macht eine Reproduzierbarkeit bzw. Vergleichbarkeit der Ergebnisse der Texterkennung momentan schwierig. Prinzipiell bringt eScriptorium aber auch Vorteile mit sich wie die einfache Weitergabe von trainierten Modellen bzw. die Nachnutzung von Modellen, die in anderen Umgebungen trainiert wurden.

Auch softwaretechnisch hat das Mannheimer Team an eScriptorium gearbeitet. So gibt es jetzt neben der englischen auch eine deutsche Benutzeroberfläche (auch in der lokalen Version), um eventuell vorhandene sprachliche Hürden abzubauen. Mannheimer Entwickler stellen einige Verbesserungen bzw. Korrekturen sowohl für eScriptorium als auch für Kraken auf GitHub bereit (https://github.com/UB-Mannheim/escriptorium). Momentan arbeitet das Team daran, die Usability von eScriptorium weiter zu verbessern. In den letzten Wochen hat das Team bereits Dokumentationen in deutscher Sprache zur Benutzung von eScriptorium, zum Import von Daten aus Transkribus sowie zur lokalen Installation von eScriptorium erstellt.

Sollten Sie Interesse an der Installation bzw. der Nutzung von eScriptorium haben, zögern Sie nicht und wenden Sie sich an Larissa Will unter: larissa.will@bib.uni-mannheim.de.

Neues Jahr – Neue Herausforderungen

Das Projektteam wünscht allen ein frohes neues Jahr! Mit dem Jahr 2021 ist ein ereignisreiches Jahr für das Projekt OCR BW zu Ende gegangen. Welche Meilensteine das Projekt im letzten Jahr verzeichnen konnte, können Sie gerne im Jahresrückblick nachlesen. Das Team ist bereits tatkräftig in das neue Jahr gestartet und arbeitet weiterhin an einer verbesserten Usability von eScriptorium sowie dem Ausbau der OCR-BW-Homepage mit detaillierten Anleitungen zur OCR-Texterkennung.

Falls Interesse an eScriptorium besteht, können wir Ihnen Anleitungen in deutscher Sprache zur Nutzung von eScriptorium, zum Import von Daten aus Transkribus nach eScriptorium sowie zur lokalen Installation von eScriptorium (auch mit deutscher Benutzungsoberfläche) bereitstellen.

Sollten Sie Fragen haben, wenden Sie sich gerne an Larissa Will unter: larissa.will(at)bib.uni-mannheim.de.

Hinweise zur OCR von Fraktur und dem richtigen Scannen

Das Projektteam erreichen in den letzten Wochen immer wieder Anfragen bzgl. der Texterkennung von Frakturschrift. Dies ist nicht verwunderlich, so war Fraktur doch Mitte des 16. bis Anfang des 20. Jahrhunderts die meistverwendete Schrift für Drucke im deutschsprachigen Raum. Sie finden deshalb nun ab sofort Hinweise zur Texterkennung von Fraktur und Hinweise zum richtigen Scannen von Dokumenten auf unserer Homepage.

Sollten dennoch Fragen offenbleiben, kann das Projektteam jederzeit kontaktiert werden.

Ansprechpartnerin: Larissa Will (larissa.will(at)bib.uni-mannheim.de)

Digitalisierte Druckschriften zur Mannheimer Stadtgeschichte

Volltextsuche nach „Schloßbibliothek“

Das Mannheimer Stadtarchiv MARCHIVUM hat sich selbst und allen, die sich für die Mannheimer Geschichte interessieren, ein vorgezogenes Weihnachtsgeschenk gemacht und ausgewählte digitalisierte Druckschriften online gestellt. Schwerpunkt sind dabei Mannheimer Zeitungen. Dank der im Rahmen von OCR-BW an der Universitätsbibliothek Mannheim erstellten Volltexte lassen sich diese Zeitungen systematisch nach interessanten Schlagworten durchsuchen.

Hinter den verschlossenen Türen des Senats der Universität Tübingen…

…geht es spannender zu, als man meine könnte: ein unwürdiger Zeichenlehrer (19r), Disziplinarmaßnahmen gegen Studenten (110r) und nicht zu vergessen der Skandal um die Antrittsrede des V-Vischers (107v). 

In dem jetzt mit Volltext zugänglich gemachten Band der Senatsprotokolle (Signatur UAT 47/28) mit der Laufzeit 1844-1847 befinden wir uns in einer Zeit, in der sich die Universität in ihrer heutigen Form herausbildete und begegnen vielen Personen, deren Nachnamen noch heute auf Straßenschildern in Tübingen zu finden sind. Der Wirkungskreis des Senats war zu damaliger Zeit deutlich weiter als heute und beinhaltete neben den üblichen administrativen Aufgaben wie die Neubesetzung von Professorenstellen, die Vergabe von Stipendien und Anträge auf Benutzung der Bibliothek z.B. auch Befugnisse der Gerichtsbarkeit, Patronatsrechte und Armenfürsorge.

Auf Grundlage von 214 Seiten Ground-Truth-Daten aus sieben Bänden des Zeitraums 1799-1847 wurde in Transkribus ein Texterkennungsmodell entwickelt, das im Durchschnitt eine Character Error Rate von 4,60 % erzielt. Das Material wurde nach Kriterien wie Schreibzeitraum und enthaltende Schreiberhände möglichst repräsentativ ausgewählt. Dieses Modell wurde auf die Seiten des Protokollbands angewandt und der erzeugte Text in die Präsentation des Tübinger OpenDigi integriert.