Schlagwort-Archive: Transkribus

Jahresrückblick 2021

Das Team von OCR-BW ist mit dem Projektverlauf im letzten Jahr durchaus zufrieden. Zahlreichen Einrichtungen wie der Badischen Landesbibliothek Karlsruhe, dem MARCHIVUM oder der Bibliothèque Nationale et Universitaire de Strasbourg konnte bei der voranschreitenden Digitalisierung und dem Umgang mit Texterkennung unter die Arme gegriffen werden. Auch einzelne Forschende von Universitäten wandten sich wiederholt an das Projektteam sowie auch immer wieder die interessierte Öffentlichkeit.

Im Bereich der Handwritten Text Recognition gab es in den letzten Monaten neue Entwicklungen. Während der Expert Client von Transkribus durch die READ COOP beständig weiterentwickelt wird und aufgrund seiner vielen Funktionalitäten sowie zufriedenstellenden Ergebnisse im Projektzusammenhang für die automatische Handschriftenerkennung auch das Mittel der Wahl bleibt, gibt es vielversprechende Weiter- und Neuentwicklungen, die eine einfachere Handhabung von Transkribus ermöglichen und neue Anwendungsszenarien eröffnen. Mit der Browserversion Transkribus Lite gestaltet sich Handhabung intuitiver und ist zudem auf die Grundfunktionen von Transkribus beschränkt, sodass Gelegenheitsnutzende nicht überfordert werden. Wenn das Material also nicht zu anspruchsvoll ist und die Texterkennung hauptsächlich als Lesehilfe dient wie z. B. bei Transkriptionen im Rahmen von Citizen Science Projekten, stellt Transkribus Lite eine gute Alternative dar. Zudem befindet sich aktuell eine API in Entwicklung, die eine schnellere Verarbeitung von großen Materialmengen hinsichtlich der automatischen Texterkennung ermöglichen soll.

Aber auch bei der Open-Source-Alternative eScriptorium hat sich einiges getan seitdem die UB Mannheim im November letzten Jahres ihre Testinstanz in Betrieb genommen hat. Momentan hat eScriptorium gegenüber Transkribus zwar noch einige Nachteile wie die erschwerte Usability oder die fehlende Möglichkeit zur Aufteilung von Trainingsmaterialien sowie der Beeinflussung von Parametereinstellungen oder Epochenzahl. Dies macht eine Reproduzierbarkeit bzw. Vergleichbarkeit der Ergebnisse der Texterkennung momentan schwierig. Prinzipiell bringt eScriptorium aber auch Vorteile mit sich wie die einfache Weitergabe von trainierten Modellen bzw. die Nachnutzung von Modellen, die in anderen Umgebungen trainiert wurden.

Auch softwaretechnisch hat das Mannheimer Team an eScriptorium gearbeitet. So gibt es jetzt neben der englischen auch eine deutsche Benutzeroberfläche (auch in der lokalen Version), um eventuell vorhandene sprachliche Hürden abzubauen. Mannheimer Entwickler stellen einige Verbesserungen bzw. Korrekturen sowohl für eScriptorium als auch für Kraken auf GitHub bereit (https://github.com/UB-Mannheim/escriptorium). Momentan arbeitet das Team daran, die Usability von eScriptorium weiter zu verbessern. In den letzten Wochen hat das Team bereits Dokumentationen in deutscher Sprache zur Benutzung von eScriptorium, zum Import von Daten aus Transkribus sowie zur lokalen Installation von eScriptorium erstellt.

Sollten Sie Interesse an der Installation bzw. der Nutzung von eScriptorium haben, zögern Sie nicht und wenden Sie sich an Larissa Will unter: larissa.will@bib.uni-mannheim.de.

Neues Jahr – Neue Herausforderungen

Das Projektteam wünscht allen ein frohes neues Jahr! Mit dem Jahr 2021 ist ein ereignisreiches Jahr für das Projekt OCR BW zu Ende gegangen. Welche Meilensteine das Projekt im letzten Jahr verzeichnen konnte, können Sie gerne im Jahresrückblick nachlesen. Das Team ist bereits tatkräftig in das neue Jahr gestartet und arbeitet weiterhin an einer verbesserten Usability von eScriptorium sowie dem Ausbau der OCR-BW-Homepage mit detaillierten Anleitungen zur OCR-Texterkennung.

Falls Interesse an eScriptorium besteht, können wir Ihnen Anleitungen in deutscher Sprache zur Nutzung von eScriptorium, zum Import von Daten aus Transkribus nach eScriptorium sowie zur lokalen Installation von eScriptorium (auch mit deutscher Benutzungsoberfläche) bereitstellen.

Sollten Sie Fragen haben, wenden Sie sich gerne an Larissa Will unter: larissa.will@bib.uni-mannheim.de.

Hinter den verschlossenen Türen des Senats der Universität Tübingen…

…geht es spannender zu, als man meine könnte: ein unwürdiger Zeichenlehrer (19r), Disziplinarmaßnahmen gegen Studenten (110r) und nicht zu vergessen der Skandal um die Antrittsrede des V-Vischers (107v). 

In dem jetzt mit Volltext zugänglich gemachten Band der Senatsprotokolle (Signatur UAT 47/28) mit der Laufzeit 1844-1847 befinden wir uns in einer Zeit, in der sich die Universität in ihrer heutigen Form herausbildete und begegnen vielen Personen, deren Nachnamen noch heute auf Straßenschildern in Tübingen zu finden sind. Der Wirkungskreis des Senats war zu damaliger Zeit deutlich weiter als heute und beinhaltete neben den üblichen administrativen Aufgaben wie die Neubesetzung von Professorenstellen, die Vergabe von Stipendien und Anträge auf Benutzung der Bibliothek z.B. auch Befugnisse der Gerichtsbarkeit, Patronatsrechte und Armenfürsorge.

Auf Grundlage von 214 Seiten Ground-Truth-Daten aus sieben Bänden des Zeitraums 1799-1847 wurde in Transkribus ein Texterkennungsmodell entwickelt, das im Durchschnitt eine Character Error Rate von 4,60 % erzielt. Das Material wurde nach Kriterien wie Schreibzeitraum und enthaltende Schreiberhände möglichst repräsentativ ausgewählt. Dieses Modell wurde auf die Seiten des Protokollbands angewandt und der erzeugte Text in die Präsentation des Tübinger OpenDigi integriert.

Testbetrieb der Transkriptionsplattform eScriptorium

Die zweite Projektphase läuft bereits auf Hochtouren. Seit Anfang November testen wir die Open-Source-Transkriptions-Plattform eScriptorium als mögliche Alternative zu Transkribus bezüglich der Texterkennung von Handschriften. eScriptorium ist Teil des französischen scripta-Projektes (https://www.psl.eu/en/scripta) und basiert technisch u. a. auf der OCR-Lösung kraken (http://kraken.re/). Gegenüber dem teilweise kostenpflichtigen Transkribus bietet eScriptorium interessante neue Möglichkeiten wie die freie Weitergabe von trainierten Modellen. Das Projektteam hat bereits zwei Modelle auf Basis historischer Dokumente der UB Tübingen trainiert. Um eScriptorium einem breiten Anwenderkreis näher zu bringen, wird bereits tatkräftig an einer benutzerfreundlichen Anleitung gearbeitet.

Tagebucheintrag von Martin Crusius

Falls Sie Interesse an der Nutzung von eScriptorium haben, können Sie sich gerne an uns wenden. Wir freuen uns auf Ihre Anfragen an Larissa Will unter der Mailadresse: larissa.will@bib.uni-mannheim.de.

Präsentationen des 2. Workshops von OCR-BW

Mit rund 35 Teilnehmenden war auch der zweite Workshop von OCR-BW gut besucht. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Zu Beginn des Workshops stellten die UB Mannheim und die UB Tübingen die Projektergebnisse aus den letzten beiden Jahren vor.

Darauf folgten vier vertiefende Vorträge:

Die Präsentation Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm ist ein Bericht über Ergebnisse aus dem Referendariatspraktikum von Fabian Voigtschild und Maria Nüchter an der UB Mannheim. Im Fokus stehen das Potenzial und die Einsatzmöglichkeiten von werksspezifischem Training für historische Drucke.

Neue Modelle dank GT-Aufwertung und Anreicherung von Jan Kamlah (Universitätsbibiothek Mannheim) präsentiert die Ergebnisse von neuen Tesseractmodellen für Fraktur- und historische Antiquaschriften und zeigt den Nutzen von Aufwertung und Anreicherung von bestehenden GT-Datensätzen auf.

Der Vortrag von Benjamin Rosemann und Elisabeth Klindworth vom Landesarchiv Stuttgart zu OCR im Archiv – Ein Blick in das FDMLab@LABW ist ein Werkstattbericht über die aktuellen Ergebnissen aus dem FDMLab Projekt.

Im Vortrag von Dorothee Huff (Universitätsbibliothek Tübingen) mit dem Titel Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus geht es um das Training von werksspezifischen Modellen für juristische Konzilien (1602–1883) und wie gut schon geeignete Basismodell abschneiden.

Bei den drei Hands-on-Workshops stellte Jan Kamlah die graphische Oberfläche TesseractXplore für Tesseract vor. Stefan Weil zeigte, wie man mit einfachen Mitteln Volltexte für PDF-Dateien der Danziger Volksstimme und ihrer Vorgängerzeitung Volkswacht Danzig erzeugen kann, und Dorothee Huff demonstrierte in ihrem Workshop Funktionalitäten für Fortgeschritte von Transkribus.

Wir bedanken uns ganz herzlich bei den Referentinnen und Referenten für ihre Vorträge. Dank auch allen Teilnehmenden für ihr Dabeisein und das rege Interesse an den Themen.

Für Ihre weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen

Projektvorstellungen:
UB Mannheim
UB Tübingen

Vorträge:
Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm (Fabian Voigtschild und Maria Nüchter)
Neue Modelle dank GT-Aufwertung und Anreicherung (Jan Kamlah)
OCR im Archiv – Ein Blick in das FDMLab@LABW (Benjamin Rosemann, Elisabeth Klindworth)
Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus (Dorothee Huff)

Hands-on-Workshops:
TesseractXplore (Jan Kamlah)
Volltexte für PDF-Dateien anhand der Volkswacht Danzig (Stefan Weil)
Advanced Funktionen von Transkribus (Dorothee Huff)

Aktueller Stand OCR in Baden-Württemberg

Am 16. Oktober 2020 haben die baden-württembergisches Landes- und Universitätsbibliotheken in einem OCR-Workshop zum Thema „Dokumentenerbe digital – Digitalisierung historischer Bestände baden-württembergischer Bibliotheken“ diskutiert. In verschiedenen Vorträgen wurden die jeweiligen Bemühungen auf dem Feld der automatischen Handschriften- und Druckerkennung vorgestellt und Erfahrungen ausgetauscht. Auch das OCR-BW-Projektteam hat in diesem Rahmen über die bisherigen Projektergebnisse informiert.

Die UB Mannheim stellte die Texterkennung von historischen Drucken mit OCR-D und Tesseract mithilfe des dort entwickelten generischen Modells für historische Schriftarten „GT4HistOCR“ sowie dessen Workflow-Einbindung vor. Dank der Mitwirkung der UB Mannheim sowohl an OCR-D als auch an OCR-BW werden Synergien zwischen beiden Projekten genutzt. Die UB Tübingen zeigte zwei unterschiedliche Herangehensweisen für die Entwicklung von Texterkennungsmodellen mit Transkribus und veranschaulichte, wie sich am effizientesten bestmögliche Ergebnisse erzielen lassen. Ein weiteres Thema war die Problematik der noch nicht normierten Transkriptionsrichtlinien für Handschriften.

In weiteren Vorträgen wurden OCR-Projekte der Uni/UB Heidelberg vorgestellt. Den Einstieg machte Jochen Barth mit einem Bericht zum aktuellen Stand der OCR-Aktivitäten an der UB Heidelberg. In ihrem Beitrag „Naval Kishore Press – digital: Texterkennung südasiatischer Schriften mit Transkribus“ berichtete Nicole Merkel-Hilf über ihre mehrjährigen Erfahrungen bezüglich der Volltexterzeugung für Druckwerke in der Devanagari-Schrift als Teilprojekt des FID Asien sowie die geplante Ausweitung auf andere südasiatische Schriften. Jakub Šimek stellte mit „eScriptorium: Erste Versuche und mutmaßliche Perspektiven“ eine Open-Source-Alternative zu Transkribus vor und berichtete über erste Erfahrungen. Im letzten Vortrag des Tages informierte Matthias Arnold zum Thema „Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschließung – Early Chinese Periodicals Online“ über die Herausforderungen, die die chinesische Schrift an die automatische Layouterkennung stellt. Abschließend wurde in der Runde über weitere Pläne und Aktivitäten an baden-württembergischen Bibliotheken gesprochen und Kooperationsmöglichkeiten überlegt.

Links zu den Präsentationen
Texterkennung von historischen Drucken mit OCR-D und Tesseract: urn:nbn:de:bsz:180-madoc-574249
Texterkennung von Handschriften mit Transkribus: https://doi.org/10.5281/zenodo.4106571

1. Workshop zu OCR und Handschriftenerkennung an der UB Tübingen

Am 19. Februar 2020 richtete die UB Tübingen den ersten Workshop des Projekts OCR-BW aus. Nachdem das Projekt 2019 gestartet war, stellte sich schnell heraus, dass im Bereich OCR und HTR starkes Interesse sowohl von Seiten der Wissenschaft wie auch von anderen Gedächtnisinstitutionen besteht. Dementsprechend war auch der Workshop mit etwa 50 Teilnehmerinnen und Teilnehmern aus dem ganzen Bundesland sehr gut besucht. Es wurde deutlich, dass OCR/HTR kein Thema ist, das nur für Geisteswissenschaften Relevanz hat. Auch aus vielen anderen Fachdisziplinen kamen Interessierte, die vor dem Problem stehen, gedruckte oder handschriftliche Materialien für verschiedene Fragestellungen maschinell verarbeiten zu müssen. Die Spannbreite reicht hier vom mittelalterlichen Manuskript über maschinengeschriebene Katalogkarten bis hin zu einer aktuellen Textedition mit Sonderzeichen.

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Die diskutierten Beispiele verdeutlichten den technischen Fortschritt und zeigten, dass für verschiedene Quellengattungen bereits sehr gute Ergebnisse möglich sind. Bei aller eigener Begeisterung musste jedoch auch betont werden, dass die Ergebnisse zwar überzeugend sind, aber das Verhältnis von notwendigem Aufwand zum erzielten Ergebnis nicht außer Acht gelassen werden sollte. Das Projektteam steht nun vor der Aufgabe, die Anregungen der Teilnehmerinnen und Teilnehmer in die weitere Projektarbeit und Entwicklung des Kompetenzzentrums miteinzubeziehen sowie einen Modus zu finden, wie die Wissenschaft und andere Gedächtniseinrichtungen im Bereich der automatischen Volltexterkennung bestmöglich mit den zur Verfügung stehenden Ressourcen unterstützt werden können. Wir bedanken uns für die vielen positiven Rückmeldungen und freuen uns über weitere Anregungen!

Das OCR-BW Projektteam der UB Mannheim und UB Tübingen (Foto: A. Rempfer)