Schlagwort-Archive: HTR

Transcribathon durch den Orient (13.02.-17.02.2022)

Im Rahmen der Love Data Week (13.02. bis 17.02.2023) veranstaltet das Kompetenzzentrum OCR bestehend aus der UB Tübingen und der UB Mannheim einen Transcribathon auf der Texterkennungs- und Transkriptionsplattform eScriptorium. Die Teilnehmenden bekommen die Möglichkeit die handschriftlichen Reisetagebücher des Tübinger Orientalisten Julius Euting (1839–1913) zu transkribieren.

Zum Auftakt des Transcribathons treffen wir uns am Montag, dem 13.02.2023, um 13.30 Uhr online via Zoom und besprechen die Funktionalitäten von eScriptorium sowie die Ziele des Transcribathons. Über die Woche können die Teilnehmenden dann fleißig transkribieren und in die spannenden Reiseberichte aus fernen Ländern wie Syrien, Ägypten und Algerien eintauchen. Am Freitag, dem 17.02.2023, um 13.30 Uhr treffen wir uns dann erneut, besprechen die Ergebnisse und küren die Sieger:innen des Transcribathons.

Anmeldung zum Auftakt: https://www2.bib.uni-mannheim.de/event-registration/index.php?eventkey=LDW-2023-02-13-online

Anmeldung zum Finale: https://www2.bib.uni-mannheim.de/event-registration/index.php?eventkey=LDW-2023-02-17-online

Sollten Sie am Auftakt nicht teilnehmen können, aber würden gerne am Transcribathon teilnehmen, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de)

Bild: Universitätsbibliothek Tübingen

OCR-Sprechstunde

Am Donnerstag, den 12.01.2023 um 15 Uhr findet die erste OCR-Sprechstunde des neuen Jahres via Zoom statt. Bei dieser Gelegenheit können Sie wieder Fragen zum Thema automatische Texterkennung von Handschriften und Drucken stellen.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.de/sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071). Sollten Sie technische Probleme oder Fragen haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).

Viele Wege führen zum Texterkennungsmodell

UAT 84/14, S. 867

Der Frage nach dem bestmöglichen Ansatz beim Training von eigenen Modellen für die automatische Texterkennung von Handschriften ist die UB Tübingen nachgegangen. An verschiedenen Textkorpora vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts wurden unterschiedliche Herangehensweisen getestet, wie sich mit dem geringstmöglichen Aufwand ein möglichst gutes Modell entwickeln lässt. Die Ergebnisse können im aktuellen o-bib-Heft Bd. 9 Nr. 4 (2022) nachgelesen werden.

Zweite OCR Sprechstunde

Nachdem die erste offene OCR-Sprechstunde sich großer Beliebtheit erfreute, findet nun am Donnerstag, den 08.12.2022 um 15 Uhr die zweite Sprechstunde via Zoom statt. Bei dieser Gelegenheit können Sie alle Fragen zum Thema automatische Texterkennung und Transkriptionssoftware stellen.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.de/sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071). Sollten Sie technische Probleme oder Fragen haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).

Wir freuen uns wieder auf Ihr zahlreiches Erscheinen und sind gespannt auf die Themen, die dieses Mal auf uns warten!

Projektende OCR-BW und 1. offene OCR-Sprechstunde

Liebe OCR-Interessierte,

die Förderung für das Projekt OCR-BW durch das Ministerium für Wissenschaft, Forschung und Kunst ist Ende September ausgelaufen und somit ist das Projekt offiziell beendet. Das im Rahmen der Projektarbeit aufgebaute Kompetenzzentrum OCR wird jedoch weiterhin von der UB Mannheim und der UB Tübingen betrieben. Erfreulicherweise stehen Ihnen alle Beteiligten weiterhin beratend zur Verfügung und helfen Ihnen bei Fragen zur automatisierten Texterkennung von Drucken und Handschriften.

Ab Donnerstag, den 10. November, bieten wir von 15.00–16.00 Uhr (zunächst jeden 2. Donnerstag im Monat) eine offene OCR-Sprechstunde via Zoom als zusätzliches Serviceangebot an. In diesem niedrigschwelligen Angebot können Sie ohne vorherige Anmeldung alle Fragen rund um das Thema automatisierte Texterkennung loswerden. Sie können dem Meeting unter folgendem Link beitreten: https://tinyurl.com/ocr-sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071). Sollten Sie Probleme haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).

Nun schauen wir zurück auf eine ereignisreiche Projektlaufzeit mit vielen interessanten Anfragen und immer neuen Herausforderungen. Besonders freut uns, dass einige Kooperationen über das Projektende hinaus bestehen bleiben.

Wir bedanken uns für die Zusammenarbeit und hoffen, dass wir Sie vielleicht bald in unserer OCR-Sprechstunde begrüßen dürfen!

Ihr OCR-BW Team

Modellübertragung von Transkribus nach eScriptorium

Für all diejenigen, die momentan Transkribus nutzen, kann ein Vergleich mit der Open-Source-Alternative eScriptorium interessant sein. Transkribus gestattet zwar keine direkte Übertragung Ihrer darin trainierten Modelle, jedoch kann die Ground Truth, also die in Transkribus erstellte Transkription und die dazugehörigen Bilder, aus Transkribus exportiert und in eScriptorium importiert werden. Anschließend können Sie ein Modell in eScriptorium trainieren. eScriptorium ermöglicht Ihnen die einfache Weitergabe des trainierten Kraken-Modells. Sie finden die dazugehörige Anleitung auf der GitHub-Seite der UB Mannheim. Für Hinweise und Verbesserungsvorschläge sind wir immer dankbar.

Wenn Sie Fragen zu eScriptorium haben oder es selbst gerne ausprobieren möchten, dann wenden Sie sich an uns.

Ansprechpartnerin: Larissa Will, E-Mail: larissa.will(at)uni-mannheim.de

Erfolgreicher 3. OCR-BW-Workshop

Am 22. Juni fand im Mannheimer Schloss der dritte und letzte Workshop des Projektes OCR-BW statt. Während der Projektlaufzeit wurde von allen Seiten stets die Wichtigkeit und Richtigkeit des Themas automatisierter Texterkennung sowie der Bedarf an Beratung bei Forschenden und Institutionen bestätigt. Dies spiegelte sich auch in der Resonanz wider, die der Workshop bekam. Es zeigte sich auch, dass inzwischen Forschende die Möglichkeit zur Online-Teilnahme schätzen gelernt haben. So begrüßte das Projektteam knapp 30 Teilnehmende vor Ort und ungefähr 50 Online-Teilnehmende beim Workshop.

Nach der Begrüßung durch die Direktorinnen der Universitätsbibliotheken Mannheim und Tübingen und einem Rückblick auf die Projektlaufzeit folgten vier spannende Vorträge aus Forschung und Praxis. Die Reihe begann mit einem Vortrag von Milanka Matić-Chalkitis (Universität Freiburg) zum Training „smarter“ Modelle im MultiHTR-Projekt. Anschließend gaben Eric Veyel und Rainer Gräbeldinger einen praktischen Einblick in das neue Druckschriftenportal des Mannheimer Stadtarchivs MARCHIVUM. Daran schloss sich ein interessanter Einblick in die Zukunft des Fachs Geschichte in Lehre und Forschung von Professor Dr. Hiram Kümper (Universität Mannheim) an. Abschließend berichtete Carlos Martínez von BIOfid über nachfolgende Anwendungen der Handschriftenerkennung und bildete somit das Finale einer anregenden und vielfältigen Vortragsreihe. Die Links zu den Präsentationen finden Sie weiter unten.

Nachmittags konnten die Teilnehmenden nach einer Einführung selbst die Texterkennungs- und Transkriptionsplattformen Transkribus Lite und eScriptorium ausprobieren.

Wir möchten uns an dieser Stelle noch einmal für die positiven Rückmeldungen und Anregungen bedanken! Auch den Vortragenden, den Teilnehmenden sowie allen, die uns bei der Ausrichtung des Workshops unterstützt haben, gilt unser herzlicher Dank!

Das OCR-BW-Team aus Tübingen und Mannheim.

Links zu den Präsentationen des Workshops:

Einleitung durch die Projektpartner:

Vorträge:

Einführung in die Transkriptionsplattform eScriptorium

Am Freitag den, 25.03.2022 um 11 Uhr findet eine kleine Einführung in die Arbeit mit der Transkriptionsplattform eScriptorium statt. Falls Sie gerne teilnehmen würden, senden Sie uns einfach eine Mail an larissa.will(at)uni-mannheim.de. Anschließend erhalten Sie einen Link zum virtuellen Veranstaltungsraum.

Wir freuen uns Ihnen eScriptorium in kleinem Rahmen vorführen und Ihre Fragen dazu beantworten zu können.

Jahresrückblick 2021

Das Team von OCR-BW ist mit dem Projektverlauf im letzten Jahr durchaus zufrieden. Zahlreichen Einrichtungen wie der Badischen Landesbibliothek Karlsruhe, dem MARCHIVUM oder der Bibliothèque Nationale et Universitaire de Strasbourg konnte bei der voranschreitenden Digitalisierung und dem Umgang mit Texterkennung unter die Arme gegriffen werden. Auch einzelne Forschende von Universitäten wandten sich wiederholt an das Projektteam sowie auch immer wieder die interessierte Öffentlichkeit.

Im Bereich der Handwritten Text Recognition gab es in den letzten Monaten neue Entwicklungen. Während der Expert Client von Transkribus durch die READ COOP beständig weiterentwickelt wird und aufgrund seiner vielen Funktionalitäten sowie zufriedenstellenden Ergebnisse im Projektzusammenhang für die automatische Handschriftenerkennung auch das Mittel der Wahl bleibt, gibt es vielversprechende Weiter- und Neuentwicklungen, die eine einfachere Handhabung von Transkribus ermöglichen und neue Anwendungsszenarien eröffnen. Mit der Browserversion Transkribus Lite gestaltet sich Handhabung intuitiver und ist zudem auf die Grundfunktionen von Transkribus beschränkt, sodass Gelegenheitsnutzende nicht überfordert werden. Wenn das Material also nicht zu anspruchsvoll ist und die Texterkennung hauptsächlich als Lesehilfe dient wie z. B. bei Transkriptionen im Rahmen von Citizen Science Projekten, stellt Transkribus Lite eine gute Alternative dar. Zudem befindet sich aktuell eine API in Entwicklung, die eine schnellere Verarbeitung von großen Materialmengen hinsichtlich der automatischen Texterkennung ermöglichen soll.

Aber auch bei der Open-Source-Alternative eScriptorium hat sich einiges getan seitdem die UB Mannheim im November letzten Jahres ihre Testinstanz in Betrieb genommen hat. Momentan hat eScriptorium gegenüber Transkribus zwar noch einige Nachteile wie die erschwerte Usability oder die fehlende Möglichkeit zur Aufteilung von Trainingsmaterialien sowie der Beeinflussung von Parametereinstellungen oder Epochenzahl. Dies macht eine Reproduzierbarkeit bzw. Vergleichbarkeit der Ergebnisse der Texterkennung momentan schwierig. Prinzipiell bringt eScriptorium aber auch Vorteile mit sich wie die einfache Weitergabe von trainierten Modellen bzw. die Nachnutzung von Modellen, die in anderen Umgebungen trainiert wurden.

Auch softwaretechnisch hat das Mannheimer Team an eScriptorium gearbeitet. So gibt es jetzt neben der englischen auch eine deutsche Benutzeroberfläche (auch in der lokalen Version), um eventuell vorhandene sprachliche Hürden abzubauen. Mannheimer Entwickler stellen einige Verbesserungen bzw. Korrekturen sowohl für eScriptorium als auch für Kraken auf GitHub bereit (https://github.com/UB-Mannheim/escriptorium). Momentan arbeitet das Team daran, die Usability von eScriptorium weiter zu verbessern. In den letzten Wochen hat das Team bereits Dokumentationen in deutscher Sprache zur Benutzung von eScriptorium, zum Import von Daten aus Transkribus sowie zur lokalen Installation von eScriptorium erstellt.

Sollten Sie Interesse an der Installation bzw. der Nutzung von eScriptorium haben, zögern Sie nicht und wenden Sie sich an Larissa Will unter: larissa.will@bib.uni-mannheim.de.

Neues Jahr – Neue Herausforderungen

Das Projektteam wünscht allen ein frohes neues Jahr! Mit dem Jahr 2021 ist ein ereignisreiches Jahr für das Projekt OCR BW zu Ende gegangen. Welche Meilensteine das Projekt im letzten Jahr verzeichnen konnte, können Sie gerne im Jahresrückblick nachlesen. Das Team ist bereits tatkräftig in das neue Jahr gestartet und arbeitet weiterhin an einer verbesserten Usability von eScriptorium sowie dem Ausbau der OCR-BW-Homepage mit detaillierten Anleitungen zur OCR-Texterkennung.

Falls Interesse an eScriptorium besteht, können wir Ihnen Anleitungen in deutscher Sprache zur Nutzung von eScriptorium, zum Import von Daten aus Transkribus nach eScriptorium sowie zur lokalen Installation von eScriptorium (auch mit deutscher Benutzungsoberfläche) bereitstellen.

Sollten Sie Fragen haben, wenden Sie sich gerne an Larissa Will unter: larissa.will(at)bib.uni-mannheim.de.