Schlagwort-Archive: Fraktur

Projektende OCR-BW und 1. offene OCR-Sprechstunde

Liebe OCR-Interessierte,

die Förderung für das Projekt OCR-BW durch das Ministerium für Wissenschaft, Forschung und Kunst ist Ende September ausgelaufen und somit ist das Projekt offiziell beendet. Das im Rahmen der Projektarbeit aufgebaute Kompetenzzentrum OCR wird jedoch weiterhin von der UB Mannheim und der UB Tübingen betrieben. Erfreulicherweise stehen Ihnen alle Beteiligten weiterhin beratend zur Verfügung und helfen Ihnen bei Fragen zur automatisierten Texterkennung von Drucken und Handschriften.

Ab Donnerstag, den 10. November, bieten wir von 15.00–16.00 Uhr (zunächst jeden 2. Donnerstag im Monat) eine offene OCR-Sprechstunde via Zoom als zusätzliches Serviceangebot an. In diesem niedrigschwelligen Angebot können Sie ohne vorherige Anmeldung alle Fragen rund um das Thema automatisierte Texterkennung loswerden. Sie können dem Meeting unter folgendem Link beitreten: https://tinyurl.com/ocr-sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071). Sollten Sie Probleme haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).

Nun schauen wir zurück auf eine ereignisreiche Projektlaufzeit mit vielen interessanten Anfragen und immer neuen Herausforderungen. Besonders freut uns, dass einige Kooperationen über das Projektende hinaus bestehen bleiben.

Wir bedanken uns für die Zusammenarbeit und hoffen, dass wir Sie vielleicht bald in unserer OCR-Sprechstunde begrüßen dürfen!

Ihr OCR-BW Team

Modellübertragung von Transkribus nach eScriptorium

Für all diejenigen, die momentan Transkribus nutzen, kann ein Vergleich mit der Open-Source-Alternative eScriptorium interessant sein. Transkribus gestattet zwar keine direkte Übertragung Ihrer darin trainierten Modelle, jedoch kann die Ground Truth, also die in Transkribus erstellte Transkription und die dazugehörigen Bilder, aus Transkribus exportiert und in eScriptorium importiert werden. Anschließend können Sie ein Modell in eScriptorium trainieren. eScriptorium ermöglicht Ihnen die einfache Weitergabe des trainierten Kraken-Modells. Sie finden die dazugehörige Anleitung auf der GitHub-Seite der UB Mannheim. Für Hinweise und Verbesserungsvorschläge sind wir immer dankbar.

Wenn Sie Fragen zu eScriptorium haben oder es selbst gerne ausprobieren möchten, dann wenden Sie sich an uns.

Ansprechpartnerin: Larissa Will, E-Mail: larissa.will(at)uni-mannheim.de

eScriptorium im Produktionsbetrieb

Inzwischen ist unser eScriptorium über die URL https://ocr-bw.bib.uni-mannheim.de/escriptorium/ erreichbar. Die neue Instanz läuft auf einem leistungsfähigen Server mit GPU-Unterstützung, was die Geschwindigkeit von Segmentierung, automatisierter Texterkennung und Modelltraining deutlich erhöht. Der produktiven Nutzung von eScriptorium steht somit nichts mehr im Weg.

Für die Erkennung von Frakturschrift des 19. Jahrhunderts haben wir mit Hilfe des Datensatzes „Austrian Newspapers“ ein Modell für die OCR-Software Kraken trainiert. Auf Basis dieses Frakturschriftmodells führten wir innerhalb von eScriptorium diverse Nachtrainings mit unterschiedlichen historischen Dokumenten der Universitätsbibliothek Tübingen durch. Eines der so erzeugten Modelle erzielt mit einer Zeichenerkennungsrate von 99,9 % (11 Fehler auf 9567 Zeichen) ein außerordentlich gutes Ergebnis. Auch die anderen Modelle erzielen mit Genauigkeiten von über 92 % sehr ordentliche Ergebnisse.

Sollten Sie Fragen oder Interesse an der Nutzung von eScriptorium haben, wenden Sie sich an Larissa Will unter: larissa.will(at)uni-mannheim.de.

Hinweise zur OCR von Fraktur und dem richtigen Scannen

Das Projektteam erreichen in den letzten Wochen immer wieder Anfragen bzgl. der Texterkennung von Frakturschrift. Dies ist nicht verwunderlich, so war Fraktur doch Mitte des 16. bis Anfang des 20. Jahrhunderts die meistverwendete Schrift für Drucke im deutschsprachigen Raum. Sie finden deshalb nun ab sofort Hinweise zur Texterkennung von Fraktur und Hinweise zum richtigen Scannen von Dokumenten auf unserer Homepage.

Sollten dennoch Fragen offenbleiben, kann das Projektteam jederzeit kontaktiert werden.

Ansprechpartnerin: Larissa Will (larissa.will(at)bib.uni-mannheim.de)