Schlagwort-Archive: Fraktur

Modellübertragung von Transkribus nach eScriptorium

Für all diejenigen, die momentan Transkribus nutzen, kann ein Vergleich mit der Open-Source-Alternative eScriptorium interessant sein. Transkribus gestattet zwar keine direkte Übertragung Ihrer darin trainierten Modelle, jedoch kann die Ground Truth, also die in Transkribus erstellte Transkription und die dazugehörigen Bilder, aus Transkribus exportiert und in eScriptorium importiert werden. Anschließend können Sie ein Modell in eScriptorium trainieren. eScriptorium ermöglicht Ihnen die einfache Weitergabe des trainierten Kraken-Modells. Sie finden die dazugehörige Anleitung auf der GitHub-Seite der UB Mannheim. Für Hinweise und Verbesserungsvorschläge sind wir immer dankbar.

Wenn Sie Fragen zu eScriptorium haben oder es selbst gerne ausprobieren möchten, dann wenden Sie sich an uns.

Ansprechpartnerin: Larissa Will, E-Mail: larissa.will(at)uni-mannheim.de

eScriptorium im Produktionsbetrieb

Inzwischen ist unser eScriptorium über die URL https://ocr-bw.bib.uni-mannheim.de/escriptorium/ erreichbar. Die neue Instanz läuft auf einem leistungsfähigen Server mit GPU-Unterstützung, was die Geschwindigkeit von Segmentierung, automatisierter Texterkennung und Modelltraining deutlich erhöht. Der produktiven Nutzung von eScriptorium steht somit nichts mehr im Weg.

Für die Erkennung von Frakturschrift des 19. Jahrhunderts haben wir mit Hilfe des Datensatzes „Austrian Newspapers“ ein Modell für die OCR-Software Kraken trainiert. Auf Basis dieses Frakturschriftmodells führten wir innerhalb von eScriptorium diverse Nachtrainings mit unterschiedlichen historischen Dokumenten der Universitätsbibliothek Tübingen durch. Eines der so erzeugten Modelle erzielt mit einer Zeichenerkennungsrate von 99,9 % (11 Fehler auf 9567 Zeichen) ein außerordentlich gutes Ergebnis. Auch die anderen Modelle erzielen mit Genauigkeiten von über 92 % sehr ordentliche Ergebnisse.

Sollten Sie Fragen oder Interesse an der Nutzung von eScriptorium haben, wenden Sie sich an Larissa Will unter: larissa.will(at)uni-mannheim.de.

Hinweise zur OCR von Fraktur und dem richtigen Scannen

Das Projektteam erreichen in den letzten Wochen immer wieder Anfragen bzgl. der Texterkennung von Frakturschrift. Dies ist nicht verwunderlich, so war Fraktur doch Mitte des 16. bis Anfang des 20. Jahrhunderts die meistverwendete Schrift für Drucke im deutschsprachigen Raum. Sie finden deshalb nun ab sofort Hinweise zur Texterkennung von Fraktur und Hinweise zum richtigen Scannen von Dokumenten auf unserer Homepage.

Sollten dennoch Fragen offenbleiben, kann das Projektteam jederzeit kontaktiert werden.

Ansprechpartnerin: Larissa Will (larissa.will(at)bib.uni-mannheim.de)