Archiv der Kategorie: News

eScriptorium im Produktionsbetrieb

Inzwischen ist unser eScriptorium über die URL https://ocr-bw.bib.uni-mannheim.de/escriptorium/ erreichbar. Die neue Instanz läuft auf einem leistungsfähigen Server mit GPU-Unterstützung, was die Geschwindigkeit von Segmentierung, automatisierter Texterkennung und Modelltraining deutlich erhöht. Der produktiven Nutzung von eScriptorium steht somit nichts mehr im Weg.

Für die Erkennung von Frakturschrift des 19. Jahrhunderts haben wir mit Hilfe des Datensatzes „Austrian Newspapers“ ein Modell für die OCR-Software Kraken trainiert. Auf Basis dieses Frakturschriftmodells führten wir innerhalb von eScriptorium diverse Nachtrainings mit unterschiedlichen historischen Dokumenten der Universitätsbibliothek Tübingen durch. Eines der so erzeugten Modelle erzielt mit einer Zeichenerkennungsrate von 99,9 % (11 Fehler auf 9567 Zeichen) ein außerordentlich gutes Ergebnis. Auch die anderen Modelle erzielen mit Genauigkeiten von über 92 % sehr ordentliche Ergebnisse.

Sollten Sie Fragen oder Interesse an der Nutzung von eScriptorium haben, wenden Sie sich an Larissa Will unter: larissa.will(at)uni-mannheim.de.

Neues Jahr – Neue Herausforderungen

Das Projektteam wünscht allen ein frohes neues Jahr! Mit dem Jahr 2021 ist ein ereignisreiches Jahr für das Projekt OCR BW zu Ende gegangen. Welche Meilensteine das Projekt im letzten Jahr verzeichnen konnte, können Sie gerne im Jahresrückblick nachlesen. Das Team ist bereits tatkräftig in das neue Jahr gestartet und arbeitet weiterhin an einer verbesserten Usability von eScriptorium sowie dem Ausbau der OCR-BW-Homepage mit detaillierten Anleitungen zur OCR-Texterkennung.

Falls Interesse an eScriptorium besteht, können wir Ihnen Anleitungen in deutscher Sprache zur Nutzung von eScriptorium, zum Import von Daten aus Transkribus nach eScriptorium sowie zur lokalen Installation von eScriptorium (auch mit deutscher Benutzungsoberfläche) bereitstellen.

Sollten Sie Fragen haben, wenden Sie sich gerne an Larissa Will unter: larissa.will(at)bib.uni-mannheim.de.

Hinweise zur OCR von Fraktur und dem richtigen Scannen

Das Projektteam erreichen in den letzten Wochen immer wieder Anfragen bzgl. der Texterkennung von Frakturschrift. Dies ist nicht verwunderlich, so war Fraktur doch Mitte des 16. bis Anfang des 20. Jahrhunderts die meistverwendete Schrift für Drucke im deutschsprachigen Raum. Sie finden deshalb nun ab sofort Hinweise zur Texterkennung von Fraktur und Hinweise zum richtigen Scannen von Dokumenten auf unserer Homepage.

Sollten dennoch Fragen offenbleiben, kann das Projektteam jederzeit kontaktiert werden.

Ansprechpartnerin: Larissa Will (larissa.will(at)bib.uni-mannheim.de)

Digitalisierte Druckschriften zur Mannheimer Stadtgeschichte

Volltextsuche nach „Schloßbibliothek“

Das Mannheimer Stadtarchiv MARCHIVUM hat sich selbst und allen, die sich für die Mannheimer Geschichte interessieren, ein vorgezogenes Weihnachtsgeschenk gemacht und ausgewählte digitalisierte Druckschriften online gestellt. Schwerpunkt sind dabei Mannheimer Zeitungen. Dank der im Rahmen von OCR-BW an der Universitätsbibliothek Mannheim erstellten Volltexte lassen sich diese Zeitungen systematisch nach interessanten Schlagworten durchsuchen.

Hinter den verschlossenen Türen des Senats der Universität Tübingen…

…geht es spannender zu, als man meine könnte: ein unwürdiger Zeichenlehrer (19r), Disziplinarmaßnahmen gegen Studenten (110r) und nicht zu vergessen der Skandal um die Antrittsrede des V-Vischers (107v). 

In dem jetzt mit Volltext zugänglich gemachten Band der Senatsprotokolle (Signatur UAT 47/28) mit der Laufzeit 1844-1847 befinden wir uns in einer Zeit, in der sich die Universität in ihrer heutigen Form herausbildete und begegnen vielen Personen, deren Nachnamen noch heute auf Straßenschildern in Tübingen zu finden sind. Der Wirkungskreis des Senats war zu damaliger Zeit deutlich weiter als heute und beinhaltete neben den üblichen administrativen Aufgaben wie die Neubesetzung von Professorenstellen, die Vergabe von Stipendien und Anträge auf Benutzung der Bibliothek z.B. auch Befugnisse der Gerichtsbarkeit, Patronatsrechte und Armenfürsorge.

Auf Grundlage von 214 Seiten Ground-Truth-Daten aus sieben Bänden des Zeitraums 1799-1847 wurde in Transkribus ein Texterkennungsmodell entwickelt, das im Durchschnitt eine Character Error Rate von 4,60 % erzielt. Das Material wurde nach Kriterien wie Schreibzeitraum und enthaltende Schreiberhände möglichst repräsentativ ausgewählt. Dieses Modell wurde auf die Seiten des Protokollbands angewandt und der erzeugte Text in die Präsentation des Tübinger OpenDigi integriert.

Testbetrieb der Transkriptionsplattform eScriptorium

Die zweite Projektphase läuft bereits auf Hochtouren. Seit Anfang November testen wir die Open-Source-Transkriptions-Plattform eScriptorium als mögliche Alternative zu Transkribus bezüglich der Texterkennung von Handschriften. eScriptorium ist Teil des französischen scripta-Projektes (https://www.psl.eu/en/scripta) und basiert technisch u. a. auf der OCR-Lösung kraken (http://kraken.re/). Gegenüber dem teilweise kostenpflichtigen Transkribus bietet eScriptorium interessante neue Möglichkeiten wie die freie Weitergabe von trainierten Modellen. Das Projektteam hat bereits zwei Modelle auf Basis historischer Dokumente der UB Tübingen trainiert. Um eScriptorium einem breiten Anwenderkreis näher zu bringen, wird bereits tatkräftig an einer benutzerfreundlichen Anleitung gearbeitet.

Tagebucheintrag von Martin Crusius

Falls Sie Interesse an der Nutzung von eScriptorium haben, können Sie sich gerne an uns wenden. Wir freuen uns auf Ihre Anfragen an Larissa Will unter der Mailadresse: larissa.will(at)bib.uni-mannheim.de.

Verstärkung des Projektteams

Seit dem 1. Oktober wird das OCR-BW Team an der Universitätsbibliothek Mannheim durch eine neue Mitarbeiterin ergänzt. Larissa Will wird hauptsächlich in den Bereichen Projektorganisation, Schulungen und Betreuung der interessierten Institutionen sowie der Wissenschaftlerinnen und Wissenschaftler tätig sein. Der Ausbau und Erhalt des Unterstützungsangebots werden daher maßgeblich zu ihren Aufgaben gehören.

Die ehemalige Studentin der Universität Mannheim freut sich, den Ausbau des Kompetenzzentrums in der zweiten Projektphase zu unterstützen.

Badische Landtagsprotokolle im Volltext durchsuchbar

Die Badische Landesbibliothek hat jetzt über 600 Bände historische Landtagsprotokolle um Volltext ergänzt. Damit können Interessierte die gesuchte Information durch eine einfache Online-Suche finden. Die Projektpartner von OCR-BW unterstützen die Badische Landesbibliothek beim gesamten Prozess zur Erstellung der Volltexte (OCR). Zum Einsatz kam auch das an der Universitätsbibliothek Mannheim trainierte Frakturmodell für die Open-Source-OCR-Software Tesseract. Näheres dazu im Bericht der BLB.

Präsentationen des 2. Workshops von OCR-BW

Mit rund 35 Teilnehmenden war auch der zweite Workshop von OCR-BW gut besucht. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Zu Beginn des Workshops stellten die UB Mannheim und die UB Tübingen die Projektergebnisse aus den letzten beiden Jahren vor.

Darauf folgten vier vertiefende Vorträge:

Die Präsentation Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm ist ein Bericht über Ergebnisse aus dem Referendariatspraktikum von Fabian Voigtschild und Maria Nüchter an der UB Mannheim. Im Fokus stehen das Potenzial und die Einsatzmöglichkeiten von werksspezifischem Training für historische Drucke.

Neue Modelle dank GT-Aufwertung und Anreicherung von Jan Kamlah (Universitätsbibiothek Mannheim) präsentiert die Ergebnisse von neuen Tesseractmodellen für Fraktur- und historische Antiquaschriften und zeigt den Nutzen von Aufwertung und Anreicherung von bestehenden GT-Datensätzen auf.

Der Vortrag von Benjamin Rosemann und Elisabeth Klindworth vom Landesarchiv Stuttgart zu OCR im Archiv – Ein Blick in das FDMLab@LABW ist ein Werkstattbericht über die aktuellen Ergebnissen aus dem FDMLab Projekt.

Im Vortrag von Dorothee Huff (Universitätsbibliothek Tübingen) mit dem Titel Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus geht es um das Training von werksspezifischen Modellen für juristische Konzilien (1602–1883) und wie gut schon geeignete Basismodell abschneiden.

Bei den drei Hands-on-Workshops stellte Jan Kamlah die graphische Oberfläche TesseractXplore für Tesseract vor. Stefan Weil zeigte, wie man mit einfachen Mitteln Volltexte für PDF-Dateien der Danziger Volksstimme und ihrer Vorgängerzeitung Volkswacht Danzig erzeugen kann, und Dorothee Huff demonstrierte in ihrem Workshop Funktionalitäten für Fortgeschritte von Transkribus.

Wir bedanken uns ganz herzlich bei den Referentinnen und Referenten für ihre Vorträge. Dank auch allen Teilnehmenden für ihr Dabeisein und das rege Interesse an den Themen.

Für Ihre weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen

Projektvorstellungen:
UB Mannheim
UB Tübingen

Vorträge:
Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm (Fabian Voigtschild und Maria Nüchter)
Neue Modelle dank GT-Aufwertung und Anreicherung (Jan Kamlah)
OCR im Archiv – Ein Blick in das FDMLab@LABW (Benjamin Rosemann, Elisabeth Klindworth)
Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus (Dorothee Huff)

Hands-on-Workshops:
TesseractXplore (Jan Kamlah)
Volltexte für PDF-Dateien anhand der Volkswacht Danzig (Stefan Weil)
Advanced Funktionen von Transkribus (Dorothee Huff)

2. OCR-BW-Workshop

Wir möchten Sie herzlich zum zweiten Workshop am 9. Juni 2021 einladen. Der Workshop richtet sich an Anwender und Interessierte zum Thema „Texterkennung von Handschriften und Druckwerken“ und legt den Fokus auf die Softwareprogramme Tesseract und Transkribus.

Viele Einrichtungen und Institutionen in Baden-Württemberg digitalisieren bereits ihre historischen Drucke und Handschriften. Damit verbunden ist die Erschließung der Digitalisate durch gute Text-erkennung. Das Projekt OCR-BW unterstützt und berät seit fast zwei Jahren bei der Anwendung aktueller Programme zur Texterkennung. Der Workshop soll die Teilnehmerinnen und Teilnehmer vertieft über das Projekt, aktuelle Forschungen und Programmanwendungen informieren.

Neben der Vorstellung abgeschlossener und zukünftiger Projektaktivitäten umfasst der Workshop verschiedene praxisnahe Vorträge und eine ca. zweistündige Hands-On-Session, wobei Ihnen drei Optionen zur Wahl stehen. Jedem Vortrag folgt eine kurze Diskussionsrunde, in der Fragen zur vorangegangenen Präsentation thematisiert werden können. Eine an die Vorträge anschließende Feedback-Runde bietet darüber hinaus eine Plattform für den Erfahrungsaustausch. In der Hands-On-Session werden Ihnen die Projektmitarbeiterinnen und Projektmitarbeiter die im OCR-BW-Projekt eingesetzten Technologien anhand praktischer Beispiele vorstellen.

Das Programm

Programm_Workshop_2021

Anmeldung und Fragen
Bei Fragen senden Sie bitte bis zum 31.05.2021 eine E-Mail an
Jan Kamlah (jan.kamlah@bib.uni-mannheim.de).