Schlagwort-Archive: Tesseract

Aufsatz zum Projekt „Mannheims historische Zeitungen online“

Passend zum Vortrag beim 3. OCR-BW-Workshop von Eric Veyel und Rainer Gräbeldinger (MARCHIVUM) über das Projekt „Mannheims historische Zeitungen online“ finden Sie in der 42. Ausgabe der Mannheimer Geschichtsblätter einen spannenden Artikel dazu.

Dr. Harald Stockert und Eric Veyel berichten hierbei über das Vorgehen von der Digitalisierung bis zur Online-Präsentation von insgesamt 300 Zeitungsbänden mit über 350.000 Einzelseiten. Das MARCHIVUM war schon vor der Pandemie Vorreiter in Sachen Digitalisierung, und von einer kleinen Ein-Personen-Scanstation im Haus entwickelte sich die Abteilung zu einem Digitalisierungszentrum mit hoher Expertise und entsprechender Ausstattung. Das MARCHIVUM leistet so einen wichtigen Beitrag zur Erforschung und Aufarbeitung der Mannheimer Stadtgeschichte. Auch weiterhin sollen nach und nach historische Druckerzeugnisse auf dem Portal veröffentlicht werden, wie beispielsweise Theaterzettel des Mannheimer Nationaltheaters, aber auch weitere Zeitungen.

Das Projektteam von OCR-BW freut sich, durch die die bisherige sowie zukünftige Beratung sowie die Bereitstellung von Frakturmodellen Teil dieses erfolgreichen Projekts zu sein!

Stockert, Harald/Eric Veyel, Dank Corona-Förderung: Das Projekt „Mannheims historische Zeitungen online‟, in: Mannheimer Geschichtsblätter 42 (2022), S. 111-116.

OCR-BW auf dem Südwestdeutschen Archivtag am 20.05.2022

Dieses Jahr ist OCR-BW auf dem 81. Südwestdeutschen Archivtag in Reutlingen vertreten. Die Veranstaltung widmet sich den Herausforderungen, mit denen Archive im digitalen Zeitalter konfrontiert sind.

Passend dazu steht Ihnen das Team von OCR-BW auf der dazugehörigen Fachmesse am 20.05.2022 in der Reutlinger Stadthalle für alle Fragen rund um die Anwendung von Texterkennungs- und Transkriptionssoftware zur Verfügung. Weitere Informationen zur Veranstaltung finden Sie unter: https://www.landesarchiv-bw.de/de/aktuelles/termine/73866.

Wir freuen uns, nach der Pandemie endlich wieder persönlich mit Ihnen ins Gespräch zu kommen!

Hinweise zur OCR von Fraktur und dem richtigen Scannen

Das Projektteam erreichen in den letzten Wochen immer wieder Anfragen bzgl. der Texterkennung von Frakturschrift. Dies ist nicht verwunderlich, so war Fraktur doch Mitte des 16. bis Anfang des 20. Jahrhunderts die meistverwendete Schrift für Drucke im deutschsprachigen Raum. Sie finden deshalb nun ab sofort Hinweise zur Texterkennung von Fraktur und Hinweise zum richtigen Scannen von Dokumenten auf unserer Homepage.

Sollten dennoch Fragen offenbleiben, kann das Projektteam jederzeit kontaktiert werden.

Ansprechpartnerin: Larissa Will (larissa.will(at)bib.uni-mannheim.de)

Präsentationen des 2. Workshops von OCR-BW

Mit rund 35 Teilnehmenden war auch der zweite Workshop von OCR-BW gut besucht. Mit der Veröffentlichung der Vortragsfolien möchten wir allen Teilnehmern und Interessierten die Möglichkeit geben, sich in Ruhe mit den präsentierten Inhalten auseinanderzusetzen.

Zu Beginn des Workshops stellten die UB Mannheim und die UB Tübingen die Projektergebnisse aus den letzten beiden Jahren vor.

Darauf folgten vier vertiefende Vorträge:

Die Präsentation Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm ist ein Bericht über Ergebnisse aus dem Referendariatspraktikum von Fabian Voigtschild und Maria Nüchter an der UB Mannheim. Im Fokus stehen das Potenzial und die Einsatzmöglichkeiten von werksspezifischem Training für historische Drucke.

Neue Modelle dank GT-Aufwertung und Anreicherung von Jan Kamlah (Universitätsbibiothek Mannheim) präsentiert die Ergebnisse von neuen Tesseractmodellen für Fraktur- und historische Antiquaschriften und zeigt den Nutzen von Aufwertung und Anreicherung von bestehenden GT-Datensätzen auf.

Der Vortrag von Benjamin Rosemann und Elisabeth Klindworth vom Landesarchiv Stuttgart zu OCR im Archiv – Ein Blick in das FDMLab@LABW ist ein Werkstattbericht über die aktuellen Ergebnissen aus dem FDMLab Projekt.

Im Vortrag von Dorothee Huff (Universitätsbibliothek Tübingen) mit dem Titel Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus geht es um das Training von werksspezifischen Modellen für juristische Konzilien (1602–1883) und wie gut schon geeignete Basismodell abschneiden.

Bei den drei Hands-on-Workshops stellte Jan Kamlah die graphische Oberfläche TesseractXplore für Tesseract vor. Stefan Weil zeigte, wie man mit einfachen Mitteln Volltexte für PDF-Dateien der Danziger Volksstimme und ihrer Vorgängerzeitung Volkswacht Danzig erzeugen kann, und Dorothee Huff demonstrierte in ihrem Workshop Funktionalitäten für Fortgeschritte von Transkribus.

Wir bedanken uns ganz herzlich bei den Referentinnen und Referenten für ihre Vorträge. Dank auch allen Teilnehmenden für ihr Dabeisein und das rege Interesse an den Themen.

Für Ihre weiteren Fragen stehen wir Ihnen natürlich gerne persönlich zur Verfügung.

Links zu den Präsentationen

Projektvorstellungen:
UB Mannheim
UB Tübingen

Vorträge:
Werksspezifisches Training für ein historisches Werk am Beispiel der Weisthümer von Jacob Grimm (Fabian Voigtschild und Maria Nüchter)
Neue Modelle dank GT-Aufwertung und Anreicherung (Jan Kamlah)
OCR im Archiv – Ein Blick in das FDMLab@LABW (Benjamin Rosemann, Elisabeth Klindworth)
Stangenware oder Maßanzug? Automatische Texterkennung von Handschriften mit spezialisierten und generischen Modellen in Transkribus (Dorothee Huff)

Hands-on-Workshops:
TesseractXplore (Jan Kamlah)
Volltexte für PDF-Dateien anhand der Volkswacht Danzig (Stefan Weil)
Advanced Funktionen von Transkribus (Dorothee Huff)

Aktueller Stand OCR in Baden-Württemberg

Am 16. Oktober 2020 haben die baden-württembergisches Landes- und Universitätsbibliotheken in einem OCR-Workshop zum Thema „Dokumentenerbe digital – Digitalisierung historischer Bestände baden-württembergischer Bibliotheken“ diskutiert. In verschiedenen Vorträgen wurden die jeweiligen Bemühungen auf dem Feld der automatischen Handschriften- und Druckerkennung vorgestellt und Erfahrungen ausgetauscht. Auch das OCR-BW-Projektteam hat in diesem Rahmen über die bisherigen Projektergebnisse informiert.

Die UB Mannheim stellte die Texterkennung von historischen Drucken mit OCR-D und Tesseract mithilfe des dort entwickelten generischen Modells für historische Schriftarten „GT4HistOCR“ sowie dessen Workflow-Einbindung vor. Dank der Mitwirkung der UB Mannheim sowohl an OCR-D als auch an OCR-BW werden Synergien zwischen beiden Projekten genutzt. Die UB Tübingen zeigte zwei unterschiedliche Herangehensweisen für die Entwicklung von Texterkennungsmodellen mit Transkribus und veranschaulichte, wie sich am effizientesten bestmögliche Ergebnisse erzielen lassen. Ein weiteres Thema war die Problematik der noch nicht normierten Transkriptionsrichtlinien für Handschriften.

In weiteren Vorträgen wurden OCR-Projekte der Uni/UB Heidelberg vorgestellt. Den Einstieg machte Jochen Barth mit einem Bericht zum aktuellen Stand der OCR-Aktivitäten an der UB Heidelberg. In ihrem Beitrag „Naval Kishore Press – digital: Texterkennung südasiatischer Schriften mit Transkribus“ berichtete Nicole Merkel-Hilf über ihre mehrjährigen Erfahrungen bezüglich der Volltexterzeugung für Druckwerke in der Devanagari-Schrift als Teilprojekt des FID Asien sowie die geplante Ausweitung auf andere südasiatische Schriften. Jakub Šimek stellte mit „eScriptorium: Erste Versuche und mutmaßliche Perspektiven“ eine Open-Source-Alternative zu Transkribus vor und berichtete über erste Erfahrungen. Im letzten Vortrag des Tages informierte Matthias Arnold zum Thema „Layouterkennung und Seitensegmentierung als Vorstufe zur Volltexterschließung – Early Chinese Periodicals Online“ über die Herausforderungen, die die chinesische Schrift an die automatische Layouterkennung stellt. Abschließend wurde in der Runde über weitere Pläne und Aktivitäten an baden-württembergischen Bibliotheken gesprochen und Kooperationsmöglichkeiten überlegt.

Links zu den Präsentationen
Texterkennung von historischen Drucken mit OCR-D und Tesseract: urn:nbn:de:bsz:180-madoc-574249
Texterkennung von Handschriften mit Transkribus: https://doi.org/10.5281/zenodo.4106571

1. Workshop zu OCR und Handschriftenerkennung an der UB Tübingen

Am 19. Februar 2020 richtete die UB Tübingen den ersten Workshop des Projekts OCR-BW aus. Nachdem das Projekt 2019 gestartet war, stellte sich schnell heraus, dass im Bereich OCR und HTR starkes Interesse sowohl von Seiten der Wissenschaft wie auch von anderen Gedächtnisinstitutionen besteht. Dementsprechend war auch der Workshop mit etwa 50 Teilnehmerinnen und Teilnehmern aus dem ganzen Bundesland sehr gut besucht. Es wurde deutlich, dass OCR/HTR kein Thema ist, das nur für Geisteswissenschaften Relevanz hat. Auch aus vielen anderen Fachdisziplinen kamen Interessierte, die vor dem Problem stehen, gedruckte oder handschriftliche Materialien für verschiedene Fragestellungen maschinell verarbeiten zu müssen. Die Spannbreite reicht hier vom mittelalterlichen Manuskript über maschinengeschriebene Katalogkarten bis hin zu einer aktuellen Textedition mit Sonderzeichen.

Im Rahmen des Workshops wurden Tesseract und Transkribus vorgestellt und mögliche Einsatzgebiete gezeigt. Die diskutierten Beispiele verdeutlichten den technischen Fortschritt und zeigten, dass für verschiedene Quellengattungen bereits sehr gute Ergebnisse möglich sind. Bei aller eigener Begeisterung musste jedoch auch betont werden, dass die Ergebnisse zwar überzeugend sind, aber das Verhältnis von notwendigem Aufwand zum erzielten Ergebnis nicht außer Acht gelassen werden sollte. Das Projektteam steht nun vor der Aufgabe, die Anregungen der Teilnehmerinnen und Teilnehmer in die weitere Projektarbeit und Entwicklung des Kompetenzzentrums miteinzubeziehen sowie einen Modus zu finden, wie die Wissenschaft und andere Gedächtniseinrichtungen im Bereich der automatischen Volltexterkennung bestmöglich mit den zur Verfügung stehenden Ressourcen unterstützt werden können. Wir bedanken uns für die vielen positiven Rückmeldungen und freuen uns über weitere Anregungen!

Das OCR-BW Projektteam der UB Mannheim und UB Tübingen (Foto: A. Rempfer)