Projekte | OCR-BW

OCR-BW (2019–2022)
Das Projekt OCR-BW unterstützte von 2019 bis 2022 Bibliotheken und Archive in Baden-Württemberg dabei, einen zeitgemäßen Zugang zu Kulturgut durch Volltexte und Transkriptionen von Digitalisaten zu schaffen. Ziel war es, diese Inhalte für datenwissenschaftliche Anwendungen nutzbar zu machen. Das Projekt fungierte als zentrale Anlaufstelle für Fragen zur Texterkennung und erweiterte die eingesetzte Software kontinuierlich.
Die Universitätsbibliothek Mannheim legte den Fokus auf eine systemunabhängige und nutzerfreundliche Lösung zur Volltexterkennung bei Druckwerken. Mithilfe von OCR (Optical Character Recognition) wurden bildbasierte Textinhalte in durchsuchbare, kopierbare und weiterverwertbare digitale Formate überführt – ein Schritt, der besonders in öffentlichen Einrichtungen bisher selten umgesetzt wurde.
Die Universitätsbibliothek Tübingen konzentrierte sich auf die Möglichkeiten automatisierter Texterkennung und Transkription bei handschriftlichen Dokumenten. Im Mittelpunkt stand die Evaluierung und Erweiterung des Tools „Transkribus“ mit eigenen Datensätzen.>
Seit dem Projektabschluss im Jahr 2022 wird die Arbeit im Kompetenzzentrum OCR fortgeführt, das gemeinsam von den Universitätsbibliotheken Mannheim und Tübingen betrieben wird. Das Zentrum steht weiterhin als Ansprechpartner zur Verfügung, entwickelt Anwendungen weiter und stärkt die OCR-Kompetenz im bibliothekarischen und archivischen Umfeld.

Unterstützt wird das Projekt auf Seiten der Universitätsbibliothek Mannheim durch folgende Projekte:

TransforMA (KI, Data Literacy, OCR) | Laufzeit 2023 bis 2027
Das Forschungsdatenzentrum der UB Mannheim ist am Projekt TransforMA im Teilprojekt 3 „Technologie“ beteiligt. In diesem Projektteil wird insbesondere die Expertise im Bereich KI und Forschungsdatenmanagement eingebracht.
Durch die Erstellung von Datenbanken und Chatbots soll die Technologie- und Wissenssuche für die Technische Hochschule Mannheim und die Universität Mannheim erleichtert und damit ein niedrigschwelliger Zugang zu vorhandenem Wissen und Technologien an beiden Hochschulen ermöglicht werden.

Business and Economic Research Data Center (BERD@NFDI) | Laufzeit 2021–2026
BERD@NFDI zielt auf die Entwicklung und Verbreitung transparenter, offener und innovativer Standards und Werkzeuge für die Verwaltung unstrukturierter („großer“) Daten (Big Data) und deren Kombination und Verknüpfung mit strukturierten Daten in den Wirtschaftswissenschaften und verwandten Forschungsbereichen. BERD@NFDI bildet ein Konsortium von Partnern aus der Betriebs- und Volkswirtschaftslehre und verwandten Bereichen, das Fachwissen aus Forschung und Infrastruktur zusammenführt. Dieses Netzwerk soll einen Beitrag zur Nationalen Forschungsdateninfrastruktur (NFDI) leisten.

Assoziierte Projekte

OCR-D: Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung | Laufzeit 2021–2023
Das Vorhaben strebt eine Integration von OCR-D in Kitodo an. OCR-D wird damit für den verteilten Betrieb auf einem Web-Server nutzbar und Volltexte können im DFG-Viewer dargestellt werden. Projektpartner sind die SLUB Dresden und die Universitätsbibliothek Braunschweig.

OCR-D: Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung | Laufzeit 2021–2023
Ziel dieses Projektes ist, dass Einrichtungen (zum Beispiel Bibliotheken) möglichst einfach die Module des OCR-D-Workflows nachtrainieren können, so dass bessere Erkennungsraten für spezifische Werke erreicht werden können.

Optimierter Einsatz von OCR-Verfahren – Tesseract als Komponente im OCR-D-Workflow | Laufzeit 2018–2019
Die Universitätsbibliothek beteiligt sich am „OCR-D Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR)” der Deutschen Forschungsgemeinschaft. Unser Projekt fokussiert sich dabei auf die freie Texterkennungs-Software Tesseract.