Projektübersicht

Volltexte und Transkriptionen von Digitalisaten bieten einen zeitgemäßen, umfassenden Zugang zum Kulturgut und können als Grundlage für Anwendungen im Bereich der Datenwissenschaft oder „Data Science“ dienen. Das OCR-BW-Projekt unterstützt Bibliotheken und Archive in Baden-Württemberg, diese Zugänge zu schaffen, steht als Ansprechpartner bei Fragen bereit und erweitert die eingesetze Software.

Die Universitätsbibliothek Mannheim stellt eine nutzerfreundliche und systemunabhängige Anwendung der Volltexterkennung bei Druckwerken in den Fokus. Bei einer Volltexterkennung oder OCR (Optical Character Recognition) werden textliche Bildinhalte in digitale Textformate übersetzt. Erkannte Texte können durchsucht, kopiert, bearbeitet und für eine Extraktion von Forschungsdaten verwendet werden. In öffentlichen Einrichtungen wird Texterkennungssoftware bisher noch nicht verbreitet eingesetzt. Projektziel ist, den Einsatz zu erleichtern und eine auf freier Software basierende Anwendungslösung bereitzustellen.

Die Universitätsbibliothek Tübingen konzentriert sich auf die Potentiale moderner Software zur automatischen Texterkennung und der Transkription bei Handschriften. Insbesondere das Transkriptionswerkzeug „Transkribus“ wird in diesem Projekt evaluiert und um eigene Datensätze ergänzt.

Volltexterkennung bei Druckwerken

Die Universitätsbibliothek Mannheim verfolgt den Ansatz, mehrere Open-Source-Softwareprodukte aus dem Bereich Texterkennung als nutzerfreundliche und systemunabhängige Anwendung zur Verfügung zu stellen. Hindernisse, die Bibliotheken und Archive davon abhalten, Texterkennungssoftware einzusetzen, können damit abgebaut werden:

  • Zeitaufwand
  • Kosten
  • hohe Systemanforderungen
  • fehlende Nutzerfreundlichkeit

Dazu tragen bei:

Konzeptionieren einer webbasierten Anwendung
(Zeitaufwand ↓, Kosten ↓, hohe Systemanforderungen ↓)

Der Einsatz einer webbasierten Anwendung erspart Zeit, Kosten und hohe Systemanforderungen. Die Installation, die Integration in bestehende Systeme, die Wartung und Einrichtung zusätzlicher Infrastruktur entfallen ganz oder teilweise.

Bereitstellen einer einheitlichen, grafischen Nutzerführung
(Fehlende Nutzerfreundlichkeit ↓)

Softwarelösungen im Bereich Texterkennung werden häufig mitTastaturbefehlen über ein Terminal (CLI) angesprochen und nicht über eine grafische Oberfläche (GUI). Diese oft ungewohnte Bedienung schreckt Nutzer ganz ab oder der Umgang wird auf ein Minimum beschränkt. Zusätzlich überfordern zahlreiche Parameter- und Einstellungsmöglichkeiten die Nutzer. Das hat zur Folge, dass viele Möglichkeiten der Software nicht verwendet werden. Kommen mehrerere Texterkennungsprodukte zum Einsatz, vergrößert sich die Anzahl an Parameter- und Einstellungsmöglichkeiten und unterschiedliche Begrifflichkeiten schaffen Missverständnisse.
Die einheitliche, graphische Nutzerführung, die das Prodkut bereistellen wird, vereinfacht die Anwendung der Software und sorgt für mehr Übersichtlichkeit bei Einstellungs- und Parametermöglichkeiten.

Angebot mehrerer Texterkennungslösungen
(Zeitaufwand ↓)

Je nach Anforderungen kann aus mehreren Softwareprodukten ausgewählt werden, um die unterschiedlichen Stärken zu nutzen. Liefert die bevorzugte Software nicht die gewünschte Qualität, kann in unserer Lösung einfach und ohne zusätzlichen Zeitaufwand eine neue Texterkennungssoftware eingesetzt werden. Neben der Installation, der Integration und der Wartung entfällt auch die Einarbeitungszeit.

Verwendung von freier Software
(Kosten ↓)

Freie Software erspart Anschaffungs- und Nutzungskosten. Die Qualität der ausgewählten Produkte entspricht der gängiger kostenpflichtiger Varianten. Eine aktive öffentliche Community unterstützt diese freien Projekte mit ständigen Optimierungen und Erweiterungen des Programmcodes. Damit ist gewährleistet, dass die eingesetzte Software auch auf längere Sicht aktuell bleibt.

Verwendung von bestehender, externer Infrastruktur
(hohe Systemanforderungen ↓, Kosten ↓)

Wird eine bestehende, externe Infrastruktur genutzt, entfallen die Anschaffungskosten der Hardware, Implementation der Software zum Betreiben der Infrastruktur und die Belastung der eigenen Rechenleistung und Speicherkapazität.

Die wichtigsten Ziele im Überblick
  • Konzeptionierung einer webbasierten Anwendung
  • Bereitstellung einer Anwendung mit einheitlicher, grafischer Nutzerführung
  • Angebot mehrerer Texterkennungslösungen
  • Verwendung von freier Software
  • Verwendung von bestehender, externer Infrastruktur

Transkription bei Handschriften

Handschriften

Die Universitätsbibliothek Tübingen wird die Plattform Transkribus mit ihren Tools für Layoutanalyse und HTR (Handwritten Text Recognition) evaluieren. Es soll untersucht werden, inwieweit bzw. für welche Text-und Schriftarten Transkribus nutzbar ist. Ziel ist, auf Basis dieser Ergebnisse Handlungsempfehlungen für unterschiedliche Bestandsgruppen und Maßgaben zu etablieren.

In den baden-württembergischen Kultur- und Gedächtniseinrichtungen lagern noch viele handschriftliche Textzeugen der vergangenen Jahrhunderte, die bisher in der Forschung kaum Beachtung gefunden haben, da der Zugang für einen Teil der Nutzer aufgrund paläographischer Schwierigkeiten beschränkt ist oder durch ihr schieres Volumen eine händische Transkription mit hohem Zeitaufwand verbunden ist. Um die Verfügbarkeit dieser noch unerschlossenen Quellen für die Forschung und die interessierte Öffentlichkeit zu beschleunigen, gehen die Forschungsansätze hin zur automatischen Texterkennung und –durchsuchbarkeit.

Handschriftliche Quellen stellen die automatische Texterkennung vor eine Vielzahl an Herausforderungen: im Gegensatz zu Drucken weist das Layout oft ein nicht zwangsweise rechteckiges begrenztes Textfeld und gerade Textzeilen auf; die Buchstabenformen und -größen variieren auch bei nur einem Schreiber; der zugrundeliegende Zeichen- und Wortschatz ist nicht einheitlich; ebenso sind die Abstände zwischen Zeichen und Wörtern verschieden. Dazu finden sich in einer Handschrift unterschiedliche Schreiber, Sprachen und Schriftarten.

Die Erstellung eines durchsuchbaren Volltextes dient als Grundlage zur weiteren Verarbeitung und rückt bisher unerschlossene Texte in den Fokus des wissenschaftlichen Interesses. Die erzeugten Daten bieten einen Mehrwert für die Wissenschaft, etwa als Grundlage für historische Forschung und für die Erstellung von Editionen. Die mittels Texterkennung erzeugten Daten können das Original nicht ersetzen, das in seiner Materialität weitere Informationen birgt, jedoch werden durch sie neue Fragestellungen in vielen Disziplinen an die Quellen ermöglicht. Es werden Forschungsdaten generiert, deren Auswertung neue Erkenntnisse ermöglichen. Vor allem bei der Untersuchung und Auswertung großer handschriftlicher Textkorpora ist hier ein erheblicher Zeitgewinn zu erwarten.

Einmal in Transkribus trainierte Handschriften sind für die Volltexterkennung weiterer Digitalisate nachnutzbar und verbessern die Erkennungsqualität von komplexeren Texten bzw. Schriften insgesamt. Die erzeugten Trainingskorpora werden öffentlich zur Verfügung gestellt und können daher bereits von Wissenschaftlern und der interessierten Öffentlichkeit genutzt werden. Bei guten Ergebnissen soll eine Nutzung der Plattform im Rahmen der Schulungsangebote des eScience Centers sowie ein Einsatz in der Lehre der Universität Tübingen stattfinden.