Die Universitätsbibliothek Tübingen rückt die Plattform Transkribus in den Fokus und wird diese intensiv evaluieren. Dabei soll geklärt werden, für welche Text- und Schriftarten Transkribus für die geisteswissenschaftliche Community nachnutzbar ist. Neben der Evaluierung von Texterkennungsmöglichkeiten und mit den entsprechenden Tools soll es auch erste Versuche in der Textstrukturerkennung und -auszeichnung geben.
Handschriftliche Quellen werden zunehmend durch Digitalisate zugänglich gemacht. So bietet die Universitätsbibliothek Tübingen etwa 2 000 000 Seiten online an. Die vorliegenden Bilddateien müssen jedoch weiterverarbeitet werden, um einen Volltext zu erzeugen, der eine Stichwortsuche oder eine Suche durch Suchmaschinen und die Nutzung von Methoden der datengetriebenen Forschung (Data Science, Digital Humanities) ermöglicht.
Dazu wird Transkribus an ausgewählten Beständen getestet, die einerseits typisch für die Sammlungen von Einrichtungen mit Altbestand sind und somit exemplarische bzw. übertragbare Ergebnisse liefern können und andererseits unterschiedliche Anforderungen an die Software stellen. Zunächst wird eine Layoutanalyse über das Dokument laufen gelassen, die Textregionen und Zeilen als Grundlage für die HTR (Handwritten Text Recognition) erkennt und auszeichnet. Anschließend werden auf der Grundlage dieses Layouts für jeden Schreiber etwa 100 Seiten Ground-Truth-Daten angefertigt, anhand derer die Software auf diese Schrift trainiert wird. Die so erstellten Modelle werden auf das restliche Textkonvolut der jeweiligen Handschrift angewendet. Anschließend finden mehrere Korrekturläufe statt, um eine akzeptable Volltextsuche mit einer maximalen Fehlerrate von ca. 5 % zu ermöglichen. Die angewandten Erfassungsregeln und die Transkription von z.B. Sonderzeichen werden dokumentiert. Damit bleiben die Arbeitsschritte nachvollziehbar und transparent. Dieses Verfahren soll für lateinische und nichtlateinische Schriften aus verschiedenen Epochen erprobt werden.
Vorgesehene Quellen:
- Tagebücher der Tendaguru-Expedition des Tübinger Geologen und Paläontologen Edwin Hennig (1909-1911): UAT 407/80, UAT 407/81, UAT 407/82
- Tagebücher des Tübinger Altphilologen Martin Crusius (1573-1605)
- Altgriechische Predigtmitschriften von Martin Crusius (1563-1604)
- Juristische Konsilien (1602-1879): UAT 84/13
- Senatsprotokolle (1524-1912): UAT 47/28
- ausgewählte Inkunabeln
- ausgewählte mittelalterliche Handschriften
- vermischtes, loses Schriftgut (Archivalien des 19./20. Jahrhunderts)
- Nachlass Friedrich Theodor Vischer (1807-1887)