Startseite " Veröffentlichungen " Ein Workflow zur HTR-Nachbearbeitung, Kennzeichnung und Klassifizierung diachroner und regionaler Variation in vormodernen slawischen Texten
2024
Piroska Lendvai, Maarten van Gom- pel, Anna Jouravel, Elena Renje, Uwe Reichel, Achim Rabus, und Eckhart Arnold
Wir beschreiben laufende Arbeiten zur Entwicklung eines Arbeitsablaufs für den Anwendungsfall der Klassifizierung diachroner und regionaler Sprachvariation in vormodernen slawischen Texten. Die Daten wurden mittels handschriftlicher Texterkennung (HTR) auf mittelalterlichen Manuskripten und Drucken und teilweise durch manuelle Transkription gewonnen. Unser Ziel ist es, einen Workflow für solche historischen Sprachdaten zu entwickeln, der die HTR-Nachbearbeitung, Annotation und Klassifizierung der digitalisierten Texte umfasst. Wir testen und passen bestehende Sprachressourcen an, um die Pipeline mit niedrigschwelligen Werkzeugen auszustatten, die auch für Geisteswissenschaftler mit begrenzter Erfahrung in Forschungsdateninfrastrukturen, computergestützter Analyse oder fortgeschrittenen Methoden der natürlichen Sprachverarbeitung (NLP) zugänglich sind. Der Arbeitsablauf beginnt mit der Erstellung von Ground-Truth-Daten (GT) zur Diagnose und Korrektur von HTR-Fehlern mittels String-Metriken und datengesteuerten Methoden. Auf der Grundlage von GT- und HTR-Daten zeigen wir anschließend Klassifizierungsergebnisse mit Hilfe von Transfer-Lernen für Textausschnitte auf Satzebene. Als nächstes berichten wir über unsere Bemühungen zur Kennzeichnung von Daten auf Token-Ebene. Jeder Schritt des Arbeitsablaufs wird durch die Beschreibung aktueller Einschränkungen und unserer entsprechenden laufenden Arbeiten ergänzt.