Startseite " Veröffentlichungen " Domänenanpassung von BERT für die Zuordnung von Handschrift, Jahrhundert und Region in vormodernen slawischen Texten
2023
Piroska Lendvai, Uwe Reichel, Anna Jouravel, Achim Rabus und Elena Renje
Unsere Studie stellt einen geschichteten Datensatz vor, der aus sechs verschiedenen slawischen Textkörpern zusammengestellt wurde, um sprachübergreifende und diachrone Analysen von slawischen vormodernen Sprachvarianten durchzuführen. Wir demonstrieren die unüberwachte Domänenanpassung und die überwachte Feinabstimmung von BERT auf diesen ressourcenarmen, historischen slawischen Varianten für die Zwecke der Herkunftszuweisung im Hinblick auf drei nachgelagerte Aufgaben: Manuskript-, Jahrhundert- und Kopierbereichsklassifikation. Die Datenerfassung zielt darauf ab, sowohl diachrone als auch regionale Sprachvariationen und -veränderungen zu erfassen: Die Texte wurden im Laufe von etwa einem Jahrtausend geschrieben, enthalten Sprachvarianten vom Hochmittelalter bis zur Frühen Neuzeit und stammen aus einer Vielzahl von geografischen Regionen. Die Mechanismen des Sprachwandels in relativ kleinen Teilen solcher Daten wurden von Slawisten manuell inspiziert, analysiert und typologisiert; unser Beitrag zielt darauf ab, zu untersuchen, inwieweit die BERT-Transformatorarchitektur und die vortrainierten Modelle diesen Prozess unterstützen können. Unter Verwendung dieser Datensätze für die Domänenanpassung konnten wir die zeitliche, geografische und manuskriptuelle Herkunft auf der Ebene der Textausschnitte mit hohen F-Scores zuordnen. Wir haben auch eine qualitative Analyse der Fehlklassifikationen der Modelle durchgeführt.