2024

Testen der Korrektheit, Fairness und Robustheit von Modellen zur Erkennung von Sprachemotionen

nna Derington, Hagen Wierstorf, Ali Özkil, Florian Eyben, Felix Burkhardt, und Björn W. Schuller

Modelle des maschinellen Lernens für die Sprach-Emotionserkennung (SER) können für verschiedene Aufgaben trainiert werden und werden in der Regel auf der Grundlage einiger weniger verfügbarer Datensätze pro Aufgabe bewertet. Zu den Aufgaben können Erregung, Valenz, Dominanz, emotionale Kategorien oder Tonfall gehören. Diese Modelle werden hauptsächlich im Hinblick auf die Korrelation oder den Abruf bewertet und weisen immer einige Fehler in ihren Vorhersagen auf. Die Fehler manifestieren sich im Verhalten des Modells, das in verschiedenen Dimensionen sehr unterschiedlich sein kann, selbst wenn das Modell die gleiche Wiedererkennung oder Korrelation erreicht. In diesem Beitrag wird ein Testrahmen zur Untersuchung des Verhaltens von Modellen zur Erkennung von Sprachemotionen vorgestellt, bei dem verschiedene Metriken einen bestimmten Schwellenwert erreichen müssen, um einen Test zu bestehen. Die Testmetriken können in Bezug auf Korrektheit, Fairness und Robustheit gruppiert werden. Es bietet auch eine Methode zur automatischen Festlegung von Testschwellen für Fairness-Tests, basierend auf den verwendeten Datensätzen, und Empfehlungen zur Auswahl der übrigen Testschwellen. Wir haben ein xLSTM-basiertes und neun Transformer-basierte akustische Basismodelle gegen ein Faltungsbasismodell evaluiert und ihre Leistung bei der Klassifizierung von Erregung, Valenz, Dominanz und emotionalen Kategorien getestet. Die Testergebnisse verdeutlichen, dass Modelle mit hoher Korrelation oder hohem Recall auf Abkürzungen - wie z. B. Textstimmung - zurückgreifen und sich in Bezug auf die Fairness unterscheiden können.

Eine wissenschaftliche Veröffentlichung der audEERING GmbH.
Mehr Infos auf unserer Forschungsseite