Startseite " Veröffentlichungen " Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken
2023
Annette Rios, Uwe Reichel, Chirag Bhuvaneshwara, Panagiotis Filntisis, Petros Maragos, Felix Burkhardt, Florian Eyben, Björn Schuller, Fabrizio Nunnari und Sarah Ebling
Wir präsentieren einen Ansatz zur Vorhersage von Valenz, Erregung und Dominanz von Personen, die über Text-/Audio-/Videostreams kommunizieren, für eine Übersetzung aus und in Gebärdensprachen.
Der Ansatz besteht in der Fusion der Ergebnisse von drei CNN-basierten Modellen, die für die Analyse von Text, Audio und Gesichtsausdrücken eingesetzt werden. Unsere Experimente zeigen, dass jede Kombination von zwei oder drei Modalitäten die Vorhersageleistung für Valenz und Erregung erhöht
Doi 10.14428/esann/2023.ES2023-128