Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken

Startseite " Veröffentlichungen " Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken

2023

Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken

Annette Rios, Uwe Reichel, Chirag Bhuvaneshwara, Panagiotis Filntisis, Petros Maragos, Felix Burkhardt, Florian Eyben, Björn Schuller, Fabrizio Nunnari und Sarah Ebling

Wir präsentieren einen Ansatz zur Vorhersage von Valenz, Erregung und Dominanz von Personen, die über Text-/Audio-/Videostreams kommunizieren, für eine Übersetzung aus und in Gebärdensprachen.

Der Ansatz besteht in der Fusion der Ergebnisse von drei CNN-basierten Modellen, die für die Analyse von Text, Audio und Gesichtsausdrücken eingesetzt werden. Unsere Experimente zeigen, dass jede Kombination von zwei oder drei Modalitäten die Vorhersageleistung für Valenz und Erregung erhöht

Doi 10.14428/esann/2023.ES2023-128

Link zur Veröffentlichung

Eine wissenschaftliche Veröffentlichung der audEERING GmbH.
Mehr Infos auf unserer Forschungsseite