Startseite " Veröffentlichungen " Mehrstufige linguistische Konditionierung von Faltungsschichten für die Emotionserkennung von Sprache
2023
Andreas Triantafyllopoulos, Uwe Reichel, Shuo Liu, Stephan Huber, Florian Eyben, und Björn W. Schuller
Die effektive Verschmelzung von Text- und Audioinformationen für die kategoriale und dimensionale Sprach-Emotionserkennung (SER) bleibt ein offenes Thema, insbesondere angesichts des enormen Potenzials von tiefen neuronalen Netzen (DNNs), die eine engere Integration der beiden ermöglichen. Methoden: In diesem Beitrag untersuchen wir die Effektivität der tiefen Fusion von Text- und Audiomerkmalen für kategoriale und dimensionale SER. Wir schlagen eine neuartige, mehrstufige Fusionsmethode vor, bei der die beiden Informationsströme in mehreren Schichten eines DNN integriert werden, und vergleichen sie mit einer einstufigen Methode, bei der die Ströme an einem einzigen Punkt zusammengeführt werden. Beide Methoden beruhen auf der Extraktion zusammenfassender linguistischer Einbettungen aus einem vortrainierten BERT-Modell und der Konditionierung einer oder mehrerer Zwischendarstellungen eines Faltungsmodells, das mit log-Mel-Spektrogrammen arbeitet. Die Ergebnisse: Experimente mit den Datensätzen MSP-Podcast und IEMOCAP zeigen, dass die beiden Fusionsmethoden eine flache (späte) Fusionsbasislinie und ihre unimodalen Bestandteile sowohl in Bezug auf die quantitative Leistung als auch auf das qualitative Verhalten deutlich übertreffen. Diskussion: Insgesamt zeigt unsere mehrstufige Fusion eine bessere quantitative Leistung und übertrifft die Alternativen bei den meisten unserer Auswertungen. Dies verdeutlicht das Potenzial der mehrstufigen Fusion bei der besseren Assimilation von Text- und Audioinformationen.