2024

Wav2Small: Destillieren von wav2Vec2 auf 72k Parameter für ressourcenarme Sprach-Emotionserkennung

Dionyssos Kounadis-Bastian, Oliver Schr¨ufer, Anna Derington, Hagen Wierstorf, Florian Eyben, Felix Burkhardt, und Björn W. Schuller

Die Erkennung von Emotionen in der Sprache (SER) erfordert hohe Rechenkapazitäten, um das Problem der erheblichen Unstimmigkeiten zwischen den Kommentatoren zu bewältigen. Heutzutage verlagert sich die SER hin zu dimensionalen Annotationen von Arousal, Dominanz und Valenz (A/D/V). Universelle Metriken wie die L2-Distanz erweisen sich für die Bewertung der A/D/V-Genauigkeit als ungeeignet, da die Meinungen der Annotatoren nicht übereinstimmen. Der Konkordanzkorrelationskoeffizient (CCC) ist jedoch als alternative Metrik für A/D/V entstanden, bei der die Leistung eines Modells so bewertet wird, dass sie mit dem CCC eines ganzen Datensatzes übereinstimmt und nicht mit den L2-Distanzen der einzelnen Audios. Jüngste Studien haben gezeigt, dass wav2vec2 / wavLM-Architekturen, die einen Float-Wert für jede A/D/V-Dimension ausgeben, den heutigen State-of-the-Art (Sota) CCC

auf A/D/V. Die Wav2Vec2.0 / WavLM-Familie ist sehr rechenintensiv, aber das Trainieren kleiner Modelle mit Hilfe von menschlichen Kommentaren war bisher nicht erfolgreich. In dieser Arbeit verwenden wir ein großes Transformer Sota A/D/V Modell als Lehrer/Annotator, um 5 Studentenmodelle zu trainieren: 4 MobileNets und das von uns vorgeschlagene Wav2Small, wobei nur die A/D/V-Ausgaben des Lehrers anstelle von menschlichen Anmerkungen verwendet werden. Das von uns vorgeschlagene Lehrermodell setzt auch eine neue Sota auf dem MSP-Podcast-Datensatz mit der Wertigkeit CCC=0.676. Wir wählen MobileNetV4 / MobileNet-V3 als Studenten, da MobileNet für schnelle Ausführungszeiten entwickelt wurde. Wir schlagen außerdem Wav2Small vor - eine Architektur, die auf minimale Parameter und RAM-Verbrauch ausgelegt ist. Wav2Small mit einem .onnx (quantisiert) von nur 120KB ist eine potenzielle Lösung für A/D/V auf Hardware mit geringen Ressourcen, mit nur 72K Parametern gegenüber 3,12M Parametern für MobileNet-V4-Small.

Eine wissenschaftliche Veröffentlichung der audEERING GmbH.
Mehr Infos auf unserer Forschungsseite