Veröffentlichungen

Veröffentlichungen

Wir sind Pioniere auf dem Gebiet der Audio-KI-Forschung. Die Technologie von AudEERING wird in vielen Forschungsprojekten eingesetzt. Über die Ergebnisse unserer Forschung informieren wir in zahlreichen Artikeln, Aufsätzen, Abhandlungen und anderen Publikationen. Werfen Sie auch einen Blick auf einige unserer wissenschaftlichen Zitate.

2025

Psychisches Wohlbefinden auf See: Ein Prototyp zur Erfassung von Sprachdaten in maritimen Umgebungen

ascal Hecker, Monica Gonzalez-Machorro, Hesam Sagha, Saumya Dudeja, Matthias Kahlau, Florian Eyben, Björn Schuller, und Bert Arnrich

Das psychische Wohlbefinden von Seeleuten ist aufgrund der Isolation und der anspruchsvollen Arbeitsbedingungen besonders gefährdet. Die Sprache als Modalität hat sich als gut geeignet erwiesen, um die psychische Gesundheit in Verbindung mit dem psychischen Wohlbefinden zu beurteilen. In dieser Arbeit beschreiben wir unseren Einsatz einer Sprachdatenerfassungsplattform in der lauten und isolierten Umgebung eines Öltankers und zeigen die damit verbundenen Herausforderungen und unsere Erkenntnisse auf. Wir haben über einen Zeitraum von neun Wochen Sprachdaten aus 378 Befragungssitzungen von 25 Seeleuten gesammelt. Unsere Analyse zeigt, dass selbstberichtete Maße des psychischen Wohlbefindens mit von der Sprache abgeleiteten Merkmalen korreliert waren, und wir stellen erste Modellierungsansätze vor. Darüber hinaus demonstrieren wir die Wirksamkeit von auf Audioqualität basierenden Filter- und Rauschunterdrückungsansätzen in dieser unkontrollierten Umgebung. Unsere Ergebnisse ermutigen zu einer detaillierteren Überwachung des psychischen Wohlbefindens im maritimen Umfeld und ermöglichen es zukünftigen Forschungen, gezielte Interventionen zur Verbesserung der psychischen Gesundheit von Seeleuten zu entwickeln.

2024

Sind Sie sicher? Analyse von Unsicherheitsquantifizierungsansätzen für die Erkennung von Sprachemotionen in der realen Welt

Oliver Schr¨ufer, Manuel Milling, Felix Burkhardt, Florian Eyben, und Björn Schuller

Die Quantifizierung der Unsicherheit (Uncertainty Quantification, UQ) ist ein wichtiger Baustein für den zuverlässigen Einsatz neuronaler Netze in realen Szenarien, da sie ein nützliches Instrument zur Erkennung fehlerhafter Vorhersagen sein kann. Modelle zur Sprach-Emotionserkennung (SER) können unter besonders vielen Unsicherheitsquellen leiden, wie z.B. der Mehrdeutigkeit von Emotionen, Out-of-Distribution (OOD)-Daten oder allgemein schlechten Aufnahmebedingungen. Zuverlässige UQ-Methoden sind daher von besonderem Interesse, da in vielen SER-Anwendungen keine Vorhersage besser ist als eine fehlerhafte Vorhersage. Während die Auswirkungen von Label-Ambiguität auf die Unsicherheit in der Literatur gut dokumentiert sind, konzentrieren wir uns in unserer Arbeit auf die Evaluierung von UQ-Methoden für SER unter den üblichen Herausforderungen in der realen Welt, wie z. B. beschädigte Signale und das Fehlen von Sprache. Wir zeigen, dass einfache UQ-Methoden bereits einen Hinweis auf die Unsicherheit einer Vorhersage geben können und dass das Training mit zusätzlichen OOD-Daten die Identifizierung solcher Signale erheblich verbessern kann.

2024

Sprachanalyse als Frühindikator für das Risiko einer Depression bei jungen Erwachsenen

Klaus R. Scherer, Felix Burkhardt, Uwe D. Reichel, Florian Eyben, und Björn W. Schuller.

In der Literatur wird immer häufiger über Unterschiede in der Stimmqualität zwischen depressiven Patienten und Kontrollpersonen berichtet. Hier untersuchen wir die Möglichkeit, die Stimmanalyse als Frühwarnsignal für die Entwicklung von emotionalen Störungen bei jungen Erwachsenen zu nutzen. Im Rahmen eines großen interdisziplinären europäischen Forschungsprojekts in vier Ländern (ECoWeB), das die Auswirkungen webbasierter Präventionsprogramme zur Verringerung des Depressionsrisikos bei jungen Erwachsenen untersuchte, analysierten wir eine große Anzahl akustischer Stimmmerkmale in vokalen Berichten über die von den Teilnehmern an einem bestimmten Tag erlebten Emotionen. Wir konnten eine Reihe signifikanter Unterschiede in den akustischen Hinweisen feststellen, insbesondere in Bezug auf die Energieverteilung im Stimmspektrum, was weitere Forschungsanstrengungen zur Entwicklung vielversprechender, nicht aufdringlicher Risikoindikatoren in der normalen Sprechstimme ermutigt. Dies ist besonders wichtig für junge Erwachsene, bei denen die Wahrscheinlichkeit geringer ist, dass sie die üblichen Risikofaktoren für Depressionen wie negative Lebenserfahrungen aufweisen.

2024

Ein Arbeitsablauf zur HTR-Nachbearbeitung, Kennzeichnung und Klassifizierung diachroner und regionaler Variation in vormodernen slawischen Texten

Piroska Lendvai, Maarten van Gom- pel, Anna Jouravel, Elena Renje, Uwe Reichel, Achim Rabus, und Eckhart Arnold

Wir beschreiben laufende Arbeiten zur Entwicklung eines Arbeitsablaufs für den Anwendungsfall der Klassifizierung diachroner und regionaler Sprachvariation in vormodernen slawischen Texten. Die Daten wurden mittels handschriftlicher Texterkennung (HTR) auf mittelalterlichen Manuskripten und Drucken und teilweise durch manuelle Transkription gewonnen. Unser Ziel ist es, einen Workflow für solche historischen Sprachdaten zu entwickeln, der die HTR-Nachbearbeitung, Annotation und Klassifizierung der digitalisierten Texte umfasst. Wir testen und passen bestehende Sprachressourcen an, um die Pipeline mit niedrigschwelligen Werkzeugen auszustatten, die auch für Geisteswissenschaftler mit begrenzter Erfahrung in Forschungsdateninfrastrukturen, computergestützter Analyse oder fortgeschrittenen Methoden der natürlichen Sprachverarbeitung (NLP) zugänglich sind. Der Arbeitsablauf beginnt mit der Erstellung von Ground-Truth-Daten (GT) zur Diagnose und Korrektur von HTR-Fehlern mittels String-Metriken und datengesteuerten Methoden. Auf der Grundlage von GT- und HTR-Daten zeigen wir anschließend Klassifizierungsergebnisse mit Hilfe von Transfer-Lernen für Textausschnitte auf Satzebene. Als nächstes berichten wir über unsere Bemühungen zur Kennzeichnung von Daten auf Token-Ebene. Jeder Schritt des Arbeitsablaufs wird durch die Beschreibung aktueller Einschränkungen und unserer entsprechenden laufenden Arbeiten ergänzt.

2024

Wav2Small: Destillieren von wav2Vec2 auf 72k Parameter für ressourcenarme Sprach-Emotionserkennung

Dionyssos Kounadis-Bastian, Oliver Schr¨ufer, Anna Derington, Hagen Wierstorf, Florian Eyben, Felix Burkhardt, und Björn W. Schuller

Die Erkennung von Emotionen in der Sprache (SER) erfordert hohe Rechenkapazitäten, um das Problem der erheblichen Unstimmigkeiten zwischen den Kommentatoren zu bewältigen. Heutzutage verlagert sich die SER hin zu dimensionalen Annotationen von Arousal, Dominanz und Valenz (A/D/V). Universelle Metriken wie die L2-Distanz erweisen sich für die Bewertung der A/D/V-Genauigkeit als ungeeignet, da die Meinungen der Annotatoren nicht übereinstimmen. Der Konkordanzkorrelationskoeffizient (CCC) ist jedoch als alternative Metrik für A/D/V entstanden, bei der die Leistung eines Modells so bewertet wird, dass sie mit dem CCC eines ganzen Datensatzes übereinstimmt und nicht mit den L2-Distanzen der einzelnen Audios. Jüngste Studien haben gezeigt, dass wav2vec2 / wavLM-Architekturen, die einen Float-Wert für jede A/D/V-Dimension ausgeben, den heutigen State-of-the-Art (Sota) CCC

auf A/D/V. Die Wav2Vec2.0 / WavLM-Familie ist sehr rechenintensiv, aber das Trainieren kleiner Modelle mit Hilfe von menschlichen Kommentaren war bisher nicht erfolgreich. In dieser Arbeit verwenden wir ein großes Transformer Sota A/D/V Modell als Lehrer/Annotator, um 5 Studentenmodelle zu trainieren: 4 MobileNets und das von uns vorgeschlagene Wav2Small, wobei nur die A/D/V-Ausgaben des Lehrers anstelle von menschlichen Anmerkungen verwendet werden. Das von uns vorgeschlagene Lehrermodell setzt auch eine neue Sota auf dem MSP-Podcast-Datensatz mit der Wertigkeit CCC=0.676. Wir wählen MobileNetV4 / MobileNet-V3 als Studenten, da MobileNet für schnelle Ausführungszeiten entwickelt wurde. Wir schlagen außerdem Wav2Small vor - eine Architektur, die auf minimale Parameter und RAM-Verbrauch ausgelegt ist. Wav2Small mit einem .onnx (quantisiert) von nur 120KB ist eine potenzielle Lösung für A/D/V auf Hardware mit geringen Ressourcen, mit nur 72K Parametern gegenüber 3,12M Parametern für MobileNet-V4-Small.

2024

Testen der Korrektheit, Fairness und Robustheit von Modellen zur Erkennung von Sprachemotionen

nna Derington, Hagen Wierstorf, Ali Özkil, Florian Eyben, Felix Burkhardt, und Björn W. Schuller

Modelle des maschinellen Lernens für die Sprach-Emotionserkennung (SER) können für verschiedene Aufgaben trainiert werden und werden in der Regel auf der Grundlage einiger weniger verfügbarer Datensätze pro Aufgabe bewertet. Zu den Aufgaben können Erregung, Valenz, Dominanz, emotionale Kategorien oder Tonfall gehören. Diese Modelle werden hauptsächlich im Hinblick auf die Korrelation oder den Abruf bewertet und weisen immer einige Fehler in ihren Vorhersagen auf. Die Fehler manifestieren sich im Verhalten des Modells, das in verschiedenen Dimensionen sehr unterschiedlich sein kann, selbst wenn das Modell die gleiche Wiedererkennung oder Korrelation erreicht. In diesem Beitrag wird ein Testrahmen zur Untersuchung des Verhaltens von Modellen zur Erkennung von Sprachemotionen vorgestellt, bei dem verschiedene Metriken einen bestimmten Schwellenwert erreichen müssen, um einen Test zu bestehen. Die Testmetriken können in Bezug auf Korrektheit, Fairness und Robustheit gruppiert werden. Es bietet auch eine Methode zur automatischen Festlegung von Testschwellen für Fairness-Tests, basierend auf den verwendeten Datensätzen, und Empfehlungen zur Auswahl der übrigen Testschwellen. Wir haben ein xLSTM-basiertes und neun Transformer-basierte akustische Basismodelle gegen ein Faltungsbasismodell evaluiert und ihre Leistung bei der Klassifizierung von Erregung, Valenz, Dominanz und emotionalen Kategorien getestet. Die Testergebnisse verdeutlichen, dass Modelle mit hoher Korrelation oder hohem Recall auf Abkürzungen - wie z. B. Textstimmung - zurückgreifen und sich in Bezug auf die Fairness unterscheiden können.

2024

Überprüfen Sie Ihre Audiodaten: Nkululeko zur Erkennung von Verzerrungen

Felix Burkhardt, Bagus Tris Atmaja, Anna Derington, Florian Eyben und Björn Schuller

Wir präsentieren eine neue Version des Software-Tools Nkululeko. Neue Ergänzungen ermöglichen es den Nutzern, auf der Grundlage von Vorhersagen des maschinellen Lernens automatisch Plausibilitätsprüfungen, Datenbereinigung und die Erkennung von Verzerrungen in den Daten durchzuführen. Zwei Open-Source-Datenbanken aus dem medizinischen Bereich werden untersucht: das Androids Depressions-Korpus und das UASpeech Dysarthrie-Korpus. Die Ergebnisse zeigen, dass beide Datenbanken eine gewisse Verzerrung aufweisen, jedoch nicht in gravierender Weise.

2023

Klassifizierung der kognitiven Belastung durch ein personalisiertes und verallgemeinertes Modell, das die Asymmetrie des Gehirns nutzt, auf der Grundlage eines tragbaren EEGs

Sidratul Moontaha, Arpita Mallikarjuna Kappattanavar, Pascal Hecker und Bert Arnrich

EEG-Messungen sind mit der zunehmenden Beliebtheit von nicht-invasiven, tragbaren EEG-Sensoren für neurophysiologische Messungen zur Bewertung der kognitiven Belastung in den Vordergrund gerückt. In dieser Arbeit wurden mit einem tragbaren Vierkanal-EEG-Gerät die Hirnaktivitätsdaten von elf Teilnehmern aufgezeichnet, während sie ein Entspannungsvideo ansahen und drei kognitive Belastungsaufgaben durchführten. Die Daten wurden vorverarbeitet, indem Ausreißer auf der Grundlage eines Bewegungsfilters, einer spektralen Filterung, einer gemeinsamen Durchschnittsreferenzierung und einer Normalisierung entfernt wurden. Aus 30-Sekunden-Fenstern wurden vier Merkmalsgruppen im Frequenzbereich extrahiert, die die Leistung von , , und Frequenzbändern, die jeweiligen Verhältnisse und die Asymmetriemerkmale jedes Bandes umfassten. Es wurde ein personalisiertes und verallgemeinertes Modell für die binäre Klassifizierung zwischen den Entspannungs- und kognitiven Belastungsaufgaben und den selbstberichteten Angaben erstellt. Das Asymmetrie-Merkmalsset übertraf die Bandverhältnis-Merkmalssets mit einer mittleren Klassifikationsgenauigkeit von 81,7 % für das personalisierte Modell und 78 % für das verallgemeinerte Modell. Ein ähnliches Ergebnis für die Modelle auf der Basis von Selbstauskünften macht die Verwendung von Asymmetriemerkmalen für die Klassifizierung der kognitiven Belastung erforderlich. Die Extraktion von High-Level-Merkmalen aus Asymmetriemerkmalen könnte in Zukunft die Leistung übertreffen. Darüber hinaus führt die bessere Leistung des personalisierten Modells zu zukünftigen Arbeiten zur Aktualisierung von vortrainierten verallgemeinerten Modellen mit persönlichen Daten.

2023

Zur Unterstützung der Frühdiagnose von Multipler Sklerose anhand von stimmlichen Merkmalen

Monica Gonzalez-Machorro, Pascal Hecker, Uwe D. Reichel, Helly N. Hammer, Robert Hoepner, Lisa Pedrotti, Alisha Zmutt, Hesam Sagha, Johan van Beek, Florian Eyben, Dagmar M. Schuller, Björn W. Schuller, und Bert Arnrich

Multiple Sklerose (MS) ist eine neuroinflammatorische Krankheit, von der weltweit Millionen von Menschen betroffen sind. Da die Dysarthrie bei Menschen mit MS (pwMS) besonders ausgeprägt ist, zielt diese Arbeit darauf ab, akustische Merkmale zu identifizieren, die sich zwischen Menschen mit MS und gesunden Kontrollpersonen (HC) unterscheiden. Darüber hinaus entwickeln wir automatische Klassifizierungsmethoden zur Unterscheidung zwischen pwMS und HC. In dieser Arbeit stellen wir einen neuen Datensatz aus einer deutschsprachigen Kohorte vor, der 39 Patienten mit geringer Behinderung bei schubförmiger MS und 16 HC enthält. Die Ergebnisse deuten darauf hin, dass bestimmte interpretierbare Sprachmerkmale für die Diagnose von MS nützlich sein könnten und dass Methoden des maschinellen Lernens möglicherweise ein schnelles und unauffälliges Screening in der klinischen Praxis unterstützen könnten. Die Studie unterstreicht die Bedeutung der Analyse der freien Sprache im Vergleich zur gelesenen Sprache.

2023

audb - gemeinsame Nutzung und Versionierung von Audio- und Annotationsdaten in Python

Hagen Wierstorf, Johannes Wagner, Florian Eyben, Felix Burkhardt und Björn W. Schuller

Aufgrund des Bedarfs an größeren und vielfältigeren Datensätzen für das Pre-Training und die Feinabstimmung von immer komplexeren maschinellen Lernmodellen wächst die Zahl der Datensätze rapide. audb ist eine Open-Source-Python-Bibliothek, die die Versionierung und Dokumentation von Audiodatensätzen unterstützt. Ziel ist es, eine standardisierte und einfache Benutzerschnittstelle für die Veröffentlichung, Pflege und den Zugriff auf die Annotationen und Audiodateien eines Datensatzes bereitzustellen. Um die Daten effizient auf einem Server zu speichern, löst audb automatisch Abhängigkeiten zwischen Versionen eines Datensatzes auf und lädt neu hinzugefügte oder geänderte Dateien nur hoch, wenn eine neue Version veröffentlicht wird. Die Bibliothek unterstützt das partielle Laden eines Datensatzes und das lokale Zwischenspeichern für schnellen Zugriff. audb ist eine leichtgewichtige Bibliothek und kann mit jeder Bibliothek für maschinelles Lernen verbunden werden. Sie unterstützt die Verwaltung von Datensätzen auf einem einzelnen PC, innerhalb einer Universität oder eines Unternehmens oder innerhalb einer ganzen Forschungsgemeinschaft.

2023

Mehrstufige linguistische Konditionierung von Faltungsschichten für die Emotionserkennung von Sprache

Andreas Triantafyllopoulos, Uwe Reichel, Shuo Liu, Stephan Huber, Florian Eyben, und Björn W. Schuller

Die effektive Verschmelzung von Text- und Audioinformationen für die kategoriale und dimensionale Sprach-Emotionserkennung (SER) bleibt ein offenes Thema, insbesondere angesichts des enormen Potenzials von tiefen neuronalen Netzen (DNNs), die eine engere Integration der beiden ermöglichen. Methoden: In diesem Beitrag untersuchen wir die Effektivität der tiefen Fusion von Text- und Audiomerkmalen für kategoriale und dimensionale SER. Wir schlagen eine neuartige, mehrstufige Fusionsmethode vor, bei der die beiden Informationsströme in mehreren Schichten eines DNN integriert werden, und vergleichen sie mit einer einstufigen Methode, bei der die Ströme an einem einzigen Punkt zusammengeführt werden. Beide Methoden beruhen auf der Extraktion zusammenfassender linguistischer Einbettungen aus einem vortrainierten BERT-Modell und der Konditionierung einer oder mehrerer Zwischendarstellungen eines Faltungsmodells, das mit log-Mel-Spektrogrammen arbeitet. Die Ergebnisse: Experimente mit den Datensätzen MSP-Podcast und IEMOCAP zeigen, dass die beiden Fusionsmethoden eine flache (späte) Fusionsbasislinie und ihre unimodalen Bestandteile sowohl in Bezug auf die quantitative Leistung als auch auf das qualitative Verhalten deutlich übertreffen. Diskussion: Insgesamt zeigt unsere mehrstufige Fusion eine bessere quantitative Leistung und übertrifft die Alternativen bei den meisten unserer Auswertungen. Dies verdeutlicht das Potenzial der mehrstufigen Fusion bei der besseren Assimilation von Text- und Audioinformationen.

2023

Domänenanpassung des BERT für die Zuordnung von Handschrift, Jahrhundert und Region in vormodernen slawischen Texten

Piroska Lendvai, Uwe Reichel, Anna Jouravel, Achim Rabus und Elena Renje

Unsere Studie stellt einen geschichteten Datensatz vor, der aus sechs verschiedenen slawischen Textkörpern zusammengestellt wurde, um sprachübergreifende und diachrone Analysen von slawischen vormodernen Sprachvarianten durchzuführen. Wir demonstrieren die unüberwachte Domänenanpassung und die überwachte Feinabstimmung von BERT auf diesen ressourcenarmen, historischen slawischen Varianten für die Zwecke der Herkunftszuweisung im Hinblick auf drei nachgelagerte Aufgaben: Manuskript-, Jahrhundert- und Kopierbereichsklassifikation. Die Datenerfassung zielt darauf ab, sowohl diachrone als auch regionale Sprachvariationen und -veränderungen zu erfassen: Die Texte wurden im Laufe von etwa einem Jahrtausend geschrieben, enthalten Sprachvarianten vom Hochmittelalter bis zur Frühen Neuzeit und stammen aus einer Vielzahl von geografischen Regionen. Die Mechanismen des Sprachwandels in relativ kleinen Teilen solcher Daten wurden von Slawisten manuell inspiziert, analysiert und typologisiert; unser Beitrag zielt darauf ab, zu untersuchen, inwieweit die BERT-Transformatorarchitektur und die vortrainierten Modelle diesen Prozess unterstützen können. Unter Verwendung dieser Datensätze für die Domänenanpassung konnten wir die zeitliche, geografische und manuskriptuelle Herkunft auf der Ebene der Textausschnitte mit hohen F-Scores zuordnen. Wir haben auch eine qualitative Analyse der Fehlklassifikationen der Modelle durchgeführt.

2023

Fröhliches oder böses Lachen? Analyse einer Datenbank mit natürlichen Hörproben

Aljoscha Düsterhöft, Felix Burkhardt, und Björn W. Schuller

Wir führten eine Datenerhebung auf der Grundlage der Google AudioSet-Datenbank durch, indem wir eine Teilmenge der mit Lachen annotierten Samples auswählten. Das Auswahlkriterium war, dass es sich um einen kommunikativen Akt mit einer klaren Konnotation handelt, die entweder positiv (mitlachen) oder negativ (ausgelacht werden) ist. Auf der Grundlage dieser annotierten Daten führten wir zwei Experimente durch: Zum einen extrahierten und analysierten wir manuell phonetische Merkmale. Andererseits führen wir mehrere Experimente zum maschinellen Lernen durch, indem wir systematisch mehrere automatisch extrahierte akustische Merkmale mit Algorithmen zum maschinellen Lernen kombinieren. Dabei zeigt sich, dass die leistungsfähigsten Modelle eine ungewichtete durchschnittliche Trefferquote von 0,7 erreichen können.

2023

Nkululeko: Experimente zum maschinellen Lernen von Sprechereigenschaften ohne Programmierung

Felix Burkhardt, Florian Eyben, und Bjöorn W. Schuller

Wir möchten Nkululeko vorstellen, ein auf Vorlagen basierendes System, mit dem Benutzer Experimente zum maschinellen Lernen im Bereich der Sprechereigenschaften durchführen können. Es richtet sich vor allem an Benutzer, die mit maschinellem Lernen oder Computerprogrammierung überhaupt nicht vertraut sind, und soll als Lehrmittel oder als einfaches Einstiegswerkzeug in den Bereich der künstlichen Intelligenz verwendet werden.

2023

Going retro: Erstaunlich einfache und dennoch effektive regelbasierte Prosodiemodellierung für die Sprachsynthese zur Simulation von Emotionsdimensionen

Felix Burkhardt, Uwe Reichel, Florian Eyben und Björn Schuller

Wir stellen zwei regelbasierte Modelle vor, um die Prosodie der Sprachsynthese zu modulieren, um die auszudrückende Emotion zu modulieren. Die Prosodie-Modulation basiert auf der Speech Synthesis Markup Language (SSML) und kann mit jedem kommerziellen Sprachsynthesizer verwendet werden. Die Modelle sowie die Optimierungsergebnisse werden anhand von menschlichen Emotionskommentaren bewertet. Die Ergebnisse zeigen, dass mit einer sehr einfachen Methode die beiden Dimensionen Arousal (.76 UAR) und Valenz (.43 UAR) simuliert werden können.

2023

Maskierung von Sprachinhalten durch zufälliges Spleißen: Bleibt der emotionale Ausdruck erhalten?

Felix Burkhardt, Anna Derington, Matthias Kahlau, Klaus Scherer, Florian Eyben, Björn Schuller

Wir diskutieren den Einfluss des zufälligen Spleißens auf die Wahrnehmung des emotionalen Ausdrucks in Sprachsignalen. Zufälliges Spleißen ist die zufällige Rekonstruktion kurzer Audioschnipsel mit dem Ziel, den Sprachinhalt zu verschleiern. Ein Teil der Aufnahmen des Deutschen Bundestages wurde zufällig gespleißt und beide Versionen - die ursprüngliche und die verschlüsselte - manuell in Bezug auf die Dimensionen Erregung, Valenz und Dominanz beschriftet. Zusätzlich lassen wir ein hochmodernes transformatorbasiertes, vortrainiertes Emotionsmodell auf den Daten laufen. Wir finden eine ausreichend hohe Korrelation der Annotationen und Vorhersagen der emotionalen Dimensionen zwischen beiden Beispielversionen, um zuversichtlich zu sein, dass maschinelle Lerner mit zufällig gespleißten Daten trainiert werden können

Doi 10.1109/ICASSP49357.2023.10097094

2023

Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken

Annette Rios, Uwe Reichel, Chirag Bhuvaneshwara, Panagiotis Filntisis, Petros Maragos, Felix Burkhardt, Florian Eyben, Björn Schuller, Fabrizio Nunnari und Sarah Ebling

Wir präsentieren einen Ansatz zur Vorhersage von Valenz, Erregung und Dominanz von Personen, die über Text-/Audio-/Videostreams kommunizieren, für eine Übersetzung aus und in Gebärdensprachen.

Der Ansatz besteht in der Fusion der Ergebnisse von drei CNN-basierten Modellen, die für die Analyse von Text, Audio und Gesichtsausdrücken eingesetzt werden. Unsere Experimente zeigen, dass jede Kombination von zwei oder drei Modalitäten die Vorhersageleistung für Valenz und Erregung erhöht

Doi 10.14428/esann/2023.ES2023-128

2022

Ethisches Bewußtsein in der Paralinguistik: Eine Taxonomie der Anwendungen

A. Batliner, M. Neumann, F. Burkhardt, A. Baird, S. Meyer, T. Vu, B. Schuller,

November 2022, Internationale Zeitschrift für Mensch-Computer-Interaktion: Seit dem Ende des letzten Jahrhunderts wurde die automatische Verarbeitung von paralinguistischen Daten umfassend erforscht und in vielen Anwendungen auf Wearables, Smartphones und Computern umgesetzt. In diesem Beitrag befassen wir uns mit dem ethischen Bewusstsein für paralinguistische Anwendungen, indem wir Taxonomien für Datendarstellungen, Systemdesigns für und eine Typologie von Anwendungen sowie Nutzer/Testsets und Themenbereiche erstellen.
DOI:10.1080/10447318.2022.2140385

2022

Sprachanalyse zur Erkennung neurologischer Störungen - Systematische Übersicht und Ausblick auf neue Trends

P. Hecker, N. Steckhan, F. Eyben, B. W. Schuller, B. Arnrich

July 2022, Frontiers in Digital Health 4:842301 Die Quantifizierung von neurologischen Störungen anhand der Stimme ist ein schnell wachsendes Forschungsgebiet und verspricht eine unauffällige und groß angelegte Überwachung von Störungen. Die Einrichtung der Datenaufzeichnung und die Datenanalyse-Pipelines sind beides entscheidende Aspekte, um effektiv relevante Informationen von den Teilnehmern zu erhalten. Daher haben wir eine systematische Überprüfung durchgeführt, um einen umfassenden Überblick über die Praktiken bei verschiedenen neurologischen Erkrankungen zu geben und neue Trends aufzuzeigen.
DOI:10.3389/fdgth.2022.842301, LizenzCC BY

2022

Eine vergleichende sprachübergreifende Betrachtung von Datenbanken zur Darstellung grundlegender Emotionen mit Hilfe von maschinellem Lernen

F. Burkhardt, A. Hacker, U. Reichel, H. Wierstorf, F. Eyben, B.W. Schuller

Proceedings of the Thirteenth Language Resources and Evaluation Conference. Seit mehreren Jahrzehnten werden von verschiedenen Labors Emotionsdatenbanken angelegt. Viele von ihnen enthalten Darstellungen von Darwins berühmten "großen vier" Grundemotionen. In diesem Beitrag untersuchen wir, inwieweit eine Auswahl von ihnen durch zwei Ansätze vergleichbar ist: zum einen durch Modellierung der Ähnlichkeit als Leistung in datenbankübergreifenden maschinellen Lernexperimenten und zum anderen durch Analyse eines manuell ausgewählten Satzes von vier akustischen Merkmalen, die verschiedene phonetische Bereiche repräsentieren. Es ist interessant zu sehen, inwieweit bestimmte Datenbanken (wir haben eine synthetische hinzugefügt) als Trainingsset für andere gut geeignet sind, während andere dies nicht sind. Im Allgemeinen fanden wir Anzeichen sowohl für Ähnlichkeit als auch für Spezifizität zwischen den Sprachen.
Anthologie ID: 2022.lrec-1.204 Juni 2022, Seiten: 1917-1924,

2022

Nkululeko: Ein Werkzeug zur schnellen Erkennung von Sprechereigenschaften

F. Burkhardt, J. Wagner, H. Wierstorf, F. Eyben, B. Schuller

Proceedings of the Thirteenth Language Resources and Evaluation Conference. Wir stellen Fortschritte bei einem Software-Tool namens Nkululeko vor, mit dem Benutzer (halb-)überwachte maschinelle Lernexperimente im Bereich der Sprechereigenschaften durchführen können. Es basiert auf audformat, einem Format für die Beschreibung von Metadaten in Sprachdatenbanken. Dank einer Schnittstelle, die auf konfigurierbaren Vorlagen basiert, unterstützt es beste Praktiken und eine sehr schnelle Einrichtung von Experimenten, ohne dass man die zugrunde liegende Sprache beherrschen muss: Python. Der Beitrag erklärt die Handhabung von Nkululeko und stellt zwei typische Experimente vor: Vergleich der akustischen Expertenmerkmale mit künstlichen neuronalen Netzen zur Emotionsklassifizierung und zur Regression des Sprecheralters.
Anthologie ID:2022.lrec-1.205, Seiten: 1925-1932,

2022

SyntAct: Eine synthetische Datenbank grundlegender Emotionen

F. Burkhardt, F. Eyben, B.W. Schuller,

Proceedings of the 1st Workshop on Dataset Creation for Lower-Resourced Languages (DCLRL) Die Erkennung von Sprachemotionen steht seit mehreren Jahrzehnten im Mittelpunkt der Forschung und hat viele Anwendungen. Ein Problem sind die spärlichen Daten für das überwachte Lernen. Eine Möglichkeit, dieses Problem zu lösen, ist die Synthese von Daten mit emotionssimulierenden Sprachsyntheseansätzen.
@LREC2022, Seiten 1-9, Marseille, 24. Juni 2022 © European Language Resources Association (ELRA), lizenziert unter CC-BY-NC-4.0

2022

Wahrgenommene Emotionen in von Säuglingen gesteuerten Erzählungen über Zeit und Sprechakte hinweg

K. Mády, B. Gyuris, HM Gärtner, A. Kohári, A. Szalontai, U. Reichel,

Speech Prosody 2022, 23-26 Mai 2022, Lissabon, Portugal Eine wichtige Funktion der kindgeleiteten Sprache (IDS) besteht darin, positive Emotionen gegenüber dem Baby auszudrücken. Dies wurde bereits anhand von prosodischen Parametern gezeigt, aber Parameter wief0 und Energie kodieren den Ausdruck von Emotionen nur indirekt. In dieser Studie zielen wir darauf ab, den Emotionsausdruck (Erregung und Valenz) in IDS direkt über die Wahrnehmung der Etikettierer zu erfassen. Die Aufnahmen wurden in den ersten 18 Monaten des Babys gemacht: im Alter von 0, 4, 8 und 18 Monaten.
Mai 2022, DOI:10.21437/SpeechProsody.2022-120, Konferenz: Speech Prosody 2022

2022

Untersuchung von Sprach-Emotionserkennungs-Transformatoren auf linguistisches Wissen

A. Triantafyllopoulos, J. Wagner, H. Wierstorf, M. Schmitt, U. Reichel, F. Eyben, F. Burkhardt, B. W. Schuller

April 2022, LicenseCC BY 4.0 Große, vortrainierte neuronale Netze, die aus Selbstbeobachtungsschichten (Transformatoren) bestehen, haben in jüngster Zeit in verschiedenen Datensätzen zur Sprach-Emotionserkennung (SER) Spitzenergebnisse erzielt. Diese Modelle werden in der Regel selbstüberwacht vortrainiert, um die automatische Spracherkennung zu verbessern.

2022

Anbruch der Transformer-Ära in der Sprach-Emotionserkennung: Schließen der Valenzlücke

J. Wagner, A. Triantafyllopoulos, H. Wierstorf, M. Schmitt, F. Eyben, B. W. Schuller, F. Burkhardt

Jüngste Fortschritte bei transformatorbasierten Architekturen, die in selbstüberwachter Weise vortrainiert sind, haben sich bei verschiedenen Aufgaben des maschinellen Lernens als sehr vielversprechend erwiesen. Im Audiobereich wurden solche Architekturen auch erfolgreich im Bereich der Sprach-Emotionserkennung (SER) eingesetzt. In den bisherigen Arbeiten wurde jedoch der Einfluss der Modellgröße und der Vortrainingsdaten auf die nachgelagerte Leistung nicht bewertet, und es wurde nur begrenzt auf Generalisierung, Robustheit, Fairness und Effizienz geachtet. Der vorliegende Beitrag führt eine gründliche Analyse dieser Aspekte an mehreren vortrainierten Varianten von wav2vec 2.0 und HuBERT durch.
16. März 2022, CC BY-NC-SA 4.0