
Veröffentlichungen
Wir sind Pioniere auf dem Gebiet der Audio-KI-Forschung. Die Technologie von AudEERING wird in vielen Forschungsprojekten eingesetzt. Über die Ergebnisse unserer Forschung informieren wir in zahlreichen Artikeln, Aufsätzen, Abhandlungen und anderen Publikationen. Werfen Sie auch einen Blick auf einige unserer wissenschaftlichen Zitate.
Maskierung von Sprachinhalten durch zufälliges Spleißen: Bleibt der emotionale Ausdruck erhalten?
Wir diskutieren den Einfluss des zufälligen Spleißens auf die Wahrnehmung des emotionalen Ausdrucks in Sprachsignalen. Zufälliges Spleißen ist die zufällige Rekonstruktion kurzer Audioschnipsel mit dem Ziel, den Sprachinhalt zu verschleiern. Ein Teil der Aufnahmen des Deutschen Bundestages wurde zufällig gespleißt und beide Versionen - die ursprüngliche und die verschlüsselte - manuell in Bezug auf die Dimensionen Erregung, Valenz und Dominanz beschriftet. Zusätzlich lassen wir ein hochmodernes transformatorbasiertes, vortrainiertes Emotionsmodell auf den Daten laufen. Wir finden eine ausreichend hohe Korrelation der Annotationen und Vorhersagen der emotionalen Dimensionen zwischen beiden Beispielversionen, um zuversichtlich zu sein, dass maschinelle Lerner mit zufällig gespleißten Daten trainiert werden können
Doi 10.1109/ICASSP49357.2023.10097094
Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken
Wir präsentieren einen Ansatz zur Vorhersage von Valenz, Erregung und Dominanz von Personen, die über Text-/Audio-/Videostreams kommunizieren, für eine Übersetzung aus und in Gebärdensprachen.
Der Ansatz besteht in der Fusion der Ergebnisse von drei CNN-basierten Modellen, die für die Analyse von Text, Audio und Gesichtsausdrücken eingesetzt werden. Unsere Experimente zeigen, dass jede Kombination von zwei oder drei Modalitäten die Vorhersageleistung für Valenz und Erregung erhöht
Doi 10.14428/esann/2023.ES2023-128
Ethisches Bewußtsein in der Paralinguistik: Eine Taxonomie der Anwendungen
November 2022, Internationale Zeitschrift für Mensch-Computer-Interaktion: Seit dem Ende des letzten Jahrhunderts wurde die automatische Verarbeitung von paralinguistischen Daten umfassend erforscht und in vielen Anwendungen auf Wearables, Smartphones und Computern umgesetzt. In diesem Beitrag befassen wir uns mit dem ethischen Bewusstsein für paralinguistische Anwendungen, indem wir Taxonomien für Datendarstellungen, Systemdesigns für und eine Typologie von Anwendungen sowie Nutzer/Testsets und Themenbereiche erstellen.
DOI:10.1080/10447318.2022.2140385
Sprachanalyse zur Erkennung neurologischer Störungen - Systematische Übersicht und Ausblick auf neue Trends
July 2022, Frontiers in Digital Health 4:842301 Die Quantifizierung von neurologischen Störungen anhand der Stimme ist ein schnell wachsendes Forschungsgebiet und verspricht eine unauffällige und groß angelegte Überwachung von Störungen. Die Einrichtung der Datenaufzeichnung und die Datenanalyse-Pipelines sind beides entscheidende Aspekte, um effektiv relevante Informationen von den Teilnehmern zu erhalten. Daher haben wir eine systematische Überprüfung durchgeführt, um einen umfassenden Überblick über die Praktiken bei verschiedenen neurologischen Erkrankungen zu geben und neue Trends aufzuzeigen.
DOI:10.3389/fdgth.2022.842301, LizenzCC BY
Eine vergleichende sprachübergreifende Betrachtung von Datenbanken zur Darstellung grundlegender Emotionen mit Hilfe von maschinellem Lernen
Proceedings of the Thirteenth Language Resources and Evaluation Conference. Seit mehreren Jahrzehnten werden von verschiedenen Labors Emotionsdatenbanken angelegt. Viele von ihnen enthalten Darstellungen von Darwins berühmten "großen vier" Grundemotionen. In diesem Beitrag untersuchen wir, inwieweit eine Auswahl von ihnen durch zwei Ansätze vergleichbar ist: zum einen durch Modellierung der Ähnlichkeit als Leistung in datenbankübergreifenden maschinellen Lernexperimenten und zum anderen durch Analyse eines manuell ausgewählten Satzes von vier akustischen Merkmalen, die verschiedene phonetische Bereiche repräsentieren. Es ist interessant zu sehen, inwieweit bestimmte Datenbanken (wir haben eine synthetische hinzugefügt) als Trainingsset für andere gut geeignet sind, während andere dies nicht sind. Im Allgemeinen fanden wir Anzeichen sowohl für Ähnlichkeit als auch für Spezifizität zwischen den Sprachen.
Anthologie ID: 2022.lrec-1.204 Juni 2022, Seiten: 1917-1924,
Nkululeko: Ein Werkzeug zur schnellen Erkennung von Sprechereigenschaften
Proceedings of the Thirteenth Language Resources and Evaluation Conference. Wir stellen Fortschritte bei einem Software-Tool namens Nkululeko vor, mit dem Benutzer (halb-)überwachte maschinelle Lernexperimente im Bereich der Sprechereigenschaften durchführen können. Es basiert auf audformat, einem Format für die Beschreibung von Metadaten in Sprachdatenbanken. Dank einer Schnittstelle, die auf konfigurierbaren Vorlagen basiert, unterstützt es beste Praktiken und eine sehr schnelle Einrichtung von Experimenten, ohne dass man die zugrunde liegende Sprache beherrschen muss: Python. Der Beitrag erklärt die Handhabung von Nkululeko und stellt zwei typische Experimente vor: Vergleich der akustischen Expertenmerkmale mit künstlichen neuronalen Netzen zur Emotionsklassifizierung und zur Regression des Sprecheralters.
Anthologie ID:2022.lrec-1.205, Seiten: 1925-1932,
SyntAct: Eine synthetische Datenbank grundlegender Emotionen
Proceedings of the 1st Workshop on Dataset Creation for Lower-Resourced Languages (DCLRL) Die Erkennung von Sprachemotionen steht seit mehreren Jahrzehnten im Mittelpunkt der Forschung und hat viele Anwendungen. Ein Problem sind die spärlichen Daten für das überwachte Lernen. Eine Möglichkeit, dieses Problem zu lösen, ist die Synthese von Daten mit emotionssimulierenden Sprachsyntheseansätzen.
@LREC2022, Seiten 1-9, Marseille, 24. Juni 2022 © European Language Resources Association (ELRA), lizenziert unter CC-BY-NC-4.0
Wahrgenommene Emotionen in von Säuglingen gesteuerten Erzählungen über Zeit und Sprechakte hinweg
Speech Prosody 2022, 23-26 Mai 2022, Lissabon, Portugal Eine wichtige Funktion der kindgeleiteten Sprache (IDS) besteht darin, positive Emotionen gegenüber dem Baby auszudrücken. Dies wurde bereits anhand von prosodischen Parametern gezeigt, aber Parameter wief0 und Energie kodieren den Ausdruck von Emotionen nur indirekt. In dieser Studie zielen wir darauf ab, den Emotionsausdruck (Erregung und Valenz) in IDS direkt über die Wahrnehmung der Etikettierer zu erfassen. Die Aufnahmen wurden in den ersten 18 Monaten des Babys gemacht: im Alter von 0, 4, 8 und 18 Monaten.
Mai 2022, DOI:10.21437/SpeechProsody.2022-120, Konferenz: Speech Prosody 2022
Untersuchung von Sprach-Emotionserkennungs-Transformatoren auf linguistisches Wissen
April 2022, LicenseCC BY 4.0 Große, vortrainierte neuronale Netze, die aus Selbstbeobachtungsschichten (Transformatoren) bestehen, haben in jüngster Zeit in verschiedenen Datensätzen zur Sprach-Emotionserkennung (SER) Spitzenergebnisse erzielt. Diese Modelle werden in der Regel selbstüberwacht vortrainiert, um die automatische Spracherkennung zu verbessern.
Anbruch der Transformer-Ära in der Sprach-Emotionserkennung: Schließen der Valenzlücke
Jüngste Fortschritte bei transformatorbasierten Architekturen, die in selbstüberwachter Weise vortrainiert sind, haben sich bei verschiedenen Aufgaben des maschinellen Lernens als sehr vielversprechend erwiesen. Im Audiobereich wurden solche Architekturen auch erfolgreich im Bereich der Sprach-Emotionserkennung (SER) eingesetzt. In den bisherigen Arbeiten wurde jedoch der Einfluss der Modellgröße und der Vortrainingsdaten auf die nachgelagerte Leistung nicht bewertet, und es wurde nur begrenzt auf Generalisierung, Robustheit, Fairness und Effizienz geachtet. Der vorliegende Beitrag führt eine gründliche Analyse dieser Aspekte an mehreren vortrainierten Varianten von wav2vec 2.0 und HuBERT durch.
16. März 2022, CC BY-NC-SA 4.0
The Perception and Analysis of the Likeability and Human Likeness of Synthesized Speech
The Perception and Analysis of the Likeability and Human Likeness of Synthesized Speech, Proc. Interspeech, 2018
Towards Robust Speech Emotion Recognition Using Deep Residual Networks for Speech Enhancement
Auf dem Weg zu einer robusten Emotionserkennung für Sprache mit Hilfe von Deep Residual Networks zur Sprachanhebung. Proc. Interspeech 2019, 1691-1695.
Spoken Language Identification by Means of Acosutic Mid-level Descriptors
Identifizierung gesprochener Sprache mit Hilfe von akosutischen Deskriptoren der mittleren Ebene. Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2020, 125-132.
Vergleich verschiedener Machine-Learning-Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo
Vergleich verschiedener Machine-Learning-Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo, In: Birkholz, P., Stone, S. (Eds.): Elektronische Sprachverarbeitung. Studientexte zur Sprachkommunikation 93, S. 164-169, TUDpress, Dresden
Filled pause detection by prosodic discontinuity features
Erkennung gefüllter Pausen durch prosodische Diskontinuitätsmerkmale, In: Birkholz, P., Stone, S. (Eds.): Elektronische Sprachverarbeitung. Studientexte zur Sprachkommunikation 93, S. 272-279, TUDpress, Dresden
Emotion-awareness for intelligent vehicle assistants: a research agenda
"Emotion-awareness for intelligent vehicle assistants: a research agenda," in Proceedings of the 1st International Workshop on Software Engineering for AI in Autonomous Systems, pp. 11-15, ACM