Veröffentlichungen

Wir sind Pioniere auf dem Gebiet der Audio-KI-Forschung. Die Technologie von AudEERING wird in vielen Forschungsprojekten eingesetzt. Über die Ergebnisse unserer Forschung informieren wir in zahlreichen Artikeln, Aufsätzen, Abhandlungen und anderen Publikationen. Werfen Sie auch einen Blick auf einige unserer wissenschaftlichen Zitate.

2023

Maskierung von Sprachinhalten durch zufälliges Spleißen: Bleibt der emotionale Ausdruck erhalten?

Felix Burkhardt, Anna Derington, Matthias Kahlau, Klaus Scherer, Florian Eyben, Björn Schuller

Wir diskutieren den Einfluss des zufälligen Spleißens auf die Wahrnehmung des emotionalen Ausdrucks in Sprachsignalen. Zufälliges Spleißen ist die zufällige Rekonstruktion kurzer Audioschnipsel mit dem Ziel, den Sprachinhalt zu verschleiern. Ein Teil der Aufnahmen des Deutschen Bundestages wurde zufällig gespleißt und beide Versionen - die ursprüngliche und die verschlüsselte - manuell in Bezug auf die Dimensionen Erregung, Valenz und Dominanz beschriftet. Zusätzlich lassen wir ein hochmodernes transformatorbasiertes, vortrainiertes Emotionsmodell auf den Daten laufen. Wir finden eine ausreichend hohe Korrelation der Annotationen und Vorhersagen der emotionalen Dimensionen zwischen beiden Beispielversionen, um zuversichtlich zu sein, dass maschinelle Lerner mit zufällig gespleißten Daten trainiert werden können

Doi 10.1109/ICASSP49357.2023.10097094

2023

Multimodale Erkennung von Valenz, Erregung und Dominanz durch Late-Fusion von Text, Audio und Gesichtsausdrücken

Annette Rios, Uwe Reichel, Chirag Bhuvaneshwara, Panagiotis Filntisis, Petros Maragos, Felix Burkhardt, Florian Eyben, Björn Schuller, Fabrizio Nunnari und Sarah Ebling

Wir präsentieren einen Ansatz zur Vorhersage von Valenz, Erregung und Dominanz von Personen, die über Text-/Audio-/Videostreams kommunizieren, für eine Übersetzung aus und in Gebärdensprachen.

Der Ansatz besteht in der Fusion der Ergebnisse von drei CNN-basierten Modellen, die für die Analyse von Text, Audio und Gesichtsausdrücken eingesetzt werden. Unsere Experimente zeigen, dass jede Kombination von zwei oder drei Modalitäten die Vorhersageleistung für Valenz und Erregung erhöht

Doi 10.14428/esann/2023.ES2023-128

2022

Ethisches Bewußtsein in der Paralinguistik: Eine Taxonomie der Anwendungen

A. Batliner, M. Neumann, F. Burkhardt, A. Baird, S. Meyer, T. Vu, B. Schuller,

November 2022, Internationale Zeitschrift für Mensch-Computer-Interaktion: Seit dem Ende des letzten Jahrhunderts wurde die automatische Verarbeitung von paralinguistischen Daten umfassend erforscht und in vielen Anwendungen auf Wearables, Smartphones und Computern umgesetzt. In diesem Beitrag befassen wir uns mit dem ethischen Bewusstsein für paralinguistische Anwendungen, indem wir Taxonomien für Datendarstellungen, Systemdesigns für und eine Typologie von Anwendungen sowie Nutzer/Testsets und Themenbereiche erstellen.
DOI:10.1080/10447318.2022.2140385

2022

Sprachanalyse zur Erkennung neurologischer Störungen - Systematische Übersicht und Ausblick auf neue Trends

P. Hecker, N. Steckhan, F. Eyben, B. W. Schuller, B. Arnrich

July 2022, Frontiers in Digital Health 4:842301 Die Quantifizierung von neurologischen Störungen anhand der Stimme ist ein schnell wachsendes Forschungsgebiet und verspricht eine unauffällige und groß angelegte Überwachung von Störungen. Die Einrichtung der Datenaufzeichnung und die Datenanalyse-Pipelines sind beides entscheidende Aspekte, um effektiv relevante Informationen von den Teilnehmern zu erhalten. Daher haben wir eine systematische Überprüfung durchgeführt, um einen umfassenden Überblick über die Praktiken bei verschiedenen neurologischen Erkrankungen zu geben und neue Trends aufzuzeigen.
DOI:10.3389/fdgth.2022.842301, LizenzCC BY

2022

Eine vergleichende sprachübergreifende Betrachtung von Datenbanken zur Darstellung grundlegender Emotionen mit Hilfe von maschinellem Lernen

F. Burkhardt, A. Hacker, U. Reichel, H. Wierstorf, F. Eyben, B.W. Schuller

Proceedings of the Thirteenth Language Resources and Evaluation Conference. Seit mehreren Jahrzehnten werden von verschiedenen Labors Emotionsdatenbanken angelegt. Viele von ihnen enthalten Darstellungen von Darwins berühmten "großen vier" Grundemotionen. In diesem Beitrag untersuchen wir, inwieweit eine Auswahl von ihnen durch zwei Ansätze vergleichbar ist: zum einen durch Modellierung der Ähnlichkeit als Leistung in datenbankübergreifenden maschinellen Lernexperimenten und zum anderen durch Analyse eines manuell ausgewählten Satzes von vier akustischen Merkmalen, die verschiedene phonetische Bereiche repräsentieren. Es ist interessant zu sehen, inwieweit bestimmte Datenbanken (wir haben eine synthetische hinzugefügt) als Trainingsset für andere gut geeignet sind, während andere dies nicht sind. Im Allgemeinen fanden wir Anzeichen sowohl für Ähnlichkeit als auch für Spezifizität zwischen den Sprachen.
Anthologie ID: 2022.lrec-1.204 Juni 2022, Seiten: 1917-1924,

2022

Nkululeko: Ein Werkzeug zur schnellen Erkennung von Sprechereigenschaften

F. Burkhardt, J. Wagner, H. Wierstorf, F. Eyben, B. Schuller

Proceedings of the Thirteenth Language Resources and Evaluation Conference. Wir stellen Fortschritte bei einem Software-Tool namens Nkululeko vor, mit dem Benutzer (halb-)überwachte maschinelle Lernexperimente im Bereich der Sprechereigenschaften durchführen können. Es basiert auf audformat, einem Format für die Beschreibung von Metadaten in Sprachdatenbanken. Dank einer Schnittstelle, die auf konfigurierbaren Vorlagen basiert, unterstützt es beste Praktiken und eine sehr schnelle Einrichtung von Experimenten, ohne dass man die zugrunde liegende Sprache beherrschen muss: Python. Der Beitrag erklärt die Handhabung von Nkululeko und stellt zwei typische Experimente vor: Vergleich der akustischen Expertenmerkmale mit künstlichen neuronalen Netzen zur Emotionsklassifizierung und zur Regression des Sprecheralters.
Anthologie ID:2022.lrec-1.205, Seiten: 1925-1932,

2022

SyntAct: Eine synthetische Datenbank grundlegender Emotionen

F. Burkhardt, F. Eyben, B.W. Schuller,

Proceedings of the 1st Workshop on Dataset Creation for Lower-Resourced Languages (DCLRL) Die Erkennung von Sprachemotionen steht seit mehreren Jahrzehnten im Mittelpunkt der Forschung und hat viele Anwendungen. Ein Problem sind die spärlichen Daten für das überwachte Lernen. Eine Möglichkeit, dieses Problem zu lösen, ist die Synthese von Daten mit emotionssimulierenden Sprachsyntheseansätzen.
@LREC2022, Seiten 1-9, Marseille, 24. Juni 2022 © European Language Resources Association (ELRA), lizenziert unter CC-BY-NC-4.0

2022

Wahrgenommene Emotionen in von Säuglingen gesteuerten Erzählungen über Zeit und Sprechakte hinweg

K. Mády, B. Gyuris, HM Gärtner, A. Kohári, A. Szalontai, U. Reichel,

Speech Prosody 2022, 23-26 Mai 2022, Lissabon, Portugal Eine wichtige Funktion der kindgeleiteten Sprache (IDS) besteht darin, positive Emotionen gegenüber dem Baby auszudrücken. Dies wurde bereits anhand von prosodischen Parametern gezeigt, aber Parameter wief0 und Energie kodieren den Ausdruck von Emotionen nur indirekt. In dieser Studie zielen wir darauf ab, den Emotionsausdruck (Erregung und Valenz) in IDS direkt über die Wahrnehmung der Etikettierer zu erfassen. Die Aufnahmen wurden in den ersten 18 Monaten des Babys gemacht: im Alter von 0, 4, 8 und 18 Monaten.
Mai 2022, DOI:10.21437/SpeechProsody.2022-120, Konferenz: Speech Prosody 2022

2022

Untersuchung von Sprach-Emotionserkennungs-Transformatoren auf linguistisches Wissen

A. Triantafyllopoulos, J. Wagner, H. Wierstorf, M. Schmitt, U. Reichel, F. Eyben, F. Burkhardt, B. W. Schuller

April 2022, LicenseCC BY 4.0 Große, vortrainierte neuronale Netze, die aus Selbstbeobachtungsschichten (Transformatoren) bestehen, haben in jüngster Zeit in verschiedenen Datensätzen zur Sprach-Emotionserkennung (SER) Spitzenergebnisse erzielt. Diese Modelle werden in der Regel selbstüberwacht vortrainiert, um die automatische Spracherkennung zu verbessern.

2022

Anbruch der Transformer-Ära in der Sprach-Emotionserkennung: Schließen der Valenzlücke

J. Wagner, A. Triantafyllopoulos, H. Wierstorf, M. Schmitt, F. Eyben, B. W. Schuller, F. Burkhardt

Jüngste Fortschritte bei transformatorbasierten Architekturen, die in selbstüberwachter Weise vortrainiert sind, haben sich bei verschiedenen Aufgaben des maschinellen Lernens als sehr vielversprechend erwiesen. Im Audiobereich wurden solche Architekturen auch erfolgreich im Bereich der Sprach-Emotionserkennung (SER) eingesetzt. In den bisherigen Arbeiten wurde jedoch der Einfluss der Modellgröße und der Vortrainingsdaten auf die nachgelagerte Leistung nicht bewertet, und es wurde nur begrenzt auf Generalisierung, Robustheit, Fairness und Effizienz geachtet. Der vorliegende Beitrag führt eine gründliche Analyse dieser Aspekte an mehreren vortrainierten Varianten von wav2vec 2.0 und HuBERT durch.
16. März 2022, CC BY-NC-SA 4.0

2021

Age Classification: Comparison of Human vs Machine Performance in Prompted and Spontaneous Speech

F. Burkhardt, Markus Brückl und Björn Schuller

Altersklassifizierung: Vergleich zwischen menschlicher und maschineller Leistung bei aufgeforderter und spontaner Sprache, Proc. ESSV, 2021, PDF

2020

Acoustic Correlates of Likable Speakers in the NSC Database

Benjamin Weiss, Jürgen Trouvain und F. Burkhardt

Acoustic Correlates of Likable Speakers in the NSC Database, in book: Voice Attractiveness, Studies on Sexy, Likable, and Charismatic Speakers, DOI: 10.1007/978-981-15-6627-1_13, 2020

2019

How should Pepper Sound – Preliminary Investigations on Robot Vocalizations

F. Burkhardt, Milenko Saponja, Julian Sessner und Benjamin Weiss

Wie soll Pepper klingen - Voruntersuchungen zu Robotervokalisationen, Proc. of the ESSV 2019, 2019, PDF

2018

Speech Synthesizing Simultaneous Emotion-Related States

F. Burkhardt und Benjamin Weiss

Speech Synthesizing Simultaneous Emotion-Related States, Proc. of the Specom 2018, 2018, PDF

2018

The Perception and Analysis of the Likeability and Human Likeness of Synthesized Speech

Alice Baird, Emilia Parada-Cabaleiro, Simone Hantke, Felix Burkhardt, Nicholas Cummins und Björn Schuller

The Perception and Analysis of the Likeability and Human Likeness of Synthesized Speech, Proc. Interspeech, 2018

2019

Robust Speech Emotion Recognition Under Different Encoding Conditions

Oates, C., Triantafyllopoulos, A., Steiner, I., & Schuller, B. W.

Robuste Sprach-Emotionserkennung unter verschiedenen Kodierungsbedingungen. Proc. Interspeech 2019, 3935-3939.

2019

Towards Robust Speech Emotion Recognition Using Deep Residual Networks for Speech Enhancement

+ Triantafyllopoulos, A., Keren, G., Wagner, J., Steiner, I., & Schuller, B. W.

Auf dem Weg zu einer robusten Emotionserkennung für Sprache mit Hilfe von Deep Residual Networks zur Sprachanhebung. Proc. Interspeech 2019, 1691-1695.

2020

Towards Speech Robustness for Acoustic Scene Classification

Liu, S., Triantafyllopoulos, A., Ren, Z., & Schuller, B. W.

Sprachliche Robustheit für die akustische Szenenklassifikation. Proc. Interspeech 2020, 3087-3091.

2020

Spoken Language Identification by Means of Acosutic Mid-level Descriptors

+ Reichel, U. D., Triantafyllopoulos, A., Oates, C., Huber, S., & Schuller, B.

Identifizierung gesprochener Sprache mit Hilfe von akosutischen Deskriptoren der mittleren Ebene. Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2020, 125-132.

2019

Vergleich verschiedener Machine-Learning-Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo

Weiss, B., Michael, T., Reichel, U., Pauly, O.

Vergleich verschiedener Machine-Learning-Ansätze zur kontinuierlichen Schätzung von perzeptivem Sprechtempo, In: Birkholz, P., Stone, S. (Eds.): Elektronische Sprachverarbeitung. Studientexte zur Sprachkommunikation 93, S. 164-169, TUDpress, Dresden

2019

Filled pause detection by prosodic discontinuity features

Reichel, U.D., Weiss, B., Michael, T.

Erkennung gefüllter Pausen durch prosodische Diskontinuitätsmerkmale, In: Birkholz, P., Stone, S. (Eds.): Elektronische Sprachverarbeitung. Studientexte zur Sprachkommunikation 93, S. 272-279, TUDpress, Dresden

2018

audEERING’s approach to the One-Minute-Gradual Emotion Challenge

A. Triantafyllopoulos, H. Sagha, F. Eyben, B. Schuller

"audEERING's approach to the One-Minute-Gradual Emotion Challenge", arXiv preprint arXiv:1805.01222

2017

Detecting Vocal Irony

J. Deng, B. Schuller, "Erkennen von stimmlicher Ironie

in Language Technologies for the Challenges of the Digital Age: 27th International Conference, GSCL 2017, Vol. 10713, S. 11, Springer

Emotion-awareness for intelligent vehicle assistants: a research agenda

H. J. Vögel, C. Süß, T. Hubregtsen, V. Ghaderi, R. Chadowitz, E. André, ... & B. Huet

"Emotion-awareness for intelligent vehicle assistants: a research agenda," in Proceedings of the 1st International Workshop on Software Engineering for AI in Autonomous Systems, pp. 11-15, ACM

2018

Robust Laughter Detection for Wearable Wellbeing Sensing

G. Hagerer, N. Cummins, F. Eyben, B. Schuller

"Robust Laughter Detection for Wearable Wellbeing Sensing," in Proceedings of the 2018 International Conference on Digital Health, pp. 156-157, ACM