Künstliche Intelligenz, die emotional intelligent wird, wird derzeit überall in den Medien und der Industrie diskutiert
. Doch wie ist der aktuelle Stand der Dinge in der Branche wirklich? Ist er an Sprachassistenten wie Siri und Alexa messbar?
Sind wir reif für Emotionen?
In weiten Teilen der Welt wird die Grenze zwischen Mensch und Maschine durch das allgegenwärtige Internet immer niedriger, angeheizt durch zwei Trends: zum einen die allgegenwärtige Datenverarbeitung über Smartphones, Wearables, Brillen und Implantate und zum anderen die Haus- und Fahrzeugautomatisierung über intelligente Lautsprecher, vernetzte
Hauskomponenten und Unterhaltungssysteme.
Mit dem enormen Wachstum der Mensch-Maschine-Kommunikation rückt die natürlichste Form der Kommunikation, die dem Menschen gegeben ist, in den Mittelpunkt: die Sprache. Aber Sprache ist viel mehr als nur Worte: Sprache ist Ausdruck der Seele! (Das meiste, was wir ausdrücken, wird nicht durch die Worte definiert, die wir benutzen, sondern durch die Art, wie wir sie sagen. Wie ein vergessener griechischer Schauspieler einmal prahlte: "Ich kann das Publikum zum Weinen bringen, indem ich einfach das Alphabet aufsage!"
Sogenannte AI-Bots wie Siri, Alexa, Cortana und Google Now
Das Ignorieren dieses riesigen Informationsschatzes ist eines der größten Versäumnisse (neben der wirklichen Intelligenz), mit denen die derzeitigen sogenannten KI-Bots wie Siri, Alexa, Cortana oder Google Now zu kämpfen haben. Ohne diesen Kanal werden weder Dringlichkeit, Desinteresse, Abscheu noch Ironie erkannt und darauf reagiert - allesamt unerlässlich für eine Interaktion, die die Bezeichnung "natürlich" verdienen würde.
Der "emotionale Kanal" wurde lange Zeit ignoriert, ich erinnere mich, dass ein Verkäufer eines großen Sprachtechnologieanbieters auf meine Frage nach emotionaler Sprachsynthese vor 15 Jahren antwortete: "Wir konzentrieren uns auf Stabilität und überlassen die Forschung der Wissenschaft", aber das ändert sich jetzt, natürlich auch befeuert durch den aktuellen KI-Hype.
Der Bereich der emotionalen KI
Emotionale künstliche Intelligenz ist ein vergleichsweise neues Feld, aber es gibt eine enorme Entwicklung in diesem Bereich. Unterstützt durch eine Fülle neu entwickelter Open-Source-Komponenten, -Module, -Bibliotheken und -Sprachen zur Extraktion akustischer Merkmale aus Audiodaten und deren Einspeisung in maschinelle Lernsysteme kann heute jeder halbwegs fähige Programmierer in etwa zwei Arbeitstagen einen ersten Prototyp einer
emotionsbewussten Dialogmaschine zusammenstellen.
Neben vielen KMUs haben alle großen Unternehmen wie Amazon, Microsoft, IBM oder Apple bereits Lösungen für die Emotionserkennung aus der Analyse der Gesichtsmimik auf dem Markt und haben sicherlich auch interne Entwicklungen für die Erkennung aus Sprache. Viele kleinere Unternehmen bieten Dienstleistungen zur Stimmungserkennung aus Text, Biosignalanalyse und Audioanalyse an.
Aber hält die Technologie auch, was die Vermarkter versprechen?
Anwendungen
Die Anwendungen sind vielfältig: Die Erkennung von Emotionen könnte bei der automatisierten Marktforschung helfen; ein Bereich, in dem bereits viele Unternehmen ihre Dienste anbieten, indem sie Zielgruppen bei der Interaktion mit einem neuen Produkt beobachten und dabei die emotionale Reaktion objektiv messen.
Die Erkennung von Stress oder Müdigkeit kann helfen, den Verkehr sicherer zu machen, die Erkennung von Interesse oder Langeweile sind offensichtliche Kandidaten für E-Learning-Software, die Klassifizierung von Sprechern kann helfen, automatisierte Dialoge so anzupassen, wie es Menschen tun würden. Um weitere Bereiche zu nennen: automatisierte Sicherheitsbeobachtung, glaubwürdige
Charaktere in Spielen oder Lernsoftware für professionelle Schauspieler wie Verkäufer und Politiker fallen mir ein.
Ein weites Feld bietet auch der Bereich der Gesundheitsfürsorge und des Wohlbefindens: Die Beobachtung des emotionalen Ausdrucks könnte mir helfen, andere und mich selbst zu verstehen und therapeutische Behandlungen zu unterstützen.
Es gibt sogar schon Anwendungen auf dem Markt, die vielleicht nicht so offensichtlich sind, wie z. B. das Bezahlen pro Lachen beim Ansehen von Komödien im Kino.
Aber es gibt, wie immer im Leben, Gefahren und Nachteile:
Zunächst einmal: Was sollte ein KI-gesteuertes Dialogsystem mit den Informationen über den emotionalen Zustand des Benutzers tun?
Ein System, das auf meine Emotionen reagiert, scheint intelligenter zu sein als ein dummer Toaster, der meine Dringlichkeit ignoriert. Aber kann es den geweckten Erwartungen standhalten?
Ich erinnere mich, als ich vor etwa 12 Jahren meine ersten emotionalen Dialoge programmierte, an den seltsamen Moment, als mein sehr einfacher Wenn-dann-es-Dialog intelligent erschien - nur weil ich eine Unvorhersehbarkeitsschicht aufgrund der fehlerhaften Erkennung meines eigenen emotionalen Zustands hinzugefügt hatte.
Symbolische KI, also die Modellierung der Welt durch ein regelbasiertes Expertensystem, ist bis heute nur in sehr begrenzten Bereichen erfolgreich, dasselbe gilt für Systeme, die auf maschinellem Lernen basieren: Die Welt ist einfach zu komplex, als dass sie durch ein künstliches neuronales Netz oder eine Support-Vektor-Maschine
modelliert werden könnte, abgesehen von einem sehr kleinen Teil davon.
Denken Sie daran: Alles, was passieren kann, wird irgendwann passieren, und einige Ereignisse mögen selten sein, aber es gibt eine wirklich große Anzahl von ihnen, so dass die Welt von Natur aus chaotisch ist und sich Modellen entzieht!
Eine vielversprechende Möglichkeit, das Beste aus beiden Welten zu machen, sind ontologiebasierte maschinelle Lerntechniken.
Ein weiterer Punkt, über den man sich im Klaren sein muss, sind die ethischen Folgen der Technologie zur Erkennung von Emotionen: Es gibt Tausende von Definitionen von Emotionen, aber die meisten beinhalten, dass der Ausdruck von Emotionen etwas ist, dessen sich der Mensch nicht bewusst ist, das er nicht direkt kontrollieren kann und das er in vielen Fällen auch nicht beworben haben möchte. Wir müssen also sehr vorsichtig sein, wie wir diese Systeme einsetzen, wenn wir nicht einen weiteren Schritt in Richtung einer Welt gehen wollen, die George Orwell vorschwebt.
Fallstricke
Die Technologie zur Erkennung von Emotionen basiert auf maschinellem Lernen, d. h. sie wird durch Daten aus menschlichen Interaktionen gespeist. Dabei sind mehrere Kompromisse zu beachten: Gespielte oder im Labor erhobene Daten sind von guter Qualität, haben aber nur eine sehr begrenzte Aussagekraft für Emotionen in der realen Welt, die aufgrund von Datenschutzproblemen schwer zu erfassen sind und per Definition voller Rauschen und unerwarteter Ereignisse sind. Bestehende Datenbanken unterscheiden sich stark in Bezug auf die akustischen Bedingungen, was es schwierig macht, sie alle für ein großes, einheitliches Modell zu verwenden.
Es gibt ein berühmtes Zitat, das das Dilemma der Emotionsdefinition recht gut veranschaulicht: "Jeder außer einem Psychologen weiß, was eine Emotion ist" (Kleinginna & Kleinginna 1970), also bitten wir normalerweise Menschen, die Daten für ein bestimmtes kategoriales System manuell zu benennen, ein kostspieliges Verfahren für die sehr großen Datenmengen, die zum Trainieren von maschinellen Lernsystemen benötigt werden, die für Daten aus der "wilden Welt außerhalb meines Labors" verallgemeinern.
Aber das sind nur die ersten Fragen, mit denen ein angehender Ingenieur, der Emotionen erkennen will, konfrontiert wird - das Zusammenspiel von Emotionen, Stimmungen und Persönlichkeit würde die Sache weiter verwirren. Wie viele emotionale Zustände gibt es zu einem bestimmten Zeitpunkt? Einen? Zwei? Mehr? Wie höre ich mich an, ein extrovertierter Mensch, der gerade erfahren hat, dass er sein Examen nicht bestanden hat, aber frisch verliebt ist? Kann ich von einem haitianischen Zahnarzt lernen, meine Gefühle zu erkennen, wenn ich ein deutscher Zimmermann bin? Wenn es einen Unterschied zwischen den Geschlechtern gibt, wie spiegelt sich das in ihren Gefühlsäußerungen wider? Dann ist da noch die Frage, wie lange eine Emotion anhält, wie man die Daten aufteilt, wie man Übergänge modelliert?
Das Positive an der Sache
Die meisten dieser Probleme sind nicht ausschließlich auf die Emotionserkennung beschränkt, sondern betreffen das maschinelle Lernen im Allgemeinen, und es gibt viele Ideen, sie durch unüberwachtes oder halbüberwachtes Lernen, innovative Architekturen, die von evolutionären Modellen inspiriert sind, oder durch Subkategorisierung von Parametern für eine bessere Verallgemeinerung zu lösen, um nur einige zu nennen
Angesichts all dieser Herausforderungen ist es am besten, klein anzufangen, die Erwartungen realistisch zu halten und sich auf einen begrenzten Bereich zu beschränken, der durch Ihre Anwendung definiert ist. Lernen Sie von den Daten, die Ihr System produziert, und definieren Sie Ihre emotionalen Modelle, die die Anforderungen des Anwendungsszenarios widerspiegeln. Aber Moment: Welches System? Es ist doch noch gar nicht gebaut! Ein Ausweg aus dem klassischen Henne-Ei-Problem ist das so genannte Wizard-of-Oz-Szenario, bei dem ein versteckter Mensch das Systemverhalten nachahmt, um Benutzereingaben für das System zu provozieren.
Eine andere Möglichkeit besteht darin, das System mit Daten aus einer anderen Anwendung zu trainieren, die in Bezug auf die akustischen Bedingungen und den angestrebten emotionalen Ausdruck ähnlich ist. Oder man beginnt mit einem regelbasierten System für "freundliche Nutzer" - in jedem Fall sollte jede Anwendung eine Feedbackschleife enthalten, um mit der Nutzung besser zu werden.
Wie gut können wir sein?
In den letzten zehn Jahren gab es in der Forschung eine Reihe wissenschaftlicher Benchmarks, die Aufschluss über die Systemgenauigkeit geben könnten. Den Anfang machte 2009 die Interspeech Emotion Challenge, gefolgt von der ersten AudioVisual Emotion Challenge (AVEC 2011). Seitdem fanden sieben jährliche AVEC-Challenges statt, und die Interspeech-Reihe befasste sich 2013 erneut mit emotionaler Spracherkennung. Inzwischen gibt es auch Wettbewerbe, die mediales Material wie Filmausschnitte berücksichtigen, nämlich den jährlichen (seit 2013) Emotion in the Wild Challenge (EmotiW14) und den neuen Multimodal Emotion Challenge (MEC 2016 und 2017). Zwar sind die Fortschritte nicht direkt vergleichbar, da in den Challenges meist unterschiedliche Datenbanken verwendet wurden, doch lässt sich feststellen, dass sich erstens die zugrunde liegenden Datenbanken von Labordaten hin zu realistischeren, "in freier Wildbahn" gewonnenen Daten entwickelt haben und zweitens neue Techniken wie ausgefeilte Architekturen künstlicher neuronaler Netze oder Datenerweiterung zu stabileren Ergebnissen führen, ganz zu schweigen von der Steigerung der Rechenleistung durch die neu entdeckte Anwendung von GPUs.
Darüber hinaus können einige Faustregeln angewandt werden: Bei einer Klassifizierungsaufgabe hängt die Genauigkeit natürlich von der Anzahl der Klassen ab und man kann davon ausgehen, dass sie etwa doppelt so hoch ist wie der Zufallswert (ich spreche von Testdaten aus der "realen Welt", nicht von Labordaten, die der Systementwickler von Hand gesammelt hat). Aspekte des emotionalen Ausdrucks, die den Sprachproduktionsapparat direkt beeinflussen, wie z. B. der Grad der Erregung, sind viel leichter zu erkennen als z. B. die Valenz, die sich leichter aus dem mimischen Ausdruck ermitteln lässt. Natürlich hilft die Fusion von Ergebnissen aus verschiedenen Modalitäten, von denen einige sogar direkt aus dem akustischen Signal abgeleitet werden können, wie die Textanalyse oder die Schätzung des Pulses aus Schwankungen in der Stimme.
Im Vergleich zu einer Gruppe menschlicher Beschrifter kann man davon ausgehen, dass die maschinellen Klassifizierungsergebnisse mindestens so gut sind wie die eines gut funktionierenden Menschen, wenn nicht sogar übermenschlich. Und zu guter Letzt: Ein starker und klarer emotionaler Ausdruck wird viel besser erkannt als schwache und undeutliche Signale.
Schlussfolgerungen
Sollte ich also emotionales Bewusstsein in meinem System verwenden? Auf jeden Fall, ja! Es gibt noch viel zu lernen, und das, was derzeit als KI bezeichnet wird, verdient nicht wirklich das Attribut "intelligent", aber das Ignorieren des enormen Reichtums an emotionalem Ausdruck in der Mensch-Maschine-Kommunikation ist keineswegs hilfreich.
Seien Sie sich der Fallstricke bewusst, wecken Sie keine unrealistischen Erwartungen und sorgen Sie dafür, dass Ihr System für den Benutzer transparent ist. Wir haben gerade erst mit einer hoffentlich nie endenden Reise begonnen, und wir werden nicht weiterkommen, wenn wir nicht den ersten Schritt machen.
Es gibt eindeutig bereits viele Anwendungen in bestimmten Bereichen, die von der affektiven Analyse stark profitieren.