Wenn Ihr Toaster mit Ihnen spricht: Wie sollte eine Maschine klingen?

,
Felix Burkhardt

Wie sollte eine Maschine klingen? Wir werden von sprechenden Maschinen umgeben, aber sind ihre Stimmen angemessen?

Die Interaktion mit Robotern wird mehr und mehr Teil unseres täglichen Lebens, unabhängig von ihrer Form und Größe oder ob sie überhaupt einen Körper haben
. Hausautomatisierung, intelligente Lautsprecher, Chat-Apps, Pflegeroboter: Sie alle nutzen die natürlichste Kommunikations
schnittstelle, die die Menschheit erfunden hat: die Sprache, aber die meisten haben Standardstimmen, die nichts mit dem Körper zu tun haben, den sie besitzen.

Ein weiterer Aspekt der Roboterstimme ist der Sprechstil, der sich im Idealfall an die Kommunikation
Situation anpasst, zumindest aber der Aufgabe, für die der Roboter konzipiert ist, angemessen sein sollte. Wenn der Roboter z. B. als
ein Spielzeug für die Interaktion mit Kindern konzipiert ist, ist eine Anker-Mann-Stimme wahrscheinlich keine gute Wahl. Ich habe vor kurzem einen Blog-Beitrag über emotionale
Sprachsynthesizer geschrieben, in dem dieses Thema ausführlicher behandelt wird.

Sollten Roboter "natürlich" klingen?

Wie Roger Moore in [1] betont, ist es nicht selbstverständlich, dass Roboterstimmen so menschenähnlich wie möglich sein sollten. Sie künstlicher zu gestalten, könnte sogar eine Lösung sein, um den "uncanny valley"-Effekt [2] zu vermeiden, der besagt, dass ein künstliches Wesen, das natürlich wie ein Mensch klingt, aber nicht ganz, nicht dazu beiträgt, dass sich die Benutzer wohl fühlen, sondern unheimlich wirken könnte.
Außerdem könnte eine menschenähnliche Stimme für einen Roboter, der nichts anderes tut, als Ihnen etwas zu essen zu bringen, dazu verleiten, über Ihre Eheprobleme zu plaudern, was wahrscheinlich zu Frustration führen wird.
In einer Untersuchung von Wilson et al. [3] wurden Roboterstimmen aus Filmen und Spielen untersucht und anhand von akustischen Parametern beschrieben. Die meisten von ihnen wiesen einen freiwillig hohen Grad an Künstlichkeit auf, der "... durch eine kleine Erhöhung der Tonhöhe, gefolgt von der Hinzufügung von Harmonien und der Einführung eines Echos" erreicht werden kann. Natürlich führt die Tatsache, dass die Menschen seit den 50er Jahren in den Medien mit einer bestimmten Art von Roboter- (und Alien-) Stimmen konfrontiert wurden, zu einer gewissen Erwartungshaltung.
Obwohl meines Wissens kein Sprachsynthesizer jemals mit einer flachen Tonhöhenkontur gesprochen hat, verwechseln die Leute Sie mit einem Roboter, sobald Sie anfangen, auf monotone Weise zu sprechen. Daraus folgt: Wenn Sie wollen, dass Ihre Roboterstimme überzeugender ist, dann tun Sie es, auch wenn es keine technischen Gründe dafür gibt.

Große Körper haben tiefe Stimmen, oder doch nicht?

Wenn Roboter sprechen, wird die Stimme in der Regel nicht durch mechanische Stimmorgane, sondern durch digitale Sprachsynthese erzeugt, so dass die Übereinstimmung zwischen Stimme und Aussehen nicht natürlich ist. Es gibt einige grundlegende physikalische Gesetze, die den Klang der Stimme mit dem Körper, der sie erzeugt, in Verbindung bringen, zum Beispiel, dass längere Stimmbänder langsamer schwingen. Wenn die Übereinstimmung schlecht ist, merken die Nutzer vielleicht gar nicht, dass die Stimme von einem Roboter stammt.
Eine weitere interessante Frage: Ist es schöner, eine globale Intelligenz im Hintergrund zu haben, die durch eine Vielzahl von Maschinen mit einem spricht, oder würden wir es vorziehen, wenn jede Maschine ihre eigene Stimme und Persönlichkeit hätte? Und wenn ja, welche Persönlichkeit und wie sieht es mit der Geschlechterfrage aus? Clifford Nass und Scott Brave haben bereits vor einem Jahrzehnt ein interessantes Buch darüber geschrieben [4].

Sollte der Roboter glücklich klingen?

Die Eignung eines emotionalen Synthesizers hängt natürlich in erster Linie von der Anwendung ab: Ein Synthesizer, der Comicfiguren eine Stimme verleiht, erfüllt andere Anforderungen als ein System, das die Stimme einer sprachbehinderten Person natürlicher macht. Spaß, zum Beispiel emotionale Begrüßungen, Prothesen, Chat-Avatare, Spiele, glaubwürdige Charaktere, angepasstes Dialogdesign, angepasstes Persona-Design, zielgruppenspezifische Werbung, glaubwürdige Agenten, künstliche Menschen sind alles Anwendungsfälle für emotionale Sprache, wobei die Anwendungen weiter unten in der Liste eng mit der Entwicklung künstlicher Intelligenz verbunden sind. Da Emotionen und Intelligenz eng miteinander verwoben sind, ist große Vorsicht geboten, wenn Computersysteme emotional zu reagieren scheinen, ohne die Intelligenz zu besitzen, um die Erwartungen des Benutzers hinsichtlich der Dialogfähigkeit zu erfüllen.

Literatur

[1] Moore, R. K.: Appropriate voices for artefacts: some key insights. In 1st Int. Workshop on Vocal Interactivity in-andbetween Humans, Animals and Robots (VIHAR-2017). 2017.
[2] Mori, M.: The Uncanny Valley. Energy, 7(4), S. 33-35, 1970.
[3] Wilson, S. and Moore, R. K.: Robot, alien and cartoon voices: implications for speech-enabled systems In 1st Int.
Workshop on Vocal Interactivity in-and-between Hu- mans, Animals and Robots (VIHAR-2017). 2017.
[4] Nass, C. und Brave, S.: Wired for Speech. MIT Press 2005