Sprechstil: oder Sollten Computer langweilig klingen?

,
Felix Burkhardt

Die Text-zu-Sprache-Synthese hat in den letzten Jahren enorme Fortschritte gemacht, aber der Sprachstil ist immer noch eine Herausforderung
.

Meine Bose-Box und ihr Tonfall

Kürzlich sprach mein Bose-Gerät mit einer Stimme zu mir, die so anders klang als alles, was so ein kleines Gerät von sich geben könnte, dass ich einen Schreck bekam. Außerdem schien sie beleidigt zu sein, als sie "Smartphone verbunden" sagte, dem Tonfall nach zu urteilen.

Emotionale Sprachsynthese ist ein wichtiges Puzzlestück auf dem langen Weg zu einer menschenähnlichen künstlichen Mensch-Maschine-Interaktion. Niemand spricht jemals ohne Emotionen, und der Sprachstil enthält manchmal mehr Informationen als die eigentlichen Worte. Stellen Sie sich vor, Ihr Auto informiert Sie über den Benzinmangel in demselben Tonfall wie über die Außentemperatur.

Emotionssimulation als Funktion in Sprachsynthesizern

Trotzdem ist die Simulation von Emotionen in aktuellen Sprachsynthesizern noch keine Selbstverständlichkeit.
Ein Grund dafür liegt sicherlich in der Komplexität des menschlichen Stimmausdrucks: Die aktuellen State-of-the-Art-Synthesizer haben immer noch mit der Herausforderung zu kämpfen, unbekannte Wörter verständlich und natürlich klingend auszusprechen, obwohl die letztgenannte Anforderung bereits auf die Bedeutung des affektiven Ausdrucks hinweist.

Auf Giganten stehen

Um Sprache zu erzeugen, kann man den Stimmapparat kopieren (mit den Flügeln schlagen) oder das Stimmsignal (einfach fliegen). Wie sich herausstellt, führt die letztere Methode in den meisten praktischen Anwendungen zu schnelleren Ergebnissen. Ähnlich wie bei der künstlichen "Intelligenz" kann die Sprache durch eine Reihe fester Expertenregeln oder durch die Extraktion von Mustern aus einer Datenbank erzeugt werden.

Als die Menschheit in den 40er Jahren begann, an sprechenden Maschinen zu arbeiten [1], ging es mehr um die Verständlichkeit der Sprache als um die Vielfalt des stimmlichen Ausdrucks, obwohl selbst die ersten kommerziellen Synthesizer, die wie der von Stephen Hawking berühmt gemachte DEC Talk regelbasiert waren, zwar eine Vielzahl von Stimmen, aber keine Sprechstile boten, obwohl die Forschung vielversprechende Ergebnisse zeigte [2].

Später in den 90er Jahren kam die erste Welle kommerzieller Synthese auf einem Markt außerhalb des medizinischen Bereichs mit der Erfindung des PSOLA-Algorithmus [3] auf, der die Modifizierung von Melodie und Rhythmus von Stimmproben ermöglichte, die durch das Zusammenfügen von Sprachfetzen im stationären Zustand von Telefonen konstruiert wurden, bekannt als Diphonsynthese. Ich weiß nichts über kommerzielle Systeme, aber Iida et al. von ATR [4] und Marc Schröder am DFKI leisteten Pionierarbeit mit der Multiplikation der Datenbank nach verschiedenen Stimmqualitäten, um emotionale Erregung zu simulieren.

Der Anschein von Natürlichkeit

Als dann im neuen Jahrtausend die Konversationssysteme wirklich den Alltag erreichten, machte ein neuer Ansatz namens "nonuniform unit-selection" (der genau das tat, und zwar aus viel größeren Datenbanken als die Diphonsynthese) einen Rückschritt in Bezug auf die emotionale Flexibilität, versuchte aber, durch das Einfügen von affektiven Klängen in die Daten den Anschein von Natürlichkeit zu erwecken. Interessanter wurde es bei der statistischen Synthese, bei der auf Quellenfiltern basierende Sprachproduktionsmodelle für Stimmprofilierungsexperimente verwendet wurden, bei denen die Sprechstileigenschaften einer Quelle auf einen Zielsprecher übertragen wurden, und zwar auf Kosten der durch die Quellenmodellierung eingeführten Brummigkeit.

Während der uneinheitliche Unit-Selection-Ansatz mit dem Problem einer starken Domänenabhängigkeit konfrontiert ist, zeigen die neuen Entwicklungen auf dem Gebiet der tiefen neuronalen Netze einen Ausweg aus dem Problem der fehlenden Generalisierungsfähigkeit. Zum Beispiel kann Googles Tacotron-Architektur über so genannte globale Stil-Token nicht nur einen Sprachstil kopieren, sondern dies sogar auf skalierbare Weise tun, d.h. einen Stil mit unterschiedlicher Stärke einbetten [5]. Es scheint, dass die Ingenieure von Amazon an einem ähnlichen Ansatz arbeiten [7].

Bis jetzt sind die Schnittstellen zur Ausdrucksfähigkeit von Sprachsynthesizern proprietär, obwohl es Empfehlungen für die Formalisierung des emotionalen Stils gibt, wie z.B. W3C's EmotionML [8]. Um den heiligen Gral der Sprachsynthese zu erreichen: einen Synthesizer zu haben, der in der Lage ist, Sprechercharakteristika aus sehr kleinen Daten zu modellieren, sind Errungenschaften in physikalischen Modellierungstechniken wie der artikulatorischen Synthese vielversprechend [6], ebenso wie die neuen Errungenschaften in der tiefen neuronalen Netzverarbeitung.

Für Neugierige, die wissen wollen, wie ein emotionaler Computer klingt, habe ich auf dieser Webseite einige Beispiele gesammelt:
http://emosamples.syntheticspeech.de/

Literatur

[1] Dudley Vocoder, z.B. Klatts Geschichte der Sprachsynthese: https://tcscasa.org/klatts-history-of-speech-synthesis/
[2] Janet Cahn: http://alumni.media.mit.edu/~cahn/emot-speech.html
[3] Charpentier und Stella: https://ieeexplore.ieee.org/document/1168657
[4] M. Schröders Überblick über die emotionale Sprachsynthese: https://www.dfki.de/lt/publication_show.php?id=1130
[5] Hörbeispiele aus Googles Tacotron: https://google.github.io/tacotron/publications/global_style_tokens/
[6] P. Birkholz' VocalTracktLab: http://www.vocaltractlab.de/
[7] https://blog.aboutamazon.com/devices/alexa-whats-the-latest
[8] https://www.w3.org/TR/emotionml/