Aktuelle Trends für sprachbasierte Anwendungen

,
Caro Bauer

Haben Sie sich jemals gefragt, wie es wäre, wenn Ihnen Ihr persönlicher Assistent überall hin folgen würde? Jeder, der ein Smartphone oder einen PC besitzt, ist sicher schon mit einem der vielen Sprachassistenten in Berührung gekommen, die es gibt. Siri, Cortana, Google, Alexa - das sind die bekanntesten von ihnen. In den letzten Jahren haben sie erstaunliche Fortschritte beim Verstehen Ihrer Sprache gemacht. Das haben sie dem Fortschritt zu verdanken, den die automatische Spracherkennung (ASR) in diesem Jahrzehnt gemacht hat.

Obwohl sich die ASR-Leistung stetig verbessert hat und die Sprachassistenten immer besser verstehen, was Sie sagen, war es oft der Fall, dass sie nicht verstehen konnten, was Sie meinen. Es gab immer wieder Situationen, in denen Sie etwas mehrmals wiederholen mussten, Ihren Ausdruck vereinfachen, die Verwendung von Wörtern einschränken, Ihre Sätze verkürzen usw. Die nächste Hürde auf dem Weg zu einer intelligenten Unterhaltung mit einer Maschine war die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), kurz gesagt, die automatische Analyse Ihrer Sätze.

Nun, ich habe gute Nachrichten! 2018 wurde von vielen führenden KI-Forschern als das Jahr des NLP bezeichnet - und das aus gutem Grund. Es ist das Jahr, in dem enorme Fortschritte bei der Verwendung von tiefen neuronalen Netzen zur Lösung vieler Aufgaben erzielt wurden, die die Forschungsgemeinschaft seit Jahrzehnten vor Herausforderungen gestellt haben. Dies öffnet die Tür zu intelligenteren Anwendungen für Sprachassistenten. Doch was darüber hinausgeht, könnte die Art und Weise, wie wir die Welt um uns herum wahrnehmen, für immer verändern.

Denken Sie an die Art und Weise, wie Sie heute mit den meisten Ihrer Geräte interagieren. Um eine Antwort von Ihrem PC oder Smartphone zu erhalten, müssen Sie mit der Tastatur tippen, mit der Maus klicken, scrollen, durch Registerkarten navigieren, streichen, mit dem Finger drücken und so weiter. Nehmen Sie sich einen Moment Zeit und überlegen Sie, wie Sie mit anderen Menschen interagieren. Wahrscheinlich sprechen Sie die meiste Zeit einfach mit ihnen.

Die gesprochene Sprache ist seit den Anfängen unserer Spezies die von uns gewählte Art der Kommunikation. Wahrscheinlich ist sie in unserer Evolutionsgeschichte sogar viel weiter zurück als die ersten Menschen, die aus Afrika kamen. Laute sind so tief in die Art und Weise verwurzelt, wie wir mit unserer Welt interagieren, dass es unmöglich ist, sich eine Zukunft vorzustellen, in der unsere Kommunikation mit Maschinen nicht zumindest teilweise auf dieser Modalität basiert.

Und der Zeitpunkt dafür ist nun endlich gekommen. ASR war die erste Grenze. Wenn eine Maschine nicht in der Lage ist, unsere Wortwahl zu erfassen, ist es natürlich sinnlos, mit ihr in Sprache zu kommunizieren. Heute sind unsere Telefone jedoch in der Lage, fast alles, was wir sagen, sofort zu transkribieren, und das sogar unter sehr unterschiedlichen Geräuschbedingungen.

NLP war das zweite Hindernis. Was nützt es, wenn unsere Maschine alles aufschreibt, was wir sagen, wenn fast nichts für sie einen Sinn ergibt. Natürlich sind wir noch weit von einem Algorithmus entfernt, der die menschliche Sprache mit all ihren Feinheiten und Nuancen verstehen kann, aber das ist nicht das, was wir brauchen. Das Wichtigste ist die grundlegende Benutzerfreundlichkeit.

Es gibt noch viele weitere Meilensteine für eine wirklich konversationelle KI, aber die beiden wichtigsten sind bereits erreicht. Ein sprachgesteuertes Betriebssystem wird kommen - es passiert bereits. Siri, Alexa, Google, Cortana - sie alle verändern die Art und Weise, wie wir im täglichen Leben mit unseren Geräten interagieren. Schon bald werden sie zur Norm werden. Es wird unvorstellbar sein, eine Maschine zu besitzen, die nicht in der Lage ist, zu verstehen, was man sagt, so wie es fast unvorstellbar ist, eine Maschine zu besitzen, die man nicht mit einer Berührung des Fingers steuern kann. Genauso wie es unvorstellbar ist, eine Maschine zu besitzen, die nur über eine Tastatur - und ein Terminal - zugänglich ist.