devAIce® SDK 3.7.0 Aktualisierung

,
Caro Bauer

Wir freuen uns, heute die öffentliche Freigabe von devAIceⓇ SDK 3.7.0 bekannt zu geben. Dieses Update enthält mehrere bemerkenswerte Modell-Updates für die Emotions- und Alterserkennung, die Abschaffung des Sentiment-Moduls sowie zahlreiche weitere kleinere Optimierungen, Verbesserungen und Fehlerbehebungen.

Wie immer empfehlen wir allen Nutzern des devAIceⓇ SDK, ein Update auf die neueste SDK-Version in Erwägung zu ziehen, um von den Modellverbesserungen, Korrekturen und neuen Funktionen zu profitieren.

Was ist neu in devAIceⓇ SDK 3.7.0

Verbesserungen der Robustheit des Emotionsmodells

Die dimensionalen und kategorialen Emotionsmodelle, die Teil des Moduls Emotion (Large) sind, wurden in dieser Version aktualisiert. In unseren Benchmarks zeigt die neue Version dieser Modelle im Vergleich zu den vorherigen Modellen eine deutlich höhere Robustheit gegenüber Hintergrundgeräuschen und Änderungen der Aufnahmebedingungen. Wir erwarten daher, dass die neuen Modelle genauere Vorhersagen liefern, wenn das analysierte Audiomaterial Rauschartefakte enthält. Auch die Aufnahme desselben Sprechers mit verschiedenen Mikrofonen oder unter unterschiedlichen Aufnahmebedingungen (z. B. Aufnahmelautstärke, Abstand des Sprechers zum Mikrofon, Hall) sollte mit den neuen Modellen zu konsistenteren emotionalen Ergebnissen führen.

Wenn Sie auf diese neuere Version der Modelle aktualisieren, bedenken Sie bitte, dass alle anwendungsspezifischen Schwellenwerte oder Logiken, die Sie für die Modellausgabe auf der Grundlage der vorherigen Version definiert haben, möglicherweise neu bewertet und für die neue Version angepasst werden müssen. Denn auch wenn sich die Wertebereiche und die Semantik der Emotionsdimensionen und -kategorien zwischen den Versionen nicht geändert haben, können sich die neuen Modelle in bestimmten Aspekten anders verhalten, so dass Ihre zuvor festgelegte Logik und Schwellenwerte ungültig werden.

Altersmodell der neuen Generation

Das Update 3.7.0 des devAIceⓇ SDK enthält ein überarbeitetes Altersmodell, das Teil des Moduls "Speaker Attributes" ist. Das bisherige Modell wurde durch ein wesentlich genaueres und robusteres Modell ersetzt, das eine moderne Deep-Learning-basierte Architektur nutzt. Das neue Modell sagt das richtige Alter mit einem mittleren absoluten Fehler (MAE) von 10,56 Jahren voraus, wenn es mit realen sauberen und verrauschten Sprachdaten getestet wird. Das bedeutet, dass das Modell im Durchschnitt etwa 11 Jahre vom wahren Alter eines Sprechers abweicht. Zum Vergleich: Das Altersmodell, das in früheren Versionen von devAIce enthalten war, wies einen mittleren absoluten Fehler von 19,51 Jahren bei der gleichen Testmenge auf. Somit halbiert das neue Modell den Vorhersagefehler des vorherigen Modells fast.

Die Verbesserung der Genauigkeit geht mit einer Erhöhung des CPU- und Speicherverbrauchs zur Laufzeit gegenüber dem Vorgängermodell einher, da das neue Modell deutlich größer und komplexer ist. Wir empfehlen allen Nutzern, die von einer Vorgängerversion auf diese Version aktualisieren, zu prüfen, ob die Ressourcenanforderungen des neuen Modells für ihre Anwendungen akzeptabel sind. Für Benutzer, die nur an der Geschlechtsausgabe des Moduls Sprecherattribute interessiert sind und die Altersausgabe nicht benötigen, empfiehlt es sich, die Altersausgabe über die entsprechende Modulkonfigurationseinstellung zu deaktivieren, um Ressourcen zu sparen und die Analyse zu beschleunigen.

Abschaffung des Sentiment-Moduls

Das Sentiment-Modul wurde mit dieser Version veraltet und aus dem devAIceⓇ SDK entfernt. Davon ausgenommen ist das Modul Multi-Modal Emotion, das akustische und textbasierte Analyse kombiniert und weiterhin verfügbar ist und vollständig unterstützt wird.

Bei devAIceⓇ ging es schon immer darum, die Vorteile von akustisch basierten Analysemethoden gegenüber traditionellen textbasierten Methoden zu nutzen. In Zukunft werden wir uns verstärkt auf akustische und multimodale Ansätze konzentrieren und empfehlen unseren Kunden, Lösungen von Drittanbietern für die rein textbasierte Analyse in Betracht zu ziehen oder bei der vorherigen Version 3.6.1 zu bleiben, wenn sie eine Abhängigkeit vom Sentiment-Modul in devAIceⓇ haben.

Andere Änderungen und Verbesserungen

Weitere Verbesserungen, die dieses Update mit sich bringt, sind Verfeinerungen bei der Schätzung der Sprechgeschwindigkeit, ein modernisiertes iOS-App-Projektbeispiel sowie eine Reihe kleinerer API-Verbesserungen und Fehlerbehebungen.

Eine vollständige Liste aller Änderungen in dieser Version finden Sie wie immer im offiziellen Changelog-Dokument, das Teil des devAIceⓇ SDK-Pakets ist.

Bitte beachten Sie auch, dass nur die Modelle des Moduls Emotion (Large) in dieser Version aktualisiert wurden. Die Modelle, die dem Emotionsmodul zugrunde liegen, bleiben vorerst unverändert. Wir prüfen derzeit, ob wir in Zukunft ähnliche Verbesserungen der Robustheit auch für das kleinere Emotionsmodul einführen können.