devAIce® SDK 3.8 und 3.9 Updates - Neues leistungsfähiges Modul

Stichworte: Akustische Ereigniserkennung, künstliche Intelligenz, devAIce, SDK, Technologie, Aktualisieren

17. Juli 2023,

Milenko Saponja

Wir freuen uns, Ihnen die neuesten Updates des devAIce® SDK 3.8 und 3.9 vorstellen zu können, die wesentliche Verbesserungen und neue Funktionen mit sich bringen, um Ihre Entwicklungserfahrung zu verbessern. In diesem Blog-Beitrag geben wir Ihnen einen umfassenden Überblick über die bemerkenswerten Erweiterungen, die mit diesen Versionen eingeführt wurden. Dazu gehört auch die Vorstellung unseres neuen Moduls, das zur Analyse der Audioqualität verwendet werden kann.

Verbessertes Szenemodell: Fähigkeiten der nächsten Generation

Wir freuen uns, die nächste Generation des Szenenmodells vorstellen zu können, das jetzt in das SDK integriert ist. Dieses aktualisierte Modul umfasst 21 Klassen, eine Erweiterung der bisherigen 14 Klassen. Die folgenden Klassen wurden hinzugefügt: Café, belebter Innenraum, Aufzug, Küche, Wohnbereich, Toilette und U-Bahn-Station. Trotz der größeren Anzahl von Klassen erreicht das neue Modell eine höhere Genauigkeit, die abhängig von der Dauer des Eingangssignals etwa 60 % (für alle Klassen) beträgt. Darüber hinaus haben wir das Modul mit einer gleitenden Fenster-Durchschnittsausgabe erweitert, die eine Echtzeitnutzung und nahtlose Anpassung an verschiedene Anwendungsfälle durch Anpassung der Fenstergröße ermöglicht.

Verbesserte Sprecherattribute: Kombination aus Präzision und Inklusion

Um eine größere Genauigkeit und Inklusivität zu erreichen, haben wir das Modul Sprecherattribute verbessert. Das Altersmodell wurde durch eine genauere Alternative ersetzt, wodurch der mittlere absolute Fehler auf weniger als 10 Jahre reduziert wurde. Unser Modell übertrifft das menschliche Basismodell und zeigt damit eine überlegene Leistung in dieser Aufgabe. Darüber hinaus wurde das Geschlechtsmodell, das das wahrgenommene Geschlecht eines Sprechers bestimmt, zu einem neuen Drei-Klassen-Modell erweitert, das eine eigene Kinderklasse enthält. Diese Ergänzung behebt das Fehlen einer Geschlechtsdifferenzierung bei Kindern und ermöglicht eine umfassende Analyse von Sprechereigenschaften.

Einführung in das Modul zur Analyse der Audioqualität

Das neue Audio Quality Modul ist ab sofort im aktuellen devAIce® SDK verfügbar. Dieses leistungsstarke Tool ermöglicht eine gründliche Analyse der Audiosignalqualität. Anwender können nun Anomalien oder Probleme im Audioeingang erkennen und Qualitätsprüfungen durchführen. Das Modul ist so konzipiert, dass es nahtlos mit anderen Modulen zusammenarbeitet, eine optimale Leistung gewährleistet und die Möglichkeit bietet, Audioschnipsel, z.B. mit übermäßigen Hintergrundgeräuschen, auszuschließen. Es liefert zwei wesentliche Ausgangswerte: Signal-Rausch-Verhältnis (SNR) und Nachhallzeit (_RT60), die eine umfassende Bewertung der Audioqualität ermöglichen.

Erweitertes Ereignismodell: Akustische Ereignisdetektion (AED)

Das Modul Events wurde in Acoustic Event Detection (AED) umbenannt. Ausgestattet mit einem neuartigen Modell, bietet das AED-Modul eine verfeinerte Präzision und eine deutlich verbesserte Wiedererkennung bei der Erkennung von Sprache und Musik. Dieser Fortschritt gewährleistet die genaue Identifizierung von tatsächlich positiven Ereignissen und erhöht die Zuverlässigkeit Ihrer Ergebnisse.

Zusätzliche Erweiterungen und Verbesserungen

Zusätzlich zu den oben erwähnten Aktualisierungen haben wir einige weitere bemerkenswerte Änderungen und Verbesserungen eingeführt:

Die Module Emotion (Large) und Emotion bieten jetzt neue Einstellungen, die es den Benutzern ermöglichen, entweder das dimensionale oder das kategoriale Modell zu aktivieren. Diese Anpassung reduziert den Ressourcenverbrauch, wenn nur ein einziges dieser Modelle benötigt wird.
Auf der API-Seite haben wir einen Serienschlüssel eingeführt, der die Sicherheitsmaßnahmen für einen besseren Schutz verstärkt.
Unsere Dokumentation wurde mehrfach verbessert, u. a. durch umfassende Überarbeitungen und die Hinzufügung detaillierter Informationen zur Ressourcennutzung und zum Speicherverbrauch. Außerdem haben wir die Beschreibungen von Lautheit und Intonation im Prosody-Modul aktualisiert, um die Klarheit und das Verständnis zu verbessern.

Bereiten Sie sich darauf vor, das volle Potenzial von devAIce® SDK 3.9 mit diesen spannenden Updates zu nutzen! Bleiben Sie dran und erfahren Sie mehr über die einzelnen Funktionen in unseren kommenden technischen Blogbeiträgen.