openSMILE 3.0

Das Open-Source-Audio-Feature-Extraktions-Toolkit von audEERING®.

Open-Source-Audio-Feature-Extraktion

openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) ist ein Open-Source-Toolkit für die Extraktion von Audiomerkmalen und die Klassifizierung von Sprach- und Musiksignalen. openSMILE findet breite Anwendung in der automatischen Ausdruckserkennung für das Affektive Computing. 

openSMILE kann für Forschungszwecke kostenlos genutzt werden. Es ist ausschließlich in C++ geschrieben, hat eine schnelle, effiziente und flexible Architektur und läuft auf Desktop-, mobilen und eingebetteten Plattformen wie Linux, Windows, macOS, Android, iOS und Raspberry Pi.

Siehe auch das eigenständige opensmile Python-Paket für einen einfach zu verwendenden Wrapper für die Arbeit in Python.

openSMILE 3.0
auf GitHub

openSMILE 3.0 ist das dritte große Release und bietet große Leistungsverbesserungen. Eine Feature-Liste finden Sie unten. Ab dieser Version werden Binärdateien und Quellcode auf GitHub gehostet. Dort finden Sie auch eine neue Dokumentation im HTML-Format, in der auch die zahlreichen Updates, Code-Refactorings und Fixes aufgeführt sind.

150,000 +Downloads

2,650 +Zitate in wissenschaftlichen Publikationen

Die neuen Funktionen
von openSMILE 3.0

openSMILE 3.0 bietet eine große Anzahl von inkrementellen Verbesserungen und Korrekturen gegenüber der letzten Version 2.3. Vor allem bietet openSMILE jetzt eine einfach zu bedienende Python-API über opensmile-python. Mehr dazu erfahren Sie in diesem Blog-Beitrag. Eine vollständige Feature-Liste finden Sie unten.

  • Eigenständige openSMILE-Python-Bibliothek
  • Neue C-API mit Wrappern für Python und .NET
  • Moderner, überarbeiteter Build-Prozess mit CMake
  • Unterstützung für die iOS-Plattform
  • Aktualisierte Android-Integration
  • FFmpeg-Audio-Quellkomponente

Eine kurze Geschichte
von openSMILE

openSMILE entstand 2008 an der Technischen Universität München (TUM), entwickelt von Dr. Florian Eyben, Martin Wöllmer und Prof. Björn Schuller - alle später Teil des audEERING. Im Rahmen des EU-geförderten SEMAINE-Projekts war das Ziel, einen virtuellen Agenten mit affektiven und sozialen Fähigkeiten zu entwickeln. openSMILE diente in diesem System als Echtzeit-Sprach- und Emotionsanalysekomponente. Von 2011 bis 2013 haben Dr. Florian Eyben und Felix Weninger openSMILE an der TUM weiterentwickelt. Erik Marchi leistete wesentliche Beiträge für das EU-Projekt ASC-Inclusion.

Seit 2013 hält audEERING die Rechte an openSMILE und entwickelt es weiter. Die Software ist für die akademische Nutzung weiterhin frei verfügbar.

Der Audioklassifikator
openSMILE Hauptmerkmale

Nachfolgend finden Sie eine Liste mit den meisten der in openSMILE enthaltenen Funktionen. Weitere Informationen finden Sie in der Dokumentation.

  • Ressourceneffizient: 27k Features können mit einer RTF von 0,08 extrahiert werden
  • Plattformübergreifend (Windows, Linux, Mac, Android, iOS)
  • Schnelle und effiziente inkrementelle Verarbeitung in Echtzeit
  • Hohe Modularität und Wiederverwendbarkeit von Komponenten
  • Plugin-Unterstützung
  • PCM WAVE-Dateien (lesen/schreiben)
  • Jedes von FFmpeg unterstützte Mediendateiformat (lesen)
  • Live-Tonaufnahme und -wiedergabe über PortAudio
  • Live-Tonaufnahme über OpenSL ES/Core Audio auf Android/iOS
  • Kommagetrennte Wertedateien (CSV) (lesen/schreiben)
  • WEKA ARFF-Dateien (lesen/schreiben)
  • Hidden Markov Toolkit (HTK) Parameterdateien (lesen/schreiben)
  • LibSVM-Feature-Dateiformat (schreiben)
  • Fensterfunktionen (Hamming, Hann, Gauß, Sinus, ...)
  • Fast-Fourier-Transformation
  • Pre-Emphasis-Filter
  • FIR-Filterbänke
  • Autokorrelation
  • Cepstrum
  • Signalenergie
  • Lautstärke
  • Mel-/Bark-/Oktav-Spektren
  • MFCC
  • PLP-CC
  • Stellplatz
  • Sprachqualität (Jitter, Shimmer)
  • Formanten
  • LPC
  • Linienspektralpaare (LSP)
  • Spektrale Form-Deskriptoren
  • Tonhöhenklassen (Halbtonspektrum)
  • CHROMA- und CENS-Merkmale
  • Gewichtete Differenz
  • Mittelwert-Varianz-Normalisierung
  • Bereichsnormalisierung
  • Delta-Regressionskoeffizienten
  • Vektorielle Operationen
  • Filter für gleitenden Durchschnitt
  • Mittelwerte, Extrema
  • Momente
  • Segmente
  • Proben
  • Spitzen
  • Lineare und quadratische Regression
  • Perzentile
  • Laufzeiten
  • Einschaltungen
  • DCT-Koeffizienten
  • Nulldurchgänge
  • Modulationsspektrum

devAIce® Expression und
Szenendetektion

Erfahren Sie mehr über unser devAIce®. audEERING®s leichtgewichtige Technologie zur Mimikerkennung, Szenenerkennung und vielen anderen Zwecken.

Mehr erfahren ›

Wer ist
audEERING?

audEERING® entwickelt nicht nur openSMILE weiter, sondern ist der weltweit führende Innovator im Bereich Audio & Voice AI. Erfahren Sie mehr über das Unternehmen.

Mehr erfahren ›