openSMILE 3.0

Das führende Werkzeug zur schnellen, plattformübergreifenden, quelloffenen Audio-Feature-Extraktion von audEERING.

Open-Source-Audio-Feature-Extraktion

openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) ist ein Open-Source-Toolkit für die Extraktion von Audiomerkmalen und die Klassifizierung von Sprach- und Musiksignalen. openSMILE findet breite Anwendung in der automatischen Emotionserkennung für das Affective Computing. openSMILE ist für Forschungszwecke völlig frei nutzbar. Für die kommerzielle Nutzung steht Ihnen unsere devAIce™-Technologie zur Verfügung.

openSMILE 3.0
auf GitHub

openSMILE 3.0 ist das dritte große Release und bietet große Leistungsverbesserungen. Eine Feature-Liste finden Sie unten. Ab dieser Version werden Binärdateien und Quellcode auf GitHub gehostet. Dort finden Sie auch eine neue Dokumentation im HTML-Format, in der auch die zahlreichen Updates, Code-Refactorings und Fixes aufgeführt sind.

150,000 +Downloads

2,650 +Zitate in wissenschaftlichen Publikationen

Die neuen Funktionen
von openSMILE 3.0

openSMILE 3.0 bietet eine große Anzahl von inkrementellen Verbesserungen und Korrekturen gegenüber der letzten Version 2.3. Vor allem bietet openSMILE jetzt eine einfach zu bedienende Python-API über opensmile-python. Mehr dazu erfahren Sie in diesem Blog-Beitrag. Eine vollständige Feature-Liste finden Sie unten.

  • Eigenständige openSMILE-Python-Bibliothek
  • Neue C-API mit Wrappern für Python und .NET
  • Moderner, überarbeiteter Build-Prozess mit CMake
  • Unterstützung für die iOS-Plattform
  • Aktualisierte Android-Integration
  • FFmpeg-Audio-Quellkomponente

Eine kurze Geschichte
von openSMILE

openSMILE startete 2008 an der Technischen Universität München (TUM), entwickelt von Florian Eyben, Martin Wöllmer und Björn Schuller - alle später Teil des audEERING. Im Rahmen des EU-geförderten Projekts SEMAINE war das Ziel, einen virtuellen Agenten mit affektiven und sozialen Fähigkeiten zu entwerfen. openSMILE diente in diesem System als Echtzeit-Sprach- und Emotionsanalysekomponente.

Von 2011 bis 2013 haben Florian Eyben und Felix Weninger openSMILE an der TUM weiterentwickelt. Erik Marchi leistete wesentliche Beiträge für das EU-Projekt ASC-Inclusion.
Seit 2013 hält audEERING die Rechte an openSMILE und entwickelt es weiter. Die Software ist für die akademische Nutzung weiterhin frei verfügbar.

Hauptmerkmale von
openSMILE

Nachfolgend finden Sie eine Liste mit den meisten der in openSMILE enthaltenen Funktionen. Weitere Informationen finden Sie in der Dokumentation.

  • Ressourceneffizient: 27k Features können mit einer RTF von 0,08 extrahiert werden
  • Plattformübergreifend (Windows, Linux, Mac, Android, iOS)
  • Schnelle und effiziente inkrementelle Verarbeitung in Echtzeit
  • Hohe Modularität und Wiederverwendbarkeit von Komponenten
  • Plugin-Unterstützung
  • PCM WAVE-Dateien (lesen/schreiben)
  • Jedes von FFmpeg unterstützte Mediendateiformat (lesen)
  • Live-Tonaufnahme und -wiedergabe über PortAudio
  • Live-Tonaufnahme über OpenSL ES/Core Audio auf Android/iOS
  • Kommagetrennte Wertedateien (CSV) (lesen/schreiben)
  • WEKA ARFF-Dateien (lesen/schreiben)
  • Hidden Markov Toolkit (HTK) Parameterdateien (lesen/schreiben)
  • LibSVM-Feature-Dateiformat (schreiben)
  • Fensterfunktionen (Hamming, Hann, Gauß, Sinus, ...)
  • Fast-Fourier-Transformation
  • Pre-Emphasis-Filter
  • FIR-Filterbänke
  • Autokorrelation
  • Cepstrum
  • Signalenergie
  • Lautstärke
  • Mel-/Bark-/Oktav-Spektren
  • MFCC
  • PLP-CC
  • Stellplatz
  • Sprachqualität (Jitter, Shimmer)
  • Formanten
  • LPC
  • Linienspektralpaare (LSP)
  • Spektrale Form-Deskriptoren
  • Tonhöhenklassen (Halbtonspektrum)
  • CHROMA- und CENS-Merkmale
  • Gewichtete Differenz
  • Mittelwert-Varianz-Normalisierung
  • Bereichsnormalisierung
  • Delta-Regressionskoeffizienten
  • Vektorielle Operationen
  • Filter für gleitenden Durchschnitt
  • Mittelwerte, Extrema
  • Momente
  • Segmente
  • Proben
  • Spitzen
  • Lineare und quadratische Regression
  • Perzentile
  • Laufzeiten
  • Einschaltungen
  • DCT-Koeffizienten
  • Nulldurchgänge
  • Modulationsspektrum

devAIce® Emotions- und
Szenendetektion

Erfahren Sie mehr über unser devAIce®. audEERINGs leichtgewichtige Technologie für Emotionserkennung, Szenenerkennung und viele andere Zwecke.

Mehr erfahren ›

Wer ist
audEERING?

audEERING entwickelt nicht nur openSMILE weiter, sondern ist der weltweit führende Innovator im Bereich Audio-KI. Erfahren Sie mehr über das Unternehmen.

Mehr erfahren ›