Ressourceneffizient: 27k Features können mit einer RTF von 0,08 extrahiert werden Plattformübergreifend (Windows, Linux, Mac, Android, iOS) Schnelle und effiziente inkrementelle Verarbeitung in Echtzeit Hohe Modularität und Wiederverwendbarkeit von Komponenten Plugin-Unterstützung

Kommagetrennte Wertedateien (CSV) (lesen/schreiben) WEKA ARFF-Dateien (lesen/schreiben) Hidden Markov Toolkit (HTK) Parameterdateien (lesen/schreiben) LibSVM-Feature-Dateiformat (schreiben)

Fensterfunktionen (Hamming, Hann, Gauß, Sinus, ...) Fast-Fourier-Transformation Pre-Emphasis-Filter FIR-Filterbänke Autokorrelation Cepstrum

Mittelwert-Varianz-Normalisierung Bereichsnormalisierung Delta-Regressionskoeffizienten Vektorielle Operationen Filter für gleitenden Durchschnitt

openSMILE 3.0

Das Open-Source-Audio-Feature-Extraktions-Toolkit von audEERING®.

Open-Source-Audio-Feature-Extraktion

openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) ist ein Open-Source-Toolkit für die Extraktion von Audiomerkmalen und die Klassifizierung von Sprach- und Musiksignalen. openSMILE findet breite Anwendung in der automatischen Ausdruckserkennung für das Affektive Computing.

openSMILE kann für Forschungszwecke kostenlos genutzt werden. Es ist ausschließlich in C++ geschrieben, hat eine schnelle, effiziente und flexible Architektur und läuft auf Desktop-, mobilen und eingebetteten Plattformen wie Linux, Windows, macOS, Android, iOS und Raspberry Pi.

Siehe auch das eigenständige opensmile Python-Paket für einen einfach zu verwendenden Wrapper für die Arbeit in Python.

Für die kommerzielle Nutzung, klicken Sie hier, um unseren KI-Sprachübersetzer devAIce® zu erhalten.

openSMILE 3.0
auf GitHub

openSMILE 3.0 ist das dritte große Release und bietet große Leistungsverbesserungen. Eine Feature-Liste finden Sie unten. Ab dieser Version werden Binärdateien und Quellcode auf GitHub gehostet. Dort finden Sie auch eine neue Dokumentation im HTML-Format, in der auch die zahlreichen Updates, Code-Refactorings und Fixes aufgeführt sind.

150,000 +Downloads

2,650 +Zitate in wissenschaftlichen Publikationen

Die neuen Funktionen
von openSMILE 3.0

openSMILE 3.0 bietet eine große Anzahl von inkrementellen Verbesserungen und Korrekturen gegenüber der letzten Version 2.3. Vor allem bietet openSMILE jetzt eine einfach zu bedienende Python-API über opensmile-python. Mehr dazu erfahren Sie in diesem Blog-Beitrag. Eine vollständige Feature-Liste finden Sie unten.

Eigenständige openSMILE-Python-Bibliothek
Neue C-API mit Wrappern für Python und .NET
Moderner, überarbeiteter Build-Prozess mit CMake
Unterstützung für die iOS-Plattform
Aktualisierte Android-Integration
FFmpeg-Audio-Quellkomponente

Eine kurze Geschichte
von openSMILE

openSMILE entstand 2008 an der Technischen Universität München (TUM), entwickelt von Dr. Florian Eyben, Martin Wöllmer und Prof. Björn Schuller - alle später Teil des audEERING. Im Rahmen des EU-geförderten SEMAINE-Projekts war das Ziel, einen virtuellen Agenten mit affektiven und sozialen Fähigkeiten zu entwickeln. openSMILE diente in diesem System als Echtzeit-Sprach- und Emotionsanalysekomponente. Von 2011 bis 2013 haben Dr. Florian Eyben und Felix Weninger openSMILE an der TUM weiterentwickelt. Erik Marchi leistete wesentliche Beiträge für das EU-Projekt ASC-Inclusion.

Seit 2013 hält audEERING die Rechte an openSMILE und entwickelt es weiter. Die Software ist für die akademische Nutzung weiterhin frei verfügbar.

Der Audioklassifikator
openSMILE Hauptmerkmale

Nachfolgend finden Sie eine Liste mit den meisten der in openSMILE enthaltenen Funktionen. Weitere Informationen finden Sie in der Dokumentation.

Grundlagen

Ressourceneffizient: 27k Features können mit einer RTF von 0,08 extrahiert werden
Plattformübergreifend (Windows, Linux, Mac, Android, iOS)
Schnelle und effiziente inkrementelle Verarbeitung in Echtzeit
Hohe Modularität und Wiederverwendbarkeit von Komponenten
Plugin-Unterstützung

Audio-Eingang/-Ausgang

PCM WAVE-Dateien (lesen/schreiben)
Jedes von FFmpeg unterstützte Mediendateiformat (lesen)
Live-Tonaufnahme und -wiedergabe über PortAudio
Live-Tonaufnahme über OpenSL ES/Core Audio auf Android/iOS

Feature-Dateiformate

Kommagetrennte Wertedateien (CSV) (lesen/schreiben)
WEKA ARFF-Dateien (lesen/schreiben)
Hidden Markov Toolkit (HTK) Parameterdateien (lesen/schreiben)
LibSVM-Feature-Dateiformat (schreiben)

Signalverarbeitung

Fensterfunktionen (Hamming, Hann, Gauß, Sinus, ...)
Fast-Fourier-Transformation
Pre-Emphasis-Filter
FIR-Filterbänke
Autokorrelation
Cepstrum

Sprachbezogene Merkmale

Signalenergie
Lautstärke
Mel-/Bark-/Oktav-Spektren
MFCC
PLP-CC
Stellplatz
Sprachqualität (Jitter, Shimmer)
Formanten
LPC
Linienspektralpaare (LSP)
Spektrale Form-Deskriptoren

Musikbezogene Funktionen

Tonhöhenklassen (Halbtonspektrum)
CHROMA- und CENS-Merkmale
Gewichtete Differenz

Datenverarbeitung

Mittelwert-Varianz-Normalisierung
Bereichsnormalisierung
Delta-Regressionskoeffizienten
Vektorielle Operationen
Filter für gleitenden Durchschnitt

Statistische Funktionale (Merkmalszusammenfassungen)

Mittelwerte, Extrema
Momente
Segmente
Proben
Spitzen
Lineare und quadratische Regression
Perzentile
Laufzeiten
Einschaltungen
DCT-Koeffizienten
Nulldurchgänge
Modulationsspektrum

devAIce® Expression und
Szenendetektion

Erfahren Sie mehr über unser devAIce®. audEERING®s leichtgewichtige Technologie zur Mimikerkennung, Szenenerkennung und vielen anderen Zwecken.

Mehr erfahren ›

Wer ist
audEERING?

audEERING® entwickelt nicht nur openSMILE weiter, sondern ist der weltweit führende Innovator im Bereich Audio & Voice AI. Erfahren Sie mehr über das Unternehmen.

Mehr erfahren ›

openSMILE 3.0

Open-Source-Audio-Feature-Extraktion

Für die kommerzielle Nutzung, klicken Sie hier, um unseren KI-Sprachübersetzer devAIce® zu erhalten.

openSMILE 3.0 auf GitHub

150,000 +Downloads

2,650 +Zitate in wissenschaftlichen Publikationen

Die neuen Funktionenvon openSMILE 3.0

Eine kurze Geschichte von openSMILE

Der AudioklassifikatoropenSMILE Hauptmerkmale

devAIce® Expression und Szenendetektion

Wer ist audEERING?