openSMILE 3.0
Das Open-Source-Audio-Feature-Extraktions-Toolkit von audEERING®.
Open-Source-Audio-Feature-Extraktion
openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) ist ein Open-Source-Toolkit für die Extraktion von Audiomerkmalen und die Klassifizierung von Sprach- und Musiksignalen. openSMILE findet breite Anwendung in der automatischen Ausdruckserkennung für das Affektive Computing.
openSMILE kann für Forschungszwecke kostenlos genutzt werden. Es ist ausschließlich in C++ geschrieben, hat eine schnelle, effiziente und flexible Architektur und läuft auf Desktop-, mobilen und eingebetteten Plattformen wie Linux, Windows, macOS, Android, iOS und Raspberry Pi.
Siehe auch das eigenständige opensmile Python-Paket für einen einfach zu verwendenden Wrapper für die Arbeit in Python.
openSMILE 3.0
auf GitHub
openSMILE 3.0 ist das dritte große Release und bietet große Leistungsverbesserungen. Eine Feature-Liste finden Sie unten. Ab dieser Version werden Binärdateien und Quellcode auf GitHub gehostet. Dort finden Sie auch eine neue Dokumentation im HTML-Format, in der auch die zahlreichen Updates, Code-Refactorings und Fixes aufgeführt sind.
150,000 +Downloads
2,650 +Zitate in wissenschaftlichen Publikationen
Die neuen Funktionen
von openSMILE 3.0
openSMILE 3.0 bietet eine große Anzahl von inkrementellen Verbesserungen und Korrekturen gegenüber der letzten Version 2.3. Vor allem bietet openSMILE jetzt eine einfach zu bedienende Python-API über opensmile-python. Mehr dazu erfahren Sie in diesem Blog-Beitrag. Eine vollständige Feature-Liste finden Sie unten.
- Eigenständige openSMILE-Python-Bibliothek
- Neue C-API mit Wrappern für Python und .NET
- Moderner, überarbeiteter Build-Prozess mit CMake
- Unterstützung für die iOS-Plattform
- Aktualisierte Android-Integration
- FFmpeg-Audio-Quellkomponente
Eine kurze Geschichte
von openSMILE
Seit 2013 hält audEERING die Rechte an openSMILE und entwickelt es weiter. Die Software ist für die akademische Nutzung weiterhin frei verfügbar.
Der Audioklassifikator
openSMILE Hauptmerkmale
Nachfolgend finden Sie eine Liste mit den meisten der in openSMILE enthaltenen Funktionen. Weitere Informationen finden Sie in der Dokumentation.
- Ressourceneffizient: 27k Features können mit einer RTF von 0,08 extrahiert werden
- Plattformübergreifend (Windows, Linux, Mac, Android, iOS)
- Schnelle und effiziente inkrementelle Verarbeitung in Echtzeit
- Hohe Modularität und Wiederverwendbarkeit von Komponenten
- Plugin-Unterstützung
- PCM WAVE-Dateien (lesen/schreiben)
- Jedes von FFmpeg unterstützte Mediendateiformat (lesen)
- Live-Tonaufnahme und -wiedergabe über PortAudio
- Live-Tonaufnahme über OpenSL ES/Core Audio auf Android/iOS
- Kommagetrennte Wertedateien (CSV) (lesen/schreiben)
- WEKA ARFF-Dateien (lesen/schreiben)
- Hidden Markov Toolkit (HTK) Parameterdateien (lesen/schreiben)
- LibSVM-Feature-Dateiformat (schreiben)
- Fensterfunktionen (Hamming, Hann, Gauß, Sinus, ...)
- Fast-Fourier-Transformation
- Pre-Emphasis-Filter
- FIR-Filterbänke
- Autokorrelation
- Cepstrum
- Signalenergie
- Lautstärke
- Mel-/Bark-/Oktav-Spektren
- MFCC
- PLP-CC
- Stellplatz
- Sprachqualität (Jitter, Shimmer)
- Formanten
- LPC
- Linienspektralpaare (LSP)
- Spektrale Form-Deskriptoren
- Tonhöhenklassen (Halbtonspektrum)
- CHROMA- und CENS-Merkmale
- Gewichtete Differenz
- Mittelwert-Varianz-Normalisierung
- Bereichsnormalisierung
- Delta-Regressionskoeffizienten
- Vektorielle Operationen
- Filter für gleitenden Durchschnitt
- Mittelwerte, Extrema
- Momente
- Segmente
- Proben
- Spitzen
- Lineare und quadratische Regression
- Perzentile
- Laufzeiten
- Einschaltungen
- DCT-Koeffizienten
- Nulldurchgänge
- Modulationsspektrum
devAIce® Expression und
Szenendetektion
Erfahren Sie mehr über unser devAIce®. audEERING®s leichtgewichtige Technologie zur Mimikerkennung, Szenenerkennung und vielen anderen Zwecken.
Wer ist
audEERING?
audEERING® entwickelt nicht nur openSMILE weiter, sondern ist der weltweit führende Innovator im Bereich Audio & Voice AI. Erfahren Sie mehr über das Unternehmen.