audEERING® stellt
Open-Source zur Verfügung
voice AI Community.
Erschließen Sie das volle Potenzial der Audioanalyse mit den Open-Source-Sprach-KI-Modellen von audEERING. Als führendes Unternehmen auf diesem Gebiet ermöglichen wir Forschern und Entwicklern weltweit die Zusammenarbeit an bahnbrechenden Innovationen in der Audioverarbeitung und im maschinellen Lernen. Indem wir unsere Voice AI-Modelle öffentlich zugänglich machen, fördern wir eine florierende Gemeinschaft von Innovatoren, beschleunigen das Entwicklungstempo und erweitern die Möglichkeiten für ganzheitliche Audio AI-Anwendungen.
Wir bieten nicht nur Open-Source-Modelle an, sondern haben auch eine umfassende Reihe von Software-Tools entwickelt, die für die Erstellung und Bewertung dieser Modelle unerlässlich sind. Sie können also alle unsere Open-Source-Projekte auf unserem GitHub-Repository erkunden.
Wir sind die Macher von openSMILE
openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) ist ein Open-Source-Toolkit für die Extraktion von Audiomerkmalen und die Klassifizierung von Sprach- und Musiksignalen. Daher werden Teile des Open-Source-Toolkits in unsere kommerziellen Produkte integriert, um die Möglichkeit der kommerziellen Entwicklung Ihres Produkts zu bieten.
openSMILE ist kostenlos und für Forschungszwecke auf Github verfügbar, laden Sie die neueste Version herunter oder installieren Sie es für Python mit:
<code>pip install opensmile</code>
150,000 +Downloads
2,650 +Zitate in wissenschaftlichen Publikationen
Die richtige Audiolösung für Sie
Zwischen den Zeilen hören
Unsere Open-Source-Modelle sind nur für Forschungszwecke gedacht. Eine kommerzielle Lizenz für ein auf mehr Daten trainiertes Modell ist über SDK, Web API, Unity Plug-In und die webbasierte Plattform AI SoundLab erhältlich. Sie ist die am besten geeignete KI-Technologie - einfach zu implementieren, analysiert in Echtzeit und bietet Ihrem Unternehmen die Grundlage für sprachbasierte Analysen.
Für die kommerzielle Nutzung empfehlen wir unser Kernprodukt devAIce®.
Unsere sprachanalytischen Modelle zu Hugging Face
Mit 3,7 Millionen Downloads auf Hugging Face gehören unsere Open-Source-Modelle zu den am besten bewerteten für Sprachanalytik, Sprach- und Stimmerkennung und Mimikerkennung!
Sie können eine hohe Genauigkeit für Ihre akademische Forschung erhalten. Wenn Sie tiefer, besser, schneller und effizienter arbeiten möchten, benötigen Sie die kommerzielle Suite von devAIce® oder AI SoundLab. So können Sie Ihr Produkt in der ganzen Welt verbreiten und die Genialität der Stimme zeigen.
Die kommerziellen devAIce®-Modelle werden auf viel mehr Daten und mit der neuesten Technologie trainiert. Wenn Sie also ein erstklassiges Produkt erstellen möchten, sehen Sie sich bitte unsere devAIce®-Angebote an.
Angenommen, Sie sind ein Forscher und möchten Ihre Arbeit mit 1.000 akademischen Arbeiten vergleichen, dann sind die Open-Source-Modelle von audEERING genau das Richtige für Sie. Um zu sehen, wie sie funktionieren, klicken Sie unten, wählen Sie eines der Beispielaudios, laden Sie Ihr eigenes hoch oder nehmen Sie es jetzt auf. Die Open-Source-Modelle sind über Hugging Face erhältlich und bieten Ihnen Zugang zu über 20 Jahren Forschung im Bereich Affective Computing.
Klicken Sie auf den unteren Button, um den Inhalt von audeering-speech-analysis.hf.space zu laden.
Das Ausdrucksmodell
Basierend auf wav2vec 2.
Das Modell erwartet ein rohes Audiosignal als Eingabe und gibt Vorhersagen für Erregung, Dominanz und Valenz in einem Bereich von etwa 0...1 aus. Darüber hinaus liefert es auch die zusammengefassten Zustände der letzten Transformatorschicht. Es wurde durch Feinabstimmung von Wav2Vec2-Large-Robust auf MSP-Podcast (v1.7) erstellt. Durch Pruning wurde das Modell von 24 auf 12 Transformatoren reduziert. Ein ONNX-Export des Modells ist verfügbar unter doi:10.5281/zenodo.6221127. Weitere Einzelheiten sind in dem zugehörigen Papier - Closing the Valence Gap - und im Tutorial enthalten.
Alters- und Geschlechtserkennung
Basierend auf wav2vec 2.0
Dieses Modell erwartet ein rohes Audiosignal als Eingabe und gibt Vorhersagen für das Alter in einem Bereich von ca. 0...1 (0...100 Jahre) und das Geschlecht aus, die die Wahrscheinlichkeit ausdrücken, ein Kind, eine Frau oder ein Mann zu sein. Darüber hinaus liefert es auch die zusammengefassten Zustände der letzten Transformatorschicht. Es wurde durch Feinabstimmung von Wav2Vec2-Large-Robust auf aGender, Mozilla Common Voice, Timit und Voxceleb 2 erstellt. Für diese Version des Modells wurden alle 24 Transformatorschichten trainiert. Ein ONNX-Export des Modells ist verfügbar unter doi:10.5281/zenodo.7761387. Weitere Einzelheiten sind in der zugehörigen Veröffentlichung und im Tutorial zu finden.
Was Sie erwarten können
Von Open-Source
- Auf weniger Daten trainiert
- Nur auf Englisch ausgebildet
- Geringere Robustheit im Vergleich zu den kommerziellen Modellen
- Mehrschichtige Modelle: arbeiten langsamer, mit höherem Ressourcenverbrauch
Für die kommerzielle Nutzung:
devAIce® Web API auf AI SoundLab
Diese Demo ist die Verschmelzung unserer beiden Kernprodukte. Sie lädt Sie dazu ein, unsere KI zu testen und ihr zu vertrauen. Die devAIce®-Demo wurde in unserer F&E-Plattform AI SoundLab zur Datenerfassung und Echtzeitanalyse erstellt. Sie zeigt Ihnen die wichtigsten Module unserer schlanken Technologie-Suite. Mit nur wenigen Klicks können Sie unsere Demo testen - wählen Sie zwischen verschiedenen Modulen oder nehmen Sie alle:
- Ausdruck
- Sprecher-Attribute
- Erkennung der akustischen Umgebung
- Voice Activity Detection (VAD)
- Prosodie
Erleben Sie unsere herausragende Voice AI-Technologie, um das WOW aus Ihrer Stimme herauszuholen.
Vorausbezahlte Pakete
Für devAIce® Web API
Aufruf die devAIce® Web API mit unserem Prepaid-Pläneentwickelt für Versuche und gelegentliche Analysen. Genießen Sie die Flexibilität einer risikofreien Erfahrung.
Wählen Sie Ihren Plan und entdecken Sie unsere Technologie mühelos. Legen Sie los!
FRAGEN UND ANTWORTEN
- Freie Weitergabe: Sie können die Software frei mit anderen teilen.
- Zugang zum Quellcode: Der Quellcode kann von jedermann eingesehen und verändert werden.
- Abgeleitete Werke: Sie können neue Software auf der Grundlage des Originals erstellen.
- Integrität des Quellcodes des Autors: Das Urheberrecht des ursprünglichen Autors muss respektiert werden.
- KI-Frameworks: Leistungsstarke Tools wie TensorFlow, PyTorch und scikit-learn bilden die Grundlage für die Erstellung und das Training von Machine-Learning-Modellen.
- Datenwissenschaft: Bibliotheken wie Pandas, NumPy und Matplotlib sind für die Datenmanipulation und -analyse unerlässlich.
- Cloud Computing: OpenStack bietet eine flexible Plattform für die Erstellung öffentlicher und privater Clouds.
- Web-Entwicklung: Frameworks wie React, Angular und Vue.js treiben viele moderne Webanwendungen an.
- DevOps: Docker und Kubernetes rationalisieren die Bereitstellung und Verwaltung von Anwendungen in Containern.
- Kostengünstig: Open-Source-Software ist oft kostenlos oder sehr kostengünstig.
- Zuverlässig: Open-Source-Software profitiert von der Kontrolle durch eine große Gemeinschaft von Entwicklern, was zu weniger Fehlern und Schwachstellen führt.
- Flexibel: Open-Source-Software kann an spezifische Bedürfnisse angepasst werden.
- Innovation: Open Source fördert die Innovation, indem es die Zusammenarbeit und das Experimentieren fördert.
- Unterstützung durch die Gemeinschaft: Open-Source-Projekte haben aktive Gemeinschaften, die Unterstützung und Dokumentation bereitstellen.
- Lizenzierung: Wählen Sie eine Lizenz, die mit Ihren Projektzielen und den Erwartungen der Gemeinschaft übereinstimmt.
- Gemeinschaft: Bauen Sie eine starke, vielfältige und unterstützende Gemeinschaft um Ihr Projekt herum auf.
- Code-Qualität: Halten Sie hohe Codierungsstandards ein und verbessern Sie Ihren Code kontinuierlich.
- Datenschutz: Behandeln Sie Audiodaten mit äußerster Sorgfalt und halten Sie die Datenschutzbestimmungen ein.
- Ethik: Gehen Sie in Ihren Open-Source-Projekten auf die ethischen Implikationen von KI ein.
- Nachhaltigkeit: Planen Sie die langfristige Wartung und Unterstützung Ihres Projekts.
devAIce® Expression und
Szenendetektion
Erfahren Sie mehr über unser devAIce®. audEERING®s leichtgewichtige Technologie zur Mimikerkennung, Szenenerkennung und vielen anderen Zwecken.
Wer ist
audEERING?
audEERING® ist nicht nur der Entwickler von openSMILE, sondern auch der weltweit führende Innovator im Bereich Audio AI. Erfahren Sie mehr über das Unternehmen.