2023

audb - gemeinsame Nutzung und Versionierung von Audio- und Annotationsdaten in Python

Hagen Wierstorf, Johannes Wagner, Florian Eyben, Felix Burkhardt und Björn W. Schuller

Aufgrund des Bedarfs an größeren und vielfältigeren Datensätzen für das Pre-Training und die Feinabstimmung von immer komplexeren maschinellen Lernmodellen wächst die Zahl der Datensätze rapide. audb ist eine Open-Source-Python-Bibliothek, die die Versionierung und Dokumentation von Audiodatensätzen unterstützt. Ziel ist es, eine standardisierte und einfache Benutzerschnittstelle für die Veröffentlichung, Pflege und den Zugriff auf die Annotationen und Audiodateien eines Datensatzes bereitzustellen. Um die Daten effizient auf einem Server zu speichern, löst audb automatisch Abhängigkeiten zwischen Versionen eines Datensatzes auf und lädt neu hinzugefügte oder geänderte Dateien nur hoch, wenn eine neue Version veröffentlicht wird. Die Bibliothek unterstützt das partielle Laden eines Datensatzes und das lokale Zwischenspeichern für schnellen Zugriff. audb ist eine leichtgewichtige Bibliothek und kann mit jeder Bibliothek für maschinelles Lernen verbunden werden. Sie unterstützt die Verwaltung von Datensätzen auf einem einzelnen PC, innerhalb einer Universität oder eines Unternehmens oder innerhalb einer ganzen Forschungsgemeinschaft.

Eine wissenschaftliche Veröffentlichung der audEERING GmbH.
Mehr Infos auf unserer Forschungsseite