Semi-supervised and transfer learning for few-shot audio classification

Sascha Grollmisch

doi:10.22032/dbt.68364

ScienceGate Book Chapters

JOURNAL ARTICLE

Semi-supervised and transfer learning for few-shot audio classification

Sascha Grollmisch

Year: 2025 Journal: Common Library Network (Der Gemeinsame Bibliotheksverbund) Publisher: Verbundzentrale des GBV

DOI: 10.22032/dbt.68364

Get Full-Text PDF Get Analytical Report

Abstract

Deep Learning hat zu erheblichen Fortschritten in der Audioanalyse geführt, doch die Abhängigkeit von großen, gelabelten Datensätzen stellt in spezialisierten Bereichen wie der Musikwissenschaft und der industriellen Qualitätskontrolle ein wesentliches Hindernis dar. Diese Arbeit untersucht Transfer Learning (TL) und Semi-supervised Learning (SSL) als Trainingsmethoden für Audioklassifikationsmodelle in Few-Shot-Learning-Szenarien, in denen nur begrenzt annotierte Daten zur Verfügung stehen. Um die Generalisierbarkeit zu bewerten, verwendet diese Arbeit Datensätze aus drei verschiedenen Domänen: Musikklassifikation, industrielle Klanganalyse und akustische Szenenklassifikation. Ein wesentlicher Beitrag dieser Arbeit umfasst die Erstellung und Veröffentlichung neuer Datensätze: ACMusIF für traditionelle kolumbianische Musik sowie die Datensätze Metal Ball und Pucks zur Klassifikation von Metalloberflächen und Kunststoffmaterialien. Zusätzlich werden die öffentlichen Datensätzen (NSynth, TUT2017) einbezogen. Die Ergebnisse für Convolutional Neural Networks zeigten, dass überwachtes Lernen zwar effektiv ist, die Genauigkeit jedoch sinkt, wenn die Anzahl der gelabelten Beispiele reduziert wird – ein Verlust, der durch künstliche Datenerweiterung nicht vollständig kompensiert werden kann. Als Alternative wurde TL unter Verwendung vortrainierter Modelle wie OpenL3 und PANNs systematisch evaluiert. OpenL3 schnitt im Durchschnitt am besten ab und übertrifft die Baselines insbesondere dann, wenn gelabelte Daten knapp waren. Bemerkenswert ist, dass sich das Vortraining auf Musikdaten effektiv auf industrielle Klänge verallgemeinern lässt. Außerdem wurde die SSL-Methode FixMatch von der Bild- auf die Audiodomäne übertragen. Hierbei wurde eine neue Methode zur Auswahl von Datenaugmentierungstechniken eingeführt. FixMatch wird mit den Baselines, TL und dem Mean-Teacher-Ansatz verglichen. Die Ergebnisse zeigen, dass FixMatch diese Alternativen in allen Aufgaben übertrifft und auf drei der vier untersuchten Datensätze mit weniger als 10 % der gelabelten Daten eine Leistung erreicht, die der von vollständig überwachten Modellen ebenbürtig ist. Obwohl die Genauigkeit bei weniger als zehn annotierten Beispielen pro Klasse abnimmt, bestätigen die Ergebnisse die Wirksamkeit fortgeschrittener SSL- und TL-Techniken in der Audioklassifikation.

Keywords:

Transfer of learning Turing test Applications of artificial intelligence

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.74

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Diverse Musicological Studies

Social Sciences → Arts and Humanities → Music

Semi-supervised and transfer learning for few-shot audio classification

Abstract

Metrics

Topics

Related Documents

Few-Shot Text Classification via Semi-Supervised Contrastive Learning

Semi-Supervised Few-shot Image Classification Based on Subspace Learning

Semi-Supervised Few-Shot Class-Incremental Learning

Semi-supervised Meta-learning for Cross-domain Few-shot Intent Classification

Graph Attention Contrastive Learning for Few-Shot Semi-Supervised Node Classification