JOURNAL ARTICLE

Semi-supervised and transfer learning for few-shot audio classification

Sascha Grollmisch

Year: 2025 Journal:   Common Library Network (Der Gemeinsame Bibliotheksverbund)   Publisher: Verbundzentrale des GBV

Abstract

Deep Learning hat zu erheblichen Fortschritten in der Audioanalyse geführt, doch die Abhängigkeit von großen, gelabelten Datensätzen stellt in spezialisierten Bereichen wie der Musikwissenschaft und der industriellen Qualitätskontrolle ein wesentliches Hindernis dar. Diese Arbeit untersucht Transfer Learning (TL) und Semi-supervised Learning (SSL) als Trainingsmethoden für Audioklassifikationsmodelle in Few-Shot-Learning-Szenarien, in denen nur begrenzt annotierte Daten zur Verfügung stehen. Um die Generalisierbarkeit zu bewerten, verwendet diese Arbeit Datensätze aus drei verschiedenen Domänen: Musikklassifikation, industrielle Klanganalyse und akustische Szenenklassifikation. Ein wesentlicher Beitrag dieser Arbeit umfasst die Erstellung und Veröffentlichung neuer Datensätze: ACMusIF für traditionelle kolumbianische Musik sowie die Datensätze Metal Ball und Pucks zur Klassifikation von Metalloberflächen und Kunststoffmaterialien. Zusätzlich werden die öffentlichen Datensätzen (NSynth, TUT2017) einbezogen. Die Ergebnisse für Convolutional Neural Networks zeigten, dass überwachtes Lernen zwar effektiv ist, die Genauigkeit jedoch sinkt, wenn die Anzahl der gelabelten Beispiele reduziert wird – ein Verlust, der durch künstliche Datenerweiterung nicht vollständig kompensiert werden kann. Als Alternative wurde TL unter Verwendung vortrainierter Modelle wie OpenL3 und PANNs systematisch evaluiert. OpenL3 schnitt im Durchschnitt am besten ab und übertrifft die Baselines insbesondere dann, wenn gelabelte Daten knapp waren. Bemerkenswert ist, dass sich das Vortraining auf Musikdaten effektiv auf industrielle Klänge verallgemeinern lässt. Außerdem wurde die SSL-Methode FixMatch von der Bild- auf die Audiodomäne übertragen. Hierbei wurde eine neue Methode zur Auswahl von Datenaugmentierungstechniken eingeführt. FixMatch wird mit den Baselines, TL und dem Mean-Teacher-Ansatz verglichen. Die Ergebnisse zeigen, dass FixMatch diese Alternativen in allen Aufgaben übertrifft und auf drei der vier untersuchten Datensätze mit weniger als 10 % der gelabelten Daten eine Leistung erreicht, die der von vollständig überwachten Modellen ebenbürtig ist. Obwohl die Genauigkeit bei weniger als zehn annotierten Beispielen pro Klasse abnimmt, bestätigen die Ergebnisse die Wirksamkeit fortgeschrittener SSL- und TL-Techniken in der Audioklassifikation.

Keywords:
Transfer of learning Turing test Applications of artificial intelligence

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
0.74
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Music and Audio Processing
Physical Sciences →  Computer Science →  Signal Processing
Speech and Audio Processing
Physical Sciences →  Computer Science →  Signal Processing
Diverse Musicological Studies
Social Sciences →  Arts and Humanities →  Music

Related Documents

JOURNAL ARTICLE

Few-Shot Text Classification via Semi-Supervised Contrastive Learning

Fei WangLong ChenFei XieCai XuGuangyue Lu

Journal:   2022 4th International Conference on Natural Language Processing (ICNLP) Year: 2022 Pages: 426-433
JOURNAL ARTICLE

Semi-Supervised Few-shot Image Classification Based on Subspace Learning

Jiayan WangZongmin LiXujian QiaoBaodi LiuYu Zhao

Journal:   Journal of Physics Conference Series Year: 2022 Vol: 2171 (1)Pages: 012063-012063
© 2026 ScienceGate Book Chapters — All rights reserved.