Deep Learning hat zu erheblichen Fortschritten in der Audioanalyse geführt, doch die Abhängigkeit von großen, gelabelten Datensätzen stellt in spezialisierten Bereichen wie der Musikwissenschaft und der industriellen Qualitätskontrolle ein wesentliches Hindernis dar. Diese Arbeit untersucht Transfer Learning (TL) und Semi-supervised Learning (SSL) als Trainingsmethoden für Audioklassifikationsmodelle in Few-Shot-Learning-Szenarien, in denen nur begrenzt annotierte Daten zur Verfügung stehen. Um die Generalisierbarkeit zu bewerten, verwendet diese Arbeit Datensätze aus drei verschiedenen Domänen: Musikklassifikation, industrielle Klanganalyse und akustische Szenenklassifikation. Ein wesentlicher Beitrag dieser Arbeit umfasst die Erstellung und Veröffentlichung neuer Datensätze: ACMusIF für traditionelle kolumbianische Musik sowie die Datensätze Metal Ball und Pucks zur Klassifikation von Metalloberflächen und Kunststoffmaterialien. Zusätzlich werden die öffentlichen Datensätzen (NSynth, TUT2017) einbezogen. Die Ergebnisse für Convolutional Neural Networks zeigten, dass überwachtes Lernen zwar effektiv ist, die Genauigkeit jedoch sinkt, wenn die Anzahl der gelabelten Beispiele reduziert wird – ein Verlust, der durch künstliche Datenerweiterung nicht vollständig kompensiert werden kann. Als Alternative wurde TL unter Verwendung vortrainierter Modelle wie OpenL3 und PANNs systematisch evaluiert. OpenL3 schnitt im Durchschnitt am besten ab und übertrifft die Baselines insbesondere dann, wenn gelabelte Daten knapp waren. Bemerkenswert ist, dass sich das Vortraining auf Musikdaten effektiv auf industrielle Klänge verallgemeinern lässt. Außerdem wurde die SSL-Methode FixMatch von der Bild- auf die Audiodomäne übertragen. Hierbei wurde eine neue Methode zur Auswahl von Datenaugmentierungstechniken eingeführt. FixMatch wird mit den Baselines, TL und dem Mean-Teacher-Ansatz verglichen. Die Ergebnisse zeigen, dass FixMatch diese Alternativen in allen Aufgaben übertrifft und auf drei der vier untersuchten Datensätze mit weniger als 10 % der gelabelten Daten eine Leistung erreicht, die der von vollständig überwachten Modellen ebenbürtig ist. Obwohl die Genauigkeit bei weniger als zehn annotierten Beispielen pro Klasse abnimmt, bestätigen die Ergebnisse die Wirksamkeit fortgeschrittener SSL- und TL-Techniken in der Audioklassifikation.
Fei WangLong ChenFei XieCai XuGuangyue Lu
Jiayan WangZongmin LiXujian QiaoBaodi LiuYu Zhao
Yawen CuiWuti XiongMohammad TavakolianLi Liu
Ziyuan MaQiuyan WangYan YangHanning Chen