최근 딥러닝을 활용한 음성 감정 인식은 많은 관심을 받아왔다. 하지만 대부분 소음을 고려하지 않은 연구에 집중이 되었고, 소음하에서의 딥러닝 기반 음성 감정 인식 연구는 비교적 제한적이다. 나아가 소음하의 한국어 음성 감정인식 연구는 드물다. 본 연구는 Convolutional neural network (CNN)에 기반한 denoising CNN (DnCNN)을 활용하여 소음에 노출된 환경에서의 한국어 음성 감정 인식 양상을 두 가지 신호 대 잡음비를 사용하여 살펴보았다. 분석 결과, DnCNN은 신호 대 잡음비에 상관없이 CNN에 비해 높은 감정 분류 정확도를 보였다. 본 연구는 DnCNN을 사용하여 신호 대 잡음비를 달리하여 소음하 음성 감정 인식에서의 효용성을 파악한 첫 사례이다. 나아가 본 연구는 그간 반도체 웨이퍼의 결함 패턴 분류에 주로 사용된 DnCNN의 언어 도메인으로의 적용 확대성을 뒷받침한다. Speech emotion recognition using deep learning techniques has gained significant attention over the last decade. The majority of such research on speech emotion recognition has addressed noise-free speech emotion recognition. However, research on emotional speech denoising has received comparably less attention. Furthermore, limited data are available for such research using Korean emotional speech. This study examined Korean emotional speech recognition in noisy environments using a denoising convolutional neural network (DnCNN) which has primarily been used to detect defects on semiconductor wafers. The DnCNN performed better at classifying emotional categories than the CNN regardless of signal-to-noise ratio (SNR) conditions. This is the first study to provide evidence of the effectiveness of DnCNN in speech emotion recognition in noisy conditions at different levels of SNRs. In addition, the experimental results suggest the possibility of extending the applicability of DnCNN in the speech domain.
Yamkela MelaneKhulumani SibandaCaroline Gurajena
Venkata Subba Reddy GadeM. Sumathi
Alif Bin Abdul QayyumAsiful ArefeenCelia Shahnaz