SER-Fuse: An Emotion Recognition Application Utilizing Multi-Modal, Multi-Lingual, and Multi-Feature Fusion

Nhat Truong Pham; Le Thi Phan; Duc Ngoc Minh Dang; Balachandran Manavalan

doi:10.1145/3628797.3628887

ScienceGate Book Chapters

JOURNAL ARTICLE

SER-Fuse: An Emotion Recognition Application Utilizing Multi-Modal, Multi-Lingual, and Multi-Feature Fusion

Nhat Truong Pham Le Thi Phan Duc Ngoc Minh Dang Balachandran Manavalan

Year: 2023 Pages: 870-877

DOI: 10.1145/3628797.3628887

Get Full-Text PDF Get Analytical Report

Abstract

Speech emotion recognition (SER) is a crucial aspect of affective computing and human-computer interaction, yet effectively identifying emotions in different speakers and languages remains challenging. This paper introduces SER-Fuse, a multi-modal SER application that is designed to address the complexities of multiple speakers and languages. Our approach leverages diverse audio/speech embeddings and text embeddings to extract optimal features for multi-modal SER. We subsequently employ multi-feature fusion to integrate embedding features across modalities and languages. Experimental results archived on the English-Chinese emotional speech (ECES) dataset reveal that SER-Fuse attains competitive performance in the multi-lingual approach compared to the single-lingual approaches. Furthermore, we provide the implementation of SER-Fuse for download at https://github.com/nhattruongpham/SER-Fuse to support reproducibility and local deployment.

Keywords:

Fuse (electrical) Computer science Embedding Modal Feature (linguistics) Modalities Natural language processing Artificial intelligence Speech recognition Engineering Linguistics

Metrics

Cited By

1.25

FWCI (Field Weighted Citation Impact)

Refs

0.76

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

SER-Fuse: An Emotion Recognition Application Utilizing Multi-Modal, Multi-Lingual, and Multi-Feature Fusion

Abstract

Metrics

Citation History

Topics

Related Documents

Speech emotion recognition based on multi‐feature and multi‐lingual fusion

Speech Emotion Recognition Using Multi-Modal Feature Fusion Network

MRFER: Multi-Channel Robust Feature Enhanced Fusion for Multi-Modal Emotion Recognition

Multi-modal feature fusion based on multi-layers LSTM for video emotion recognition

Enhanced multi-modal emotion recognition using the feature level fusion