HyFusER: Hybrid Multimodal Transformer for Emotion Recognition Using Dual Cross Modal Attention

Moung-Ho Yi; Keun-Chang Kwak; Juhyun Shin

doi:10.3390/app15031053

ScienceGate Book Chapters

JOURNAL ARTICLE

HyFusER: Hybrid Multimodal Transformer for Emotion Recognition Using Dual Cross Modal Attention

Moung-Ho Yi Keun-Chang Kwak Juhyun Shin

Year: 2025 Journal: Applied Sciences Vol: 15 (3)Pages: 1053-1053 Publisher: Multidisciplinary Digital Publishing Institute

DOI: 10.3390/app15031053

Get Full-Text PDF Get Analytical Report

Abstract

Emotion recognition is becoming increasingly important for accurately understanding and responding to user emotions, driven by the rapid proliferation of non-face-to-face environments and advancements in conversational AI technologies. Existing studies on multimodal emotion recognition, which utilize text and speech, have aimed to improve performance by integrating the information from both modalities. However, these approaches have faced limitations such as restricted information exchange and the omission of critical cues. To address these challenges, this study proposes a Hybrid Multimodal Transformer, which combines Intermediate Layer Fusion and Last Fusion. Text features are extracted using KoELECTRA, while speech features are extracted using HuBERT. These features are processed through a transformer encoder, and Dual Cross Modal Attention is applied to enhance the interaction between text and speech. Finally, the predicted results from each modality are aggregated using an average ensemble method to recognize the final emotion. The experimental results indicate that the proposed model achieves superior emotion recognition performance compared to existing models, demonstrating significant progress in improving both the accuracy and reliability of emotion recognition. In the future, incorporating additional modalities, such as facial expression recognition, is expected to further strengthen multimodal emotion recognition capabilities and open new possibilities for application across diverse fields.

Keywords:

Modal Transformer Psychology Computer science Materials science Engineering Electrical engineering Voltage Composite material

Metrics

Cited By

56.49

FWCI (Field Weighted Citation Impact)

Refs

1.00

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

HyFusER: Hybrid Multimodal Transformer for Emotion Recognition Using Dual Cross Modal Attention

Abstract

Metrics

Citation History

Topics

Related Documents

Multimodal Emotion Recognition Based on Deep Temporal Features Using Cross-Modal Transformer and Self-Attention

Cross-modal Emotion-specific Attention model for Multimodal Emotion Recognition

MemoCMT: multimodal emotion recognition using cross-modal transformer-based feature fusion

Multi-Modal Emotion Recognition Using Multiple Acoustic Features and Dual Cross-Modal Transformer

Multimodal Emotion Recognition Using Cross-Modal Attention and 1D Convolutional Neural Networks