Multilevel Transformer for Multimodal Emotion Recognition

Junyi He; Meimei Wu; Meng Li; Xiaobo Zhu; Feng Ye

doi:10.1109/icassp49357.2023.10097110

ScienceGate Book Chapters

JOURNAL ARTICLE

Multilevel Transformer for Multimodal Emotion Recognition

Junyi He Meimei Wu Meng Li Xiaobo Zhu Feng Ye

Year: 2023 Pages: 1-5

DOI: 10.1109/icassp49357.2023.10097110

Get Full-Text PDF Get Analytical Report

Abstract

Multimodal emotion recognition has attracted much attention recently. Fusing multiple modalities effectively with limited labeled data is a challenging task. Considering the success of pre-trained model and fine-grained nature of emotion expression, we think it is reasonable to take these two aspects into consideration. Unlike previous methods that mainly focus on one aspect, we introduce a novel multi-granularity framework, which combines fine-grained representation with pre-trained utterance-level representation. Inspired by Transformer TTS, we propose a multilevel transformer model to perform fine-grained multimodal emotion recognition. Specifically, we explore different methods to incorporate phoneme-level embedding with word-level embedding. To perform multi-granularity learning, we simply combine multilevel transformer model with Bert. Extensive experimental results show that multilevel transformer model outperforms previous state-of-the-art approaches on IEMOCAP dataset. Multi-granularity model achieves additional performance improvement.

Keywords:

Computer science Transformer Embedding Granularity Utterance Artificial intelligence Modalities Natural language processing Speech recognition Machine learning Engineering

Metrics

Cited By

2.92

FWCI (Field Weighted Citation Impact)

Refs

0.86

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

Sentiment Analysis and Opinion Mining

Physical Sciences → Computer Science → Artificial Intelligence

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Multilevel Transformer for Multimodal Emotion Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Multimodal Neurophysiological Transformer for Emotion Recognition

Multimodal Transformer Fusion for Continuous Emotion Recognition

Noise-Resistant Multimodal Transformer for Emotion Recognition

Token-disentangling Mutual Transformer for multimodal emotion recognition

Multimodal transformer augmented fusion for speech emotion recognition