Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion

Zanxu Wang; Beigi, Homayoon

doi:10.13140/rg.2.2.33632.55045

ScienceGate Book Chapters

JOURNAL ARTICLE

Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion

Zanxu Wang Beigi, Homayoon

Year: 2025 Journal: arXiv (Cornell University) Publisher: Cornell University

DOI: 10.13140/rg.2.2.33632.55045

Get Full-Text PDF Get Analytical Report

Abstract

This paper addresses data quality issues in multimodal emotion recognition in conversation (MERC) through systematic quality control and multi-stage transfer learning. We implement a quality control pipeline for MELD and IEMOCAP datasets that validates speaker identity, audio-text alignment, and face detection. We leverage transfer learning from speaker and face recognition, assuming that identity-discriminative embeddings capture not only stable acoustic and Facial traits but also person-specific patterns of emotional expression. We employ RecoMadeEasy(R) engines for extracting 512-dimensional speaker and face embeddings, fine-tune MPNet-v2 for emotion-aware text representations, and adapt these features through emotion-specific MLPs trained on unimodal datasets. MAMBA-based trimodal fusion achieves 64.8% accuracy on MELD and 74.3% on IEMOCAP. These results show that combining identity-based audio and visual embeddings with emotion-tuned text representations on a quality-controlled subset of data yields consistent competitive performance for multimodal emotion recognition in conversation and provides a basis for further improvement on challenging, low-frequency emotion classes.

Keywords:

Conversation Emotion recognition Leverage (statistics) Transfer of learning Quality (philosophy) Pipeline (software) Speaker recognition Facial recognition system

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.66

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

Social Robot Interaction and HRI

Social Sciences → Psychology → Social Psychology

Speech and dialogue systems

Physical Sciences → Computer Science → Artificial Intelligence

Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion

Abstract

Metrics

Topics

Related Documents

Multimodal Mamba Model for Emotion Recognition in Conversations

Multimodal Emotion Recognition Based on Global Information Fusion in Conversations

Identity and Modality Attributes Driven Multimodal Fusion Networks for Emotion Recognition in Conversations

Speaker-Centric Multimodal Fusion Networks for Emotion Recognition in Conversations

MambaMER: Adaptive EEG-Guided Multimodal Emotion Recognition with Mamba