DynamicMBFN: Dynamic Multimodal Bottleneck Fusion Network for Multimodal Emotion Recognition

YuTong Sun; Dalei Cheng; Yaxi Chen; Zhiwei He

doi:10.1109/isctis58954.2023.10213035

ScienceGate Book Chapters

JOURNAL ARTICLE

DynamicMBFN: Dynamic Multimodal Bottleneck Fusion Network for Multimodal Emotion Recognition

YuTong Sun Dalei Cheng Yaxi Chen Zhiwei He

Year: 2023 Pages: 639-644

DOI: 10.1109/isctis58954.2023.10213035

Get Full-Text PDF Get Analytical Report

Abstract

In the realm of multimodal emotion recognition, the processing of diverse data modalities such as audio, text, and video is a necessity. Yet, existing machine perception models predominantly aim at optimizing the handling of specific modalities, subsequently fusing the representations or predictions of each modality in later stages. These multimodal classification algorithms chiefly depend on the complementarity among different modalities to augment classification performance. However, they often grapple with challenges such as insufficient data and excessive computations while exploiting the complementary nature of multimodal information. To circumvent these issues, we introduce a multimodal fusion network, DynamicMBFN. This network implements dynamic evaluation strategies and sparse gating mechanisms to apprehend the information variations within each modality's features. Furthermore, we bring forward a bottleneck mechanism to compel the model to arrange and condense information within each modality, simultaneously sharing requisite information. Experimental findings on the IEMOCAP dataset substantiate that our algorithm not only ameliorates the performance of multimodal information fusion but also effectively mitigates computational costs. Thus, our model offers an efficacious solution for multimodal data processing and carries substantial practical implications for accomplishing dependable multimodal fusion.

Keywords:

Modalities Computer science Bottleneck Modality (human–computer interaction) Artificial intelligence Multimodal learning Sensor fusion Machine learning Complementarity (molecular biology) Human–computer interaction

Metrics

Cited By

0.83

FWCI (Field Weighted Citation Impact)

Refs

0.68

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

DynamicMBFN: Dynamic Multimodal Bottleneck Fusion Network for Multimodal Emotion Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Domain-Separated Bottleneck Attention Fusion Framework for Multimodal Emotion Recognition

MHAN: Bottleneck Fusion Model Based on Hybrid Attention Network for Multimodal Emotion Recognition

MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in Conversations

Multimodal speech emotion recognition via modality constraint with hierarchical bottleneck feature fusion

Topics Guided Multimodal Fusion Network for Conversational Emotion Recognition