Enhancing Robustness Against Adversarial Attacks in Multimodal Emotion Recognition With Spiking Transformers

Guoming Chen; Zhuoxian Qian; Dong Zhang; Shuang Qiu; Ruqi Zhou

doi:10.1109/access.2025.3544086

ScienceGate Book Chapters

JOURNAL ARTICLE

Enhancing Robustness Against Adversarial Attacks in Multimodal Emotion Recognition With Spiking Transformers

Guoming Chen Zhuoxian Qian Dong Zhang Shuang Qiu Ruqi Zhou

Year: 2025 Journal: IEEE Access Vol: 13 Pages: 34584-34597 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/access.2025.3544086

Get Full-Text PDF Get Analytical Report

Abstract

Deep neural networks have demonstrated significant potential in applications such as human-computer interaction and emotion analysis, particularly in multimodal emotion recognition. However, they remain vulnerable to adversarial examples, where subtle perturbations can severely degrade classifier performance. Inspired by the sparse, asynchronous spiking activity and inherent nonlinearity of spiking neural networks (SNNs), we propose a novel framework, the Sliding Parallel Spiking Convolutional Vision Transformer (SPSNCVT), designed for robust and efficient multimodal emotion recognition. Our framework processes multiple signals, including facial expressions, voice, and text, using aligned heatmap features and multiscale wavelet transforms for precise feature extraction. Experimental results indicate that the SPSNCVT framework significantly improves classification accuracy when confronted with adversarial attacks such as fast gradient sign method (FGSM), basic iterative method (BIM), and projected gradient descent (PGD), achieving a performance gain of 3.60%-4.01% and 7.03%-13.73% compared to baseline models. Furthermore, SPSNCVT demonstrates excellent performance in terms of energy efficiency and computational speed, highlighting its practical deployment potential in real-time application scenarios.

Keywords:

Computer science Robustness (evolution) Adversarial system Transformer Artificial intelligence Speech recognition Pattern recognition (psychology) Machine learning Engineering Voltage Electrical engineering Chemistry

Metrics

Cited By

43.93

FWCI (Field Weighted Citation Impact)

Refs

0.99

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Emotion and Mood Recognition

Social Sciences → Psychology → Experimental and Cognitive Psychology

Adversarial Robustness in Machine Learning

Physical Sciences → Computer Science → Artificial Intelligence

Anomaly Detection Techniques and Applications

Physical Sciences → Computer Science → Artificial Intelligence

Enhancing Robustness Against Adversarial Attacks in Multimodal Emotion Recognition With Spiking Transformers

Abstract

Metrics

Citation History

Topics

Related Documents

Robustness of spiking neural networks against adversarial attacks

Enhancing Model Robustness Against Adversarial Attacks with an Anti-adversarial Module

Evaluating and enhancing the robustness of vision transformers against adversarial attacks in medical imaging

Enhancing Cross-Language Multimodal Emotion Recognition With Dual Attention Transformers

Enhancing the robustness of QMIX against state-adversarial attacks