A CNN-Transformer Approach for Image-Text Multimodal Classification with Cross-Modal Feature Fusion

Mu‐Qing Li; Ran Hao; Shuo Shi; Zidong Yu; Qingyuan He; Junpeng Zhan

doi:10.1109/icaace65325.2025.11020324

ScienceGate Book Chapters

JOURNAL ARTICLE

A CNN-Transformer Approach for Image-Text Multimodal Classification with Cross-Modal Feature Fusion

Mu‐Qing Li Ran Hao Shuo Shi Zidong Yu Qingyuan He Junpeng Zhan

Year: 2025 Pages: 1182-1186

DOI: 10.1109/icaace65325.2025.11020324

Get Full-Text PDF Get Analytical Report

Keywords:

Computer science Modal Artificial intelligence Pattern recognition (psychology) Transformer Image fusion Feature extraction Feature (linguistics) Fusion Image (mathematics) Computer vision Voltage Engineering Electrical engineering Materials science

Metrics

Cited By

23.87

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Image Retrieval and Classification Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Text and Document Classification Technologies

Physical Sciences → Computer Science → Artificial Intelligence

A CNN-Transformer Approach for Image-Text Multimodal Classification with Cross-Modal Feature Fusion

Metrics

Citation History

Topics

Related Documents

A CNN-Transformer Approach for Image-Text Multimodal Classification with Cross-Modal Feature Fusion

A CNN-Transformer Approach for Image-Text Multimodal Classification with Cross-Modal Feature Fusion

Text-Image Data Classification and Cross-Modal Retrieval Method Using Feature Fusion

Lightweight memory-driven self-attention for hyperspectral image classification with CNN-transformer cross-feature fusion

Cross-modal Frequency-aware Transformer for Multimodal Medical Image Fusion