Multimodal learning with feature fusion transformer for image captioning

Wenqing Zhu; Feiniu Yuan

doi:10.1016/j.displa.2025.103126

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal learning with feature fusion transformer for image captioning

Wenqing Zhu Feiniu Yuan

Year: 2025 Journal: Displays Vol: 90 Pages: 103126-103126 Publisher: Elsevier BV

DOI: 10.1016/j.displa.2025.103126

Get Full-Text PDF Get Analytical Report

Keywords:

Closed captioning Computer science Transformer Artificial intelligence Feature (linguistics) Computer vision Image (mathematics) Pattern recognition (psychology) Engineering Linguistics Electrical engineering

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.18

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal learning with feature fusion transformer for image captioning

Metrics

Topics

Related Documents

Multimodal Feature Fusion Network for Image Captioning

Feature-Fusion Parallel Decoding Transformer for Image Captioning

A Transformer-based Multimodal Feature Fusion Model for Video Captioning

Multimodal Fusion of Transformer with Attention Mechanism for Improved Contextual Image Captioning

PFFS: transformer-based progressive feature fusion strategy for image captioning