Multi-Modal Graph Aggregation Transformer for image captioning

Lizhi Chen; Kesen Li

doi:10.1016/j.neunet.2024.106813

ScienceGate Book Chapters

JOURNAL ARTICLE

Multi-Modal Graph Aggregation Transformer for image captioning

Lizhi Chen Kesen Li

Year: 2024 Journal: Neural Networks Vol: 181 Pages: 106813-106813 Publisher: Elsevier BV

DOI: 10.1016/j.neunet.2024.106813

Get Full-Text PDF Get Analytical Report

Keywords:

Closed captioning Transformer Computer science Modal Graph Artificial intelligence Image (mathematics) Voltage Theoretical computer science Electrical engineering Engineering

Metrics

Cited By

5.83

FWCI (Field Weighted Citation Impact)

Refs

0.94

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multi-Modal Graph Aggregation Transformer for image captioning

Metrics

Citation History

Topics

Related Documents

Adaptive Multi-granularity Aggregation Transformer for Image Captioning

Boosting Entity-Aware Image Captioning With Multi-Modal Knowledge Graph

Relational Graph Reasoning Transformer for Image Captioning

Image captioning with transformer and knowledge graph

Self-supervised modal optimization transformer for image captioning