Multimodal Interaction Fusion Network Based on Transformer for Video Captioning

Hui Xu; Pengpeng Zeng; Abdullah Aman Khan

doi:10.1007/978-981-19-7946-0_3

ScienceGate Book Chapters

BOOK-CHAPTER

Multimodal Interaction Fusion Network Based on Transformer for Video Captioning

Hui Xu Pengpeng Zeng Abdullah Aman Khan

Year: 2022 Communications in computer and information science Pages: 21-36 Publisher: Springer Science+Business Media

DOI: 10.1007/978-981-19-7946-0_3

Get Full-Text PDF Get Analytical Report

Keywords:

Closed captioning Computer science Transformer Encoder Artificial intelligence Benchmark (surveying) Machine learning Natural language processing Image (mathematics)

Metrics

Cited By

0.33

FWCI (Field Weighted Citation Impact)

Refs

0.68

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Interaction Fusion Network Based on Transformer for Video Captioning

Metrics

Citation History

Topics

Related Documents

A Transformer-based Multimodal Feature Fusion Model for Video Captioning

Improving Dense Video Captioning with a Transformer-based Multimodal Fusion Model

Multimodal attention-based transformer for video captioning

Hierarchical attention-based multimodal fusion for video captioning

MIVCN: Multimodal interaction video captioning network based on semantic association graph