Multimodal attention-based transformer for video captioning

M. Hemalatha; Charu Chandra

doi:10.1007/s10489-023-04597-2

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal attention-based transformer for video captioning

M. Hemalatha Charu Chandra

Year: 2023 Journal: Applied Intelligence Vol: 53 (20)Pages: 23349-23368 Publisher: Springer Science+Business Media

DOI: 10.1007/s10489-023-04597-2

Get Full-Text PDF Get Analytical Report

Keywords:

Computer science Closed captioning Transformer Encoder Artificial intelligence Convolutional neural network Embedding Block (permutation group theory) Pattern recognition (psychology) Computer vision Image (mathematics)

Metrics

Cited By

1.64

FWCI (Field Weighted Citation Impact)

Refs

0.81

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal attention-based transformer for video captioning

Metrics

Citation History

Topics

Related Documents

Hierarchical attention-based multimodal fusion for video captioning

Multimodal Interaction Fusion Network Based on Transformer for Video Captioning

UAT: Universal Attention Transformer for Video Captioning

A Transformer-based Multimodal Feature Fusion Model for Video Captioning

Diffusion-Based Multimodal Video Captioning