Multimodal-enhanced hierarchical attention network for video captioning

Maosheng Zhong; Youde Chen; Hao Zhang; Hao Xiong; Zhixiang Wang

doi:10.1007/s00530-023-01130-w

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal-enhanced hierarchical attention network for video captioning

Maosheng Zhong Youde Chen Hao Zhang Hao Xiong Zhixiang Wang

Year: 2023 Journal: Multimedia Systems Vol: 29 (5)Pages: 2469-2482 Publisher: Springer Science+Business Media

DOI: 10.1007/s00530-023-01130-w

Get Full-Text PDF Get Analytical Report

Keywords:

Computer science Closed captioning Decoding methods Modalities Transformer Encoder Redundancy (engineering) Modality (human–computer interaction) Artificial intelligence Context (archaeology) Speech recognition Image (mathematics) Algorithm

Metrics

Cited By

0.55

FWCI (Field Weighted Citation Impact)

Refs

0.60

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal-enhanced hierarchical attention network for video captioning

Metrics

Citation History

Topics

Related Documents

Hierarchical attention-based multimodal fusion for video captioning

Hierarchical Multimodal Attention Network Based on Semantically Textual Guidance for Video Captioning

Syntax-Guided Hierarchical Attention Network for Video Captioning

Stacked Multimodal Attention Network for Context-Aware Video Captioning

A Hierarchical Multimodal Attention-based Neural Network for Image Captioning