Syntax-Guided Hierarchical Attention Network for Video Captioning

Jincan Deng; Liang Li; Beichen Zhang; Shuhui Wang; Zheng-Jun Zha; Qingming Huang

doi:10.1109/tcsvt.2021.3063423

ScienceGate Book Chapters

JOURNAL ARTICLE

Syntax-Guided Hierarchical Attention Network for Video Captioning

Jincan Deng Liang Li Beichen Zhang Shuhui Wang Zheng-Jun Zha Qingming Huang

Year: 2021 Journal: IEEE Transactions on Circuits and Systems for Video Technology Vol: 32 (2)Pages: 880-892 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/tcsvt.2021.3063423

Get Full-Text PDF Get Analytical Report

Abstract

Video captioning is a challenging task that aims to generate linguistic description based on video content. Most methods only incorporate visual features (2D/3D) as input for generating visual and non-visual words in the caption. However, generating non-visual words usually depends more on sentence-context than visual features. The wrong non-visual words can reduce the sentence fluency and even change the meaning of sentence. In this paper, we propose a syntax-guided hierarchical attention network (SHAN), which leverages semantic and syntax cues to integrate visual and sentence-context features for captioning. First, a globally-dependent context encoder is designed to extract the global sentence-context feature that facilitates generating non-visual words. Then, we introduce hierarchical content attention and syntax attention to adaptively integrate features in terms of temporality and feature characteristics respectively. Content attention helps focus on time intervals related to the semantic of current word, while cross-modal syntax attention uses syntax information to model importance of different features for target word's generation. Moreover, such hierarchical attention can enhance the model interpretability for captioning. Experiments on MSVD and MSR-VTT datasets show the comparable performance of our method compared with current methods.

Keywords:

Closed captioning Computer science Syntax Abstract syntax tree Artificial intelligence Semantics (computer science) Natural language processing Multimedia Programming language Image (mathematics)

Metrics

Cited By

7.16

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Syntax-Guided Hierarchical Attention Network for Video Captioning

Abstract

Metrics

Citation History

Topics

Related Documents

Multimodal-enhanced hierarchical attention network for video captioning

Video Captioning using Hierarchical Multi-Attention Model

Hierarchical Attention Network for Image Captioning

Motion Guided Spatial Attention for Video Captioning

Hierarchical Modular Network for Video Captioning