Position embedding fusion on transformer for dense video captioning

Sixuan Yang; Pengjie Tang; Hanli Wang; Qinyu Li

doi:10.1142/9789811223334_0095

ScienceGate Book Chapters

JOURNAL ARTICLE

Position embedding fusion on transformer for dense video captioning

Sixuan Yang Pengjie Tang Hanli Wang Qinyu Li

Year: 2020 Journal: Developments of Artificial Intelligence Technologies in Computation and Robotics Pages: 792-799

DOI: 10.1142/9789811223334_0095

Get Full-Text PDF Get Analytical Report

Keywords:

Closed captioning Transformer Embedding Computer science Position (finance) Fusion Computer vision Artificial intelligence Electrical engineering Engineering Linguistics

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.08

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Position embedding fusion on transformer for dense video captioning

Metrics

Topics

Related Documents

Improving Dense Video Captioning with a Transformer-based Multimodal Fusion Model

Dense Video Captioning through Convolutional-Transformer Integration

Accelerated masked transformer for dense video captioning

Transformer and LLM-Based Captioning Module for Dense Video Captioning

Parallel Pathway Dense Video Captioning With Deformable Transformer