Multimodal representation fusion method for dense video captioning

Haojie Fang; Yonggang Li; Yingjian Li

doi:10.1016/j.knosys.2025.113856

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal representation fusion method for dense video captioning

Haojie Fang Yonggang Li Yingjian Li

Year: 2025 Journal: Knowledge-Based Systems Vol: 324 Pages: 113856-113856 Publisher: Elsevier BV

DOI: 10.1016/j.knosys.2025.113856

Get Full-Text PDF Get Analytical Report

Keywords:

Closed captioning Representation (politics) Computer science Fusion Artificial intelligence Natural language processing Computer vision Speech recognition Linguistics Image (mathematics)

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.18

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal representation fusion method for dense video captioning

Metrics

Topics

Related Documents

Improving Dense Video Captioning with a Transformer-based Multimodal Fusion Model

End-to-End Dense Video Captioning Model Based on Multimodal Feature Fusion

Event-centric multi-modal fusion method for dense video captioning

Event-Centric Hierarchical Representation for Dense Video Captioning

Dense Video Captioning With Early Linguistic Information Fusion