Hierarchical Model For Long-Length Video Summarization With Adversarially Enhanced Audio/Visual Features

Hansol Lee; Gyemin Lee

doi:10.1109/icip40778.2020.9190636

ScienceGate Book Chapters

JOURNAL ARTICLE

Hierarchical Model For Long-Length Video Summarization With Adversarially Enhanced Audio/Visual Features

Hansol Lee Gyemin Lee

Year: 2020

DOI: 10.1109/icip40778.2020.9190636

Get Full-Text PDF Get Analytical Report

Abstract

In this paper, we propose a novel supervised method for summarizing long-length videos. Many recent approaches presented promising results in video summarization. However, videos in most benchmark datasets are short in duration (<; 10 minutes), and the methods often do not work well for very long-length videos (>1 hour). Furthermore, most approaches only use visual features, while audios provide useful information for the task. Based on these observations, we present a model that exploits both audio and visual features. To handle long videos, the hierarchical structure of our model captures both the short-term and long-term temporal dependencies. Our model also refines the extracted features using adversarial networks. To demonstrate our model, we have collected a new dataset of 28 baseball (~3.5 hours) videos, accompanied by an editorial summary video that is 5% in length of the original video. Evaluation on the dataset suggests that our method produces quality summaries for very long videos.

Keywords:

Automatic summarization Computer science Audio visual Artificial intelligence Visualization Computer vision Speech recognition Multimedia

Metrics

Cited By

0.42

FWCI (Field Weighted Citation Impact)

Refs

0.62

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Digital Media Forensic Detection

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Hierarchical Model For Long-Length Video Summarization With Adversarially Enhanced Audio/Visual Features

Abstract

Metrics

Citation History

Topics

Related Documents

Enhanced On-Device Video Summarization Using Audio and Visual Features

Summarizing Long-Length Videos with GAN-Enhanced Audio/Visual Features

Rushes Video Summarization by Audio-Filtering Visual Features

A Hierarchical Visual Model for Video Object Summarization

Video Summarization with Visual and Semantic Features