Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization

Hanyu Xuan; Zhenyu Zhang; Shuo Chen; Jian Yang; Yan Yan

doi:10.1609/aaai.v34i01.5361

ScienceGate Book Chapters

JOURNAL ARTICLE

Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization

Hanyu Xuan Zhenyu Zhang Shuo Chen Jian Yang Yan Yan

Year: 2020 Journal: Proceedings of the AAAI Conference on Artificial Intelligence Vol: 34 (01)Pages: 279-286 Publisher: Association for the Advancement of Artificial Intelligence

DOI: 10.1609/aaai.v34i01.5361

Get Full-Text PDF Get Analytical Report

Abstract

In human multi-modality perception systems, the benefits of integrating auditory and visual information are extensive as they provide plenty supplementary cues for understanding the events. Despite some recent methods proposed for such application, they cannot deal with practical conditions with temporal inconsistency. Inspired by human system which puts different focuses at specific locations, time segments and media while performing multi-modality perception, we provide an attention-based method to simulate such process. Similar to human mechanism, our network can adaptively select “where” to attend, “when” to attend and “which” to attend for audio-visual event localization. In this way, even with large temporal inconsistent between vision and audio, our network is able to adaptively trade information between different modalities and successfully achieve event localization. Our method achieves state-of-the-art performance on AVE (Audio-Visual Event) dataset collected in the real life. In addition, we also systemically investigate audio-visual event localization tasks. The visualization results also help us better understand how our model works.

Keywords:

Audio visual Computer science Event (particle physics) Modality (human–computer interaction) Perception Modalities Visualization Process (computing) Modal Artificial intelligence Speech recognition Multimedia Psychology

Metrics

Cited By

10.32

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Cross-Modal Attention Network for Temporal Inconsistent Audio-Visual Event Localization

Abstract

Metrics

Citation History

Topics

Related Documents

Discriminative Cross-Modality Attention Network for Temporal Inconsistent Audio-Visual Event Localization

Temporal Cross-Modal Attention for Audio-Visual Event Localization

Multimodal Network with Cross-Modal Attention for Audio-Visual Event Localization

C-CANet:Calibration-Based Cross-Modal Attention Network for Audio-Visual Event Localization

GLTCM: Global-Local Temporal and Cross-Modal Network for Audio-Visual Event Localization