Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention

Xubo Liu; Qiushi Huang; Xinhao Mei; Haohe Liu; Qiuqiang Kong; Jianyuan Sun; Shengchen Li; Tom Ko; Yu Zhang; Lilian H. Tang; Mark D. Plumbley; Volkan Kılıç; Wenwu Wang

doi:10.21437/interspeech.2023-914

JOURNAL ARTICLE

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention

Xubo Liu Qiushi Huang Xinhao Mei Haohe Liu Qiuqiang Kong Jianyuan Sun Shengchen Li Tom Ko Yu Zhang Lilian H. Tang Mark D. Plumbley Volkan Kılıç Wenwu Wang

Year: 2023 Pages: 2838-2842

DOI: 10.21437/interspeech.2023-914

Get Full-Text PDF Get Analytical Report

Abstract

Audio captioning aims to generate text descriptions of audio clips.In the real world, many objects produce similar sounds.How to accurately recognize ambiguous sounds is a major challenge for audio captioning.In this work, inspired by inherent human multimodal perception, we propose visuallyaware audio captioning, which makes use of visual information to help the description of ambiguous sounding objects.Specifically, we introduce an off-the-shelf visual encoder to extract video features and incorporate the visual features into an audio captioning system.Furthermore, to better exploit complementary audio-visual contexts, we propose an audio-visual attention mechanism that adaptively integrates audio and visual context and removes the redundant information in the latent space.Experimental results on AudioCaps, the largest audio captioning dataset, show that our proposed method achieves state-of-theart results on machine translation metrics.

Keywords:

Closed captioning Computer science Audio visual Multimedia Speech recognition Human–computer interaction Artificial intelligence Image (mathematics)

Metrics

Cited By

2.73

FWCI (Field Weighted Citation Impact)

Refs

0.88

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Subtitles and Audiovisual Media

Social Sciences → Arts and Humanities → Language and Linguistics

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention

Abstract

Metrics

Citation History

Topics

Related Documents

Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation

Graph Attention for Automated Audio Captioning

Audio-Visual Salieny Network with Audio Attention Module

Visual Content Captioning and Audio Conversion using CNN-RNN with Attention Model

Depth-Aware Audio Visual Segmentation with Geometry-Heuristic Cross Attention