Deep Audio-Visual Beamforming for Speaker Localization

Xinyuan Qian; Qiquan Zhang; Guohui Guan; Wei Xue

doi:10.1109/lsp.2022.3165466

ScienceGate Book Chapters

JOURNAL ARTICLE

Deep Audio-Visual Beamforming for Speaker Localization

Xinyuan Qian Qiquan Zhang Guohui Guan Wei Xue

Year: 2022 Journal: IEEE Signal Processing Letters Vol: 29 Pages: 1132-1136 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/lsp.2022.3165466

Get Full-Text PDF Get Analytical Report

Abstract

Generalized Cross Correlation (GCC) is the most popular localization technique over the past decades and can be extended with the beamforming method e.g. Steered Response Power (SRP) when multiple microphone pairs exist. Considering the promising results of Deep Learning (DL) strategies over classical approaches, in this work, instead of directly using Generalized Cross Correlation (GCC), SRP is derived with the DL-learnt ideal correlation functions for each pair of a microphone array. To deploy visual information, we explore the Conditional Variational Auto-Encoder (CVAE) framework in which the audio generative process is conditioned on the visual features encoded by face detections. The vision-derived auxiliary correlation function eventually contributes to the back-end beamformer for improved localization performance. To the best of our knowledge, this is the first deep-generative audiovisual method for speaker localization. Experimental results demonstrate our superior performance over other competitive methods, especially when the speech signal is corrupted by noise.

Keywords:

Computer science Beamforming Microphone Microphone array Speech recognition Artificial intelligence Autoencoder Noise (video) Pattern recognition (psychology) Correlation Deep learning Image (mathematics) Mathematics

Metrics

Cited By

2.73

FWCI (Field Weighted Citation Impact)

Refs

0.87

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Advanced Adaptive Filtering Techniques

Physical Sciences → Engineering → Computational Mechanics

Deep Audio-Visual Beamforming for Speaker Localization

Abstract

Metrics

Citation History

Topics

Related Documents

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization

Audio-Visual Speaker Localization and Tracking

Audio-Visual Speaker Localization Using Graphical Models

Audio-Visual Clustering for 3D Speaker Localization

Audio-visual SPeaker localization for car navigation systems