Audio-Visual Speaker Localization Using Graphical Models

Akash Kushal; Mandar Rahurkar; Li Fei-Fei; Jean Ponce; Tsung‐Wei Huang

doi:10.1109/icpr.2006.284

ScienceGate Book Chapters

JOURNAL ARTICLE

Audio-Visual Speaker Localization Using Graphical Models

Akash Kushal Mandar Rahurkar Li Fei-Fei Jean Ponce Tsung‐Wei Huang

Year: 2006 Pages: 291-294

DOI: 10.1109/icpr.2006.284

Get Full-Text PDF Get Analytical Report

Abstract

In this work we propose an approach to combine audio and video modalities for person tracking using graphical models. We demonstrate a principled and intuitive framework for combining these modalities to obtain robustness against occlusion and change in appearance. We further exploit the temporal correlations that exist for a moving object between adjacent frames to account for the cases where having both modalities might still not be enough, e.g., when the person being tracked is occluded and not speaking. Improvement in tracking results is shown at each step and compared with manually annotated ground truth.

Keywords:

Computer science Robustness (evolution) Modalities Ground truth Artificial intelligence Computer vision Video tracking Exploit Graphical model Speech recognition Object (grammar)

Metrics

Cited By

0.96

FWCI (Field Weighted Citation Impact)

Refs

0.75

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Video Surveillance and Tracking Methods

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Audio-Visual Speaker Localization Using Graphical Models

Abstract

Metrics

Citation History

Topics

Related Documents

Audio-Visual Speaker Localization and Tracking

Audio-Visual Clustering for 3D Speaker Localization

Deep Audio-Visual Beamforming for Speaker Localization

Audio-visual speaker identification using coupled hidden Markov models

Audio-visual SPeaker localization for car navigation systems