Dynamic Stream Weight Modeling for Audio-Visual Speech Recognition

Etienne Marcheret; Vit Libal; Gerasimos Potamianos

doi:10.1109/icassp.2007.367227

ScienceGate Book Chapters

JOURNAL ARTICLE

Dynamic Stream Weight Modeling for Audio-Visual Speech Recognition

Etienne Marcheret Vit Libal Gerasimos Potamianos

Year: 2007 Pages: IV-945

DOI: 10.1109/icassp.2007.367227

Get Full-Text PDF Get Analytical Report

Abstract

To generate optimal multi-stream audio-visual speech recognition performance, appropriate dynamic weighting of each modality is desired. In this paper, we propose to estimate such weights based on a combination of acoustic signal space observations and single-modality audio and visual speech model likelihoods. Two modeling approaches are investigated for such weight estimation: one based on a sigmoid fitting function, the other employing Gaussian mixture models. Reported experiments demonstrate that the later approach outperforms sigmoid based modeling, and is dramatically superior to the static weighting scheme.

Keywords:

Weighting Sigmoid function Computer science Speech recognition Modality (human–computer interaction) Artificial intelligence Gaussian Audio signal Audio visual Pattern recognition (psychology) Mixture model Speech coding Artificial neural network

Metrics

Cited By

1.24

FWCI (Field Weighted Citation Impact)

Refs

0.78

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Advanced Adaptive Filtering Techniques

Physical Sciences → Engineering → Computational Mechanics

Dynamic Stream Weight Modeling for Audio-Visual Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

On Dynamic Stream Weighting for Audio-Visual Speech Recognition

Multi-stream Asynchrony Modeling for Audio-Visual Speech Recognition

Multi-Stream Asynchrony Modeling for Audio Visual Speech Recognition

Discriminative stream‐weight training for mandarin audio‐visual speech recognition

Improved features and dynamic stream weight adaption for robust Audio-Visual Speech Recognition framework