Discriminative training of HMM stream exponents for audio-visual speech recognition

Gerasimos Potamianos; Hans Peter Graf

doi:10.1109/icassp.1998.679695

ScienceGate Book Chapters

JOURNAL ARTICLE

Discriminative training of HMM stream exponents for audio-visual speech recognition

Gerasimos Potamianos Hans Peter Graf

Year: 2002 Vol: 6 Pages: 3733-3736

DOI: 10.1109/icassp.1998.679695

Get Full-Text PDF Get Analytical Report

Abstract

We propose the use of discriminative training by means of the generalized probabilistic descent (GPB) algorithm to estimate hidden Markov model (HMM) stream exponents for audio-visual speech recognition. Synchronized audio and visual features are used to respectively train audio-only and visual-only single-stream HMMs of identical topology by maximum likelihood. A two-stream HMM is then obtained by combining the two single-stream HMMs and introducing exponents that weigh the log-likelihood of each stream. We present the GPD algorithm for stream exponent estimation, consider a possible initialization, and apply it to the single speaker connected letters task of the AT&T bimodal database. We demonstrate the superior performance of the resulting multi-stream HMM to the audio-only, visual-only, and audio-visual single-stream HMMs.

Keywords:

Hidden Markov model Discriminative model Speech recognition Computer science Initialization Pattern recognition (psychology) Artificial intelligence

Metrics

106

Cited By

8.85

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Discriminative training of HMM stream exponents for audio-visual speech recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Discriminative stream‐weight training for mandarin audio‐visual speech recognition

Combined discriminative training for multi-stream HMM-based audio-visual speech recognition

Stream confidence estimation for audio-visual speech recognition

Audio-visual speech recognition based on joint training with audio-visual speech enhancement for robust speech recognition

Minimum phone error based stream weight training for mandarin audio-visual Speech recognition