Product HMMs for audio-visual continuous speech recognition using facial animation parameters

Petar Aleksic; Aggelos K. Katsaggelos

doi:10.1109/icme.2003.1221658

ScienceGate Book Chapters

JOURNAL ARTICLE

Product HMMs for audio-visual continuous speech recognition using facial animation parameters

Petar Aleksic Aggelos K. Katsaggelos

Year: 2003 Vol: 23 Pages: II-481

DOI: 10.1109/icme.2003.1221658

Get Full-Text PDF Get Analytical Report

Abstract

The use of visual information in addition to acoustic can improve automatic speech recognition. In this paper we compare different approaches for audio-visual information integration and show how they affect automatic speech recognition performance. We utilize facial animation parameters (FAPs), supported by the MPEG-4 standard for the visual representation as visual features. We use both single-stream and multi-stream hidden Markov models (HMM) to integrate audio and visual information. We performed both state and phone synchronous multi-stream integration. Product HMM topology is used to model the phone-synchronous integration. ASR experiments were performed under noisy audio conditions using a relatively large vocabulary (approximately 1000 words) audio-visual database. The proposed phone-synchronous system, which performed the best, reduces the word error rate (WER) by approximately 20% relatively to audio-only ASR (A-ASR) WERs, at various SNRs with additive white Gaussian noise.

Keywords:

Computer science Speech recognition Hidden Markov model Phone Word error rate Audio mining Vocabulary Computer facial animation Artificial intelligence Animation Visualization Acoustic model Computer animation Pattern recognition (psychology) Speech processing Computer graphics (images)

Metrics

Cited By

0.58

FWCI (Field Weighted Citation Impact)

Refs

0.69

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Video Analysis and Summarization

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Product HMMs for audio-visual continuous speech recognition using facial animation parameters

Abstract

Metrics

Citation History

Topics

Related Documents

Automatic Facial Expression Recognition Using Facial Animation Parameters and Multistream HMMs

Speech Driven Facial Animation Using HMMs in Basque

Continuous audio-visual speech recognition

Multi-modal temporal asynchronicity modeling by product HMMs for robust audio-visual speech recognition

Speech recognition using HMMs with quantized parameters