Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

David Dean; Patrick Lucey; Sridha Sridharan; Tim Wark

doi:10.21437/interspeech.2007-285

ScienceGate Book Chapters

JOURNAL ARTICLE

Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

David Dean Patrick Lucey Sridha Sridharan Tim Wark

Year: 2007 Pages: 666-669

DOI: 10.21437/interspeech.2007-285

Get Full-Text PDF Get Analytical Report

Abstract

A technique known as fused hidden Markov models (FHMMs) was recently proposed as an alternative multi-stream modelling technique for audio-visual speaker recognition. In this paper we show that for audio-visual speech recognition (AVSR), FHMMs can be adopted as a novel method of training synchronous MSHMMs. MSHMMs, as proposed by several authors for use in AVSR, are jointly trained on both the audio and visual modalities. In contrast our proposed FHMM adaptation method can be used to adapt the multi-stream models from single-stream audio HMMs, and in the process, better model the video speech in the final model when compared to jointly-trained MSHMMs. By experiments conducted on the XM2VTS database we show that the improved video performance of the FHMM-adapted MSHMMs results in an improvement in AVSR performance over jointly-trained MSHMMs at all levels of audio noise, and provide significant advantage in high noise environments.

Keywords:

Hidden Markov model Computer science Speech recognition Artificial intelligence Noise (video) Adaptation (eye) Process (computing) Audio mining Acoustic model Pattern recognition (psychology) Speech processing Image (mathematics)

Metrics

Cited By

0.62

FWCI (Field Weighted Citation Impact)

Refs

0.66

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Audio-Visual Affect Recognition through Multi-Stream Fused HMM for HCI

Rapid Feature Space Speaker Adaptation for Multi-Stream HMM-Based Audio-Visual Speech Recognition

A stream-weight optimization method for audio-visual speech recognition using multi-stream HMMs

Combined discriminative training for multi-stream HMM-based audio-visual speech recognition

Efficient likelihood computation in multi-stream HMM based audio-visual speech recognition