Rapid Feature Space Speaker Adaptation for Multi-Stream HMM-Based Audio-Visual Speech Recognition

Jing Huang; Etienne Marcheret; Karthik Visweswariah

doi:10.1109/icme.2005.1521429

ScienceGate Book Chapters

JOURNAL ARTICLE

Rapid Feature Space Speaker Adaptation for Multi-Stream HMM-Based Audio-Visual Speech Recognition

Jing Huang Etienne Marcheret Karthik Visweswariah

Year: 2005 Pages: 338-341

DOI: 10.1109/icme.2005.1521429

Get Full-Text PDF Get Analytical Report

Abstract

Multi-stream hidden Markov models (HMMs) have recently been very successful in audio-visual speech recognition, where the audio and visual streams are fused at the final decision level. In this paper we investigate fast feature space speaker adaptation using multi-stream HMMs for audio-visual speech recognition. In particular, we focus on studying the performance of feature-space maximum likelihood linear regression (fMLLR), a fast and effective method for estimating feature space transforms. Unlike the common speaker adaptation techniques of MAP or MLLR, fMLLR does not change the audio or visual HMM parameters, but simply applies a single transform to the testing features. We also address the problem of fast and robust on-line fMLLR adaptation using feature space maximum a posterior linear regression (fMAPLR). Adaptation experiments are reported on the IBM infrared headset audio-visual database. On average for a 20-speaker 1 hour independent test set, the multi-stream fMLLR achieves 31% relative gain on the clean audio condition, and 59% relative gain on the noisy audio condition (approximately 7 dB) as compared to the baseline multi-stream system

Keywords:

Speech recognition Computer science Hidden Markov model Artificial intelligence Feature (linguistics) Pattern recognition (psychology) Speaker diarisation Feature vector Audio mining Headset Speaker recognition Adaptation (eye) Feature extraction Acoustic model Speech processing

Metrics

Cited By

0.97

FWCI (Field Weighted Citation Impact)

Refs

0.76

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Rapid Feature Space Speaker Adaptation for Multi-Stream HMM-Based Audio-Visual Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

Combined discriminative training for multi-stream HMM-based audio-visual speech recognition

Efficient likelihood computation in multi-stream HMM based audio-visual speech recognition

Improved decision trees for multi-stream HMM-based audio-visual continuous speech recognition

Speaker adaptation for audio-visual speech recognition