A stream-weight optimization method for audio-visual speech recognition using multi-stream HMMs

Shinichi Tamura; Koji Iwano; Sadaoki Furui

doi:10.1109/icassp.2004.1326121

ScienceGate Book Chapters

JOURNAL ARTICLE

A stream-weight optimization method for audio-visual speech recognition using multi-stream HMMs

Shinichi Tamura Koji Iwano Sadaoki Furui

Year: 2004 Vol: 1 Pages: I-857

DOI: 10.1109/icassp.2004.1326121

Get Full-Text PDF Get Analytical Report

Abstract

For multi-stream HMM that are widely used in audio-visual speech recognition, it is important to automatically and properly adjust stream weights. This paper proposes a stream-weight optimization technique based on a likelihood-ratio maximization criterion. In our audiovisual speech recognition system, video signals are captured and converted into visual features using HMM-based techniques. Extracted acoustic and visual features are concatenated into an audio-visual vector. A multi-stream HMM is obtained from audio and visual HMM. Experiments are conducted using Japanese connected digit speech recorded in real-world environments. Applying the MLLR (maximum likelihood linear regression) adaptation and our optimization method, we achieve a 29% absolute accuracy improvement and a 76% relative error rate reduction compared with the audio-only scheme.

Keywords:

Computer science Speech recognition Artificial intelligence Audio visual Hidden Markov model Pattern recognition (psychology) Multimedia

Metrics

Cited By

2.22

FWCI (Field Weighted Citation Impact)

Refs

0.88

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

A stream-weight optimization method for audio-visual speech recognition using multi-stream HMMs

Abstract

Metrics

Citation History

Topics

Related Documents

Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

Audio-visual speech recognition using MCE-based hmms and model-dependent stream weights

Dynamic Stream Weight Modeling for Audio-Visual Speech Recognition

Dynamic modality weighting for multi-stream hmms inaudio-visual speech recognition

Stream weight optimization of speech and lip image sequence for audio-visual speech recognition