Multi-Stream Asynchrony Dynamic Bayesian Network Model for Audio-Visual Continuous Speech Recognition

Guoyun Lv; Dongmei Jiang; Rongchun Zhao; Zetao Jiang; Hichem Sahli

doi:10.1109/iwssip.2007.4381130

ScienceGate Book Chapters

JOURNAL ARTICLE

Multi-Stream Asynchrony Dynamic Bayesian Network Model for Audio-Visual Continuous Speech Recognition

Guoyun Lv Dongmei Jiang Rongchun Zhao Zetao Jiang Hichem Sahli

Year: 2007 Pages: 418-421

DOI: 10.1109/iwssip.2007.4381130

Get Full-Text PDF Get Analytical Report

Abstract

How best to describe the asynchrony of the speech and lip motion is a key problem of audio-visual speech recognition model. A multi-stream asynchrony dynamic Bayesian network (MS-ADBN) model is brought forward for audio-visual speech recognition, and in this model, audio stream and visual stream are synchronous in word node, while between the word nodes, each stream has its own independent phone, phone transition and observation vector node, and word transition probability is determined by audio stream and visual stream together. For each stream, each word is composed of its corresponding phones, and each phone is associated with observation feature (audio feature for audio stream and visual feature for visual stream), with some probability modeled by Gaussian mixed model. Compare with general multi-stream HMM, MS-ADBN model describes the asynchrony of audio stream and visual stream to the word level. The experiment results on continuous digit audio visual database show that: compare with multi-stream HMM, in the mismatch noise environment, an average improvement of 10.07% are obtained for MS-ADBN model.

Keywords:

Computer science Speech recognition Asynchrony (computer programming) Hidden Markov model Feature (linguistics) Artificial intelligence Word (group theory) Phone Data stream Pattern recognition (psychology) Asynchronous communication Mathematics

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.07

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Blind Source Separation Techniques

Physical Sciences → Computer Science → Signal Processing

Multi-Stream Asynchrony Dynamic Bayesian Network Model for Audio-Visual Continuous Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Multi-stream Asynchrony Modeling for Audio-Visual Speech Recognition

Multi-Stream Asynchrony Modeling for Audio Visual Speech Recognition

Asynchrony modeling for audio-visual speech recognition

Overcoming asynchrony in Audio-Visual Speech Recognition

Dynamic Bayesian Networks for Audio-Visual Speech Recognition