Improved decision trees for multi-stream HMM-based audio-visual continuous speech recognition

Jing Huang; Karthik Visweswariah

doi:10.1109/asru.2009.5373454

ScienceGate Book Chapters

JOURNAL ARTICLE

Improved decision trees for multi-stream HMM-based audio-visual continuous speech recognition

Jing Huang Karthik Visweswariah

Year: 2009 Pages: 228-231

DOI: 10.1109/asru.2009.5373454

Get Full-Text PDF Get Analytical Report

Abstract

HMM-based audio-visual speech recognition (AVSR) systems have shown success in continuous speech recognition by combining visual and audio information, especially in noisy environments. In this paper we study how to improve decision trees used to create context classes in HMM-based AVSR systems. Traditionally, visual models have been trained with the same context classes as the audio only models. In this paper we investigate the use of separate decision trees to model the context classes for the audio and visual streams independently. Additionally we investigate the use of viseme classes in the decision tree building for the visual stream. On experiments with a 37-speaker 1.5 hours test set (about 12000 words) of continuous digits in noise, we obtain about a 3% absolute (20% relative) gain on AVSR performance by using separate decision trees for the audio and visual streams when using viseme classes in decision tree building for the visual stream.

Keywords:

Hidden Markov model Computer science Speech recognition Decision tree Audio mining Context (archaeology) Audio visual Artificial intelligence Pattern recognition (psychology) Viseme Voice activity detection Acoustic model Speech processing Multimedia

Metrics

Cited By

0.35

FWCI (Field Weighted Citation Impact)

Refs

0.65

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Improved decision trees for multi-stream HMM-based audio-visual continuous speech recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Combined discriminative training for multi-stream HMM-based audio-visual speech recognition

Efficient likelihood computation in multi-stream HMM based audio-visual speech recognition

Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition

Rapid Feature Space Speaker Adaptation for Multi-Stream HMM-Based Audio-Visual Speech Recognition

Learning Dynamic Stream Weights For Coupled-HMM-based Audio-visual Speech Recognition