Two-Level Bimodal Association for Audio-Visual Speech Recognition

Jong‐Seok Lee; Touradj Ebrahimi

doi:10.1007/978-3-642-04697-1_13

ScienceGate Book Chapters

BOOK-CHAPTER

Two-Level Bimodal Association for Audio-Visual Speech Recognition

Jong‐Seok Lee Touradj Ebrahimi

Year: 2009 Lecture notes in computer science Pages: 133-144 Publisher: Springer Science+Business Media

DOI: 10.1007/978-3-642-04697-1_13

Get Full-Text PDF Get Analytical Report

Abstract

This paper proposes a new method for bimodal information fusion in audio-visual speech recognition, where cross-modal association is considered in two levels. First, the acoustic and the visual data streams are combined at the feature level by using the canonical correlation analysis, which deals with the problems of audio-visual synchronization and utilizing the cross-modal correlation. Second, information streams are integrated at the decision level for adaptive fusion of the streams according to the noise condition of the given speech datum. Experimental results demonstrate that the proposed method is effective for producing noise-robust recognition performance without a priori knowledge about the noise conditions of the speech data.

Keywords:

Computer science Canonical correlation Speech recognition Audio visual A priori and a posteriori Modal Feature (linguistics) Noise (video) Correlation Artificial intelligence Association (psychology) Pattern recognition (psychology) Multimedia Image (mathematics)

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.16

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Blind Source Separation Techniques

Physical Sciences → Computer Science → Signal Processing

Two-Level Bimodal Association for Audio-Visual Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Bimodal Speech Recognition Fusing Audio-Visual Modalities

Bimodal fusion in audio-visual speech recognition

Audio-visual modeling for bimodal speech recognition

EMO-AVSR: Two-Level Approach for Audio-Visual Emotional Speech Recognition

Optimizing Audio-Visual Speech Enhancement Using Multi-Level Distortion Measures for Audio-Visual Speech Recognition