Modality Attention for End-to-end Audio-visual Speech Recognition

Pan Zhou; Wenwen Yang; Wei Chen; Yanfeng Wang; Jia Jia

doi:10.1109/icassp.2019.8683733

ScienceGate Book Chapters

JOURNAL ARTICLE

Modality Attention for End-to-end Audio-visual Speech Recognition

Pan Zhou Wenwen Yang Wei Chen Yanfeng Wang Jia Jia

Year: 2019 Pages: 6565-6569

DOI: 10.1109/icassp.2019.8683733

Get Full-Text PDF Get Analytical Report

Abstract

Audio-visual speech recognition (AVSR) system is thought to be one of the most promising solutions for robust speech recognition, especially in noisy environment. In this paper, we propose a novel multimodal attention based method for audio-visual speech recognition which could automatically learn the fused representation from both modalities based on their importance. Our method is realized using state-of-the-art sequence-to-sequence (Seq2seq) architectures. Experimental results show that relative improvements from 2% up to 36% over the auditory modality alone are obtained depending on the different signal-to-noise-ratio (SNR). Compared to the traditional feature concatenation methods, our proposed approach can achieve better recognition performance under both clean and noisy conditions. We believe modality attention based end-to-end method can be easily generalized to other multimodal tasks with correlated information.

Keywords:

Speech recognition Concatenation (mathematics) Computer science Modality (human–computer interaction) End-to-end principle Modalities Artificial intelligence Feature (linguistics) Representation (politics) Noise (video) Pattern recognition (psychology) Image (mathematics) Mathematics

Metrics

Cited By

7.55

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Modality Attention for End-to-end Audio-visual Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

End-to-End Audio-Visual Speech Recognition for Overlapping Speech

End-To-End Audio-Visual Speech Recognition with Conformers

An Improved End-to-End Audio-Visual Speech Recognition Model

End-to-End Multi-Person Audio/Visual Automatic Speech Recognition

Visual analysis of attention-based end-to-end speech recognition