Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

Takaki Makino; Hank Liao; Yannis Assael; Brendan Shillingford; Basilio Garcia; Otavio Braga; Olivier Siohan

doi:10.1109/asru46091.2019.9004036

ScienceGate Book Chapters

JOURNAL ARTICLE

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

Year: 2019 Journal: 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) Pages: 905-912

DOI: 10.1109/asru46091.2019.9004036

Get Full-Text PDF Get Analytical Report

Abstract

This work presents a large-scale audio-visual speech recognition system based on a recurrent neural network transducer (RNN-T) architecture. To support the development of such a system, we built a large audio-visual (A/V) dataset of segmented utterances extracted from YouTube public videos, leading to 31k hours of audio-visual training content. The performance of an audio-only, visual-only, and audio-visual system are compared on two large-vocabulary test sets: a set of utterance segments from public YouTube videos called YTDEV18 and the publicly available LRS3-TED set. To highlight the contribution of the visual modality, we also evaluated the performance of our system on the YTDEV18 set artificially corrupted with background noise and overlapping speech. To the best of our knowledge, our system significantly improves the state-of-the-art on the LRS3-TED set.

Keywords:

Computer science Speech recognition Utterance Set (abstract data type) Vocabulary Test set Audio mining Noise (video) Modality (human–computer interaction) Artificial intelligence Voice activity detection Speech processing Image (mathematics)

Metrics

123

Cited By

8.37

FWCI (Field Weighted Citation Impact)

Refs

0.98

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Hearing Loss and Rehabilitation

Life Sciences → Neuroscience → Cognitive Neuroscience

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Audio-Visual Speech Recognition System Using Recurrent Neural Network

Audio visual speech recognition with multimodal recurrent neural networks

Audio Visual Speech Recognition Using Deep Recurrent Neural Networks

DEEP RECURRENT NEURAL NETWORK BASED AUDIO SPEECH RECOGNITION SYSTEM

Improving Audio-Visual Speech Recognition Using Gabor Recurrent Neural Networks