Noise-Robust Speech Recognition System based on Multimodal Audio-Visual Approach Using Different Deep Learning Classification Techniques

Eslam Elmaghraby; Amr M. Gody; Mohamed Hesham Farouk

doi:10.21608/ejle.2020.22022.1002

ScienceGate Book Chapters

JOURNAL ARTICLE

Noise-Robust Speech Recognition System based on Multimodal Audio-Visual Approach Using Different Deep Learning Classification Techniques

Eslam Elmaghraby Amr M. Gody Mohamed Hesham Farouk

Year: 2020 Journal: The Egyptian Journal of Language Engineering /The Egyptian Journal of Language Engineering Vol: 7 (1)Pages: 27-42

DOI: 10.21608/ejle.2020.22022.1002

Get Full-Text PDF Get Analytical Report

Abstract

This paper extends an earlier work on designing a speech recognition system based on Hidden Markov Model (HMM) classification technique of using visual modality in addition to audio modality[1]. Improved off traditional HMM-based Automatic Speech Recognition (ASR) accuracy is achieved by implementing a technique using either RNN-based or CNN-based approach. This research is intending to deliver two contributions: The first contribution is the methodology of choosing the visual features by comparing different visual features extraction methods like Discrete Cosine Transform (DCT), blocked DCT, and Histograms of Oriented Gradients with Local Binary Patterns (HOG+LBP), and applying different dimension reduction techniques like Principal Component Analysis (PCA), auto-encoder, Linear Discriminant Analysis (LDA), t-distributed Stochastic Neighbor Embedding (t-SNE) to find the most effective features vector size. Then the obtained visual features are early integrated with the audio features obtained by using Mel Frequency Cepstral Coefficients (MFCCs) and feed the combined audio-visual feature vector to the classification process. The second contribution of this research is the methodology of developing the classification process using deep learning by comparing different Deep Neural Network (DNN) architectures like Bidirectional Long-Short Term Memory (BiLSTM) and Convolution Neural Network (CNN) with the traditional HMM. The proposed model is evaluated on two multi-speakers AV-ASR datasets named AVletters and GRID with different SNR. The model performs speaker-independent experiments in AVlettter dataset and speaker-dependent in GRID dataset.

Keywords:

Speech recognition Computer science Audio visual Noise (video) Artificial intelligence Deep learning Pattern recognition (psychology) Multimedia Image (mathematics)

Metrics

Cited By

0.89

FWCI (Field Weighted Citation Impact)

Refs

0.73

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Blind Source Separation Techniques

Physical Sciences → Computer Science → Signal Processing

Noise-Robust Speech Recognition System based on Multimodal Audio-Visual Approach Using Different Deep Learning Classification Techniques

Abstract

Metrics

Citation History

Topics

Related Documents

Noise robust speech recognition system using multimodal audio-visual approach using different deep learning classification techniques

Audio-visual deep learning for noise robust speech recognition

Noise-Robust Multimodal Audio-Visual Speech Recognition System for Speech-Based Interaction Applications

Deep multimodal learning for Audio-Visual Speech Recognition

RETRACTED: Audio–Visual (Multimodal) Speech Recognition System Using Deep Neural Network