Feature extraction using multimodal convolutional neural networks for visual speech recognition

Eric Tatulli; Thomas Hueber

doi:10.1109/icassp.2017.7952701

ScienceGate Book Chapters

JOURNAL ARTICLE

Feature extraction using multimodal convolutional neural networks for visual speech recognition

Eric Tatulli Thomas Hueber

Year: 2017 Pages: 2971-2975

DOI: 10.1109/icassp.2017.7952701

Get Full-Text PDF Get Analytical Report

Abstract

This article addresses the problem of continuous speech recognition from visual information only, without exploiting any audio signal. Our approach combines a video camera and an ultrasound imaging system for monitoring simultaneously the speaker's lips and the movement of the tongue. We investigate the use of convolutional neural networks (CNN) to extract visual features directly from the raw ultrasound and video images. We propose different architectures among which a multimodal CNN processing jointly the two visual modalities. Combined with an HMM-GMM decoder, the CNN-based approach outperforms our previous baseline based on Principal Component Analysis. Importantly, the recognition accuracy is only 4% lower than the one obtained when decoding the audio signal, which makes it a good candidate for a practical visual speech recognition system.

Keywords:

Computer science Convolutional neural network Artificial intelligence Feature extraction Speech recognition Feature (linguistics) Pattern recognition (psychology) Hidden Markov model Decoding methods Computer vision

Metrics

Cited By

4.25

FWCI (Field Weighted Citation Impact)

Refs

0.95

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Indoor and Outdoor Localization Technologies

Physical Sciences → Engineering → Electrical and Electronic Engineering

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Feature extraction using multimodal convolutional neural networks for visual speech recognition

Abstract

Metrics

Citation History

Topics

Related Documents

Deep Convolutional Neural Networks for Feature Extraction in Speech Emotion Recognition

Audio-Visual Speech Recognition using 3D Convolutional Neural Networks

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Speech Recognition Using Convolutional Neural Networks

Speech feature extraction using neural networks