Two-layered audio-visual speech recognition for robots in noisy environments

Toshiyuki Yoshida; Kazuhiro Nakadai; Hiroshi G. Okuno

doi:10.1109/iros.2010.5651205

ScienceGate Book Chapters

JOURNAL ARTICLE

Two-layered audio-visual speech recognition for robots in noisy environments

Toshiyuki Yoshida Kazuhiro Nakadai Hiroshi G. Okuno

Year: 2010

DOI: 10.1109/iros.2010.5651205

Get Full-Text PDF Get Analytical Report

Abstract

Audio-visual (AV) integration is one of the key ideas to improve perception in noisy real-world environments. This paper describes automatic speech recognition (ASR) to improve human-robot interaction based on AV integration. We developed AV-integrated ASR, which has two AV integration layers, that is, voice activity detection (VAD) and ASR. However, the system has three difficulties: 1) VAD and ASR have been separately studied although these processes are mutually dependent, 2) VAD and ASR assumed that high resolution images are available although this assumption never holds in the real world, and 3) an optimal weight between audio and visual stream was fixed while their reliabilities change according to environmental changes. To solve these problems, we propose a new VAD algorithm taking ASR characteristics into account, and a linear-regression-based optimal weight estimation method. We evaluate the algorithm for auditory-and/or visually-contaminated data. Preliminary results show that the robustness of VAD improved even when the resolution of the images is low, and the AVSR using estimated stream weight shows the effectiveness of AV integration.

Keywords:

Robustness (evolution) Computer science Speech recognition Voice activity detection Audio visual Robot Perception Visualization Artificial intelligence Computer vision Speech processing Multimedia

Metrics

Cited By

1.34

FWCI (Field Weighted Citation Impact)

Refs

0.79

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Advanced Adaptive Filtering Techniques

Physical Sciences → Engineering → Computational Mechanics

Two-layered audio-visual speech recognition for robots in noisy environments

Abstract

Metrics

Citation History

Topics

Related Documents

Audio-visual speech recognition in noisy audio environments

Audio visual speech recognition in noisy visual environments

Audio-Visual Speech Recognition System for Robots Based on Two-Layered Audio-Visual Integration Framework

Robust Audio-Visual Speech Recognition in Noisy Clinical Environments

Two-layered audio-visual integration in voice activity detection and automatic speech recognition for robots