Signal level fusion for multimodal perceptual user interface

John W. Fisher; Trevor Darrell

doi:10.1145/971478.971482

ScienceGate Book Chapters

JOURNAL ARTICLE

Signal level fusion for multimodal perceptual user interface

John W. Fisher Trevor Darrell

Year: 2001 Pages: 1-7

DOI: 10.1145/971478.971482

Get Full-Text PDF Get Analytical Report

Abstract

Multi-modal fusion is an important, yet challenging task for perceptual user interfaces. Humans routinely perform complex and simple tasks in which ambiguous auditory and visual data are combined in order to support accurate perception. By contrast, automated approaches for processing multi-modal data sources lag far behind. This is primarily due to the fact that few methods adequately model the complexity of the audio/visual relationship. We present an information theoretic approach for fusion of multiple modalities. Furthermore we discuss a statistical model for which our approach to fusion is justified. We present empirical results demonstrating audio-video localization and consistency measurement. We show examples determining where a speaker is within a scene, and whether they are producing the specified audio stream.

Keywords:

Computer science Sensor fusion Perception Modalities Task (project management) Contrast (vision) Artificial intelligence Modal Consistency (knowledge bases) Speech recognition Human–computer interaction

Metrics

Cited By

0.58

FWCI (Field Weighted Citation Impact)

Refs

0.67

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Hearing Loss and Rehabilitation

Life Sciences → Neuroscience → Cognitive Neuroscience

Signal level fusion for multimodal perceptual user interface

Abstract

Metrics

Citation History

Topics

Related Documents

A Multimodal Perceptual User Interface for Collaborative Environments

A multimodal perceptual user interface for video-surveillance environments

User performance improvement via multimodal interface fusion augmentation

Multimodal User Interface

Multimodal signal fusion