Diffusion-based Unsupervised Audio-visual Speech Enhancement

Jean-Eudes Ayilo; Mostafa Sadeghi; Romain Serizel; Xavier Alameda-Pineda

doi:10.1109/icassp49660.2025.10887628

ScienceGate Book Chapters

JOURNAL ARTICLE

Diffusion-based Unsupervised Audio-visual Speech Enhancement

Jean-Eudes Ayilo Mostafa Sadeghi Romain Serizel Xavier Alameda-Pineda

Year: 2025 Pages: 1-5

DOI: 10.1109/icassp49660.2025.10887628

Get Full-Text PDF Get Analytical Report

Abstract

This paper proposes a new unsupervised audio-visual speech enhancement (AVSE) approach that combines a diffusion-based audio-visual speech generative model with a non-negative matrix factorization (NMF) noise model. First, the diffusion model is pre-trained on clean speech conditioned on corresponding video data to simulate the speech generative distribution. This pre-trained model is then paired with the NMF-based noise model to estimate clean speech iteratively. Specifically, a diffusion-based posterior sampling approach is implemented within the reverse diffusion process, where after each iteration, a speech estimate is obtained and used to update the noise parameters. Experimental results confirm that the proposed AVSE approach not only outperforms its audio-only counterpart but also generalizes better than a recent supervised-generative AVSE method. Additionally, the new inference algorithm offers a better balance between inference speed and performance compared to the previous diffusion-based method. Code and demo available at: https://jeaneudesayilo.github.io/fast_UdiffSE

Keywords:

Computer science Non-negative matrix factorization Speech recognition Inference Generative model Speech enhancement Noise (video) Artificial intelligence Speech coding Sampling (signal processing) Diffusion Hidden Markov model Matrix decomposition Pattern recognition (psychology) Generative grammar Image (mathematics) Computer vision Noise reduction

Metrics

Cited By

5.33

FWCI (Field Weighted Citation Impact)

Refs

0.79

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Advanced Adaptive Filtering Techniques

Physical Sciences → Engineering → Computational Mechanics

Hearing Loss and Rehabilitation

Life Sciences → Neuroscience → Cognitive Neuroscience

Diffusion-based Unsupervised Audio-visual Speech Enhancement

Abstract

Metrics

Citation History

Topics

Related Documents

Inventory-based audio-visual speech enhancement

Twin-HMM-based audio-visual speech enhancement

Unsupervised Speech Enhancement with Diffusion-Based Generative Models

Lite Audio-Visual Speech Enhancement

Audio-Visual Speech Enhancement Based on Deep Learning