SPEECH DENOSING BY GENERATIVE DIFFUSION MODELS

O. V. Girfanov; А. Г. Шишкин

doi:10.36535/0548-0027-2023-09-1

ScienceGate Book Chapters

JOURNAL ARTICLE

SPEECH DENOSING BY GENERATIVE DIFFUSION MODELS

O. V. Girfanov А. Г. Шишкин

Year: 2023 Journal: Научно-техническая информация Серия 2 Информационные процессы и системы Pages: 1-10 Publisher: VINITI

DOI: 10.36535/0548-0027-2023-09-1

Get Full-Text PDF Get Analytical Report

Abstract

Предлагается альтернативный подход к очищению речевых сигналов от шума - использование генеративных диффузионных моделей, которые моделируют распределение обучающих данных. В последние годы с помощью таких моделей были получены многообещающие результаты в области создания сигналов различного рода, во многом превосходящие генеративные модели предыдущего поколения, такие как вариационные автокодировщики. Однако диффузионные модели пока не нашли широкого применения в области очищения речевых данных от шума. Представлена новая разработанная авторами диффузионная модель, которую можно использовать для шумоподавления реальных речевых сигналов с помощью глубокой нейронной сети. Собственный набор данных составил более 150 часов чистой речи на русском языке. Результаты работы модели, оцененные с помощью метрик SI-SDR и PESQ, сравнимы или превосходят результаты, показываемые лучшими дискриминативными моделями. An alternative approach to speech denoising by using generative diffusion models that model the distribution of training data is proposed. In recent years, these models have allowed to obtain promising results in the field of generating signals of various kinds, in many ways superior to previous generative models such as variational autoencoders. However, diffusion models have not yet found wide application in the field of speech denoising. A new diffusion model developed by the authors is presented, which can be used to denoise real speech signals using a deep neural network. Our own data set of more than 150 hours of pure speech in Russian has been created. The obtained results, estimated using the SI-SDR and PESQ metrics, are comparable or superior to the results of the best discriminative models.

Keywords:

Generative grammar Generative model Speech recognition Diffusion Linguistics Psychology Computer science Artificial intelligence Philosophy Physics

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.23

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

SPEECH DENOSING BY GENERATIVE DIFFUSION MODELS

Abstract

Metrics

Topics

Related Documents

Speech Enhancement with Generative Diffusion Models

Unsupervised Speech Enhancement with Diffusion-Based Generative Models

Speech Signal Improvement Using Causal Generative Diffusion Models

Speech Enhancement and Dereverberation With Diffusion-Based Generative Models

Generative Fractional Diffusion Models