JOURNAL ARTICLE

SPEECH DENOSING BY GENERATIVE DIFFUSION MODELS

O. V. GirfanovА. Г. Шишкин

Year: 2023 Journal:   Научно-техническая информация Серия 2 Информационные процессы и системы Pages: 1-10   Publisher: VINITI

Abstract

Предлагается альтернативный подход к очищению речевых сигналов от шума - использование генеративных диффузионных моделей, которые моделируют распределение обучающих данных. В последние годы с помощью таких моделей были получены многообещающие результаты в области создания сигналов различного рода, во многом превосходящие генеративные модели предыдущего поколения, такие как вариационные автокодировщики. Однако диффузионные модели пока не нашли широкого применения в области очищения речевых данных от шума. Представлена новая разработанная авторами диффузионная модель, которую можно использовать для шумоподавления реальных речевых сигналов с помощью глубокой нейронной сети. Собственный набор данных составил более 150 часов чистой речи на русском языке. Результаты работы модели, оцененные с помощью метрик SI-SDR и PESQ, сравнимы или превосходят результаты, показываемые лучшими дискриминативными моделями. An alternative approach to speech denoising by using generative diffusion models that model the distribution of training data is proposed. In recent years, these models have allowed to obtain promising results in the field of generating signals of various kinds, in many ways superior to previous generative models such as variational autoencoders. However, diffusion models have not yet found wide application in the field of speech denoising. A new diffusion model developed by the authors is presented, which can be used to denoise real speech signals using a deep neural network. Our own data set of more than 150 hours of pure speech in Russian has been created. The obtained results, estimated using the SI-SDR and PESQ metrics, are comparable or superior to the results of the best discriminative models.

Keywords:
Generative grammar Generative model Speech recognition Diffusion Linguistics Psychology Computer science Artificial intelligence Philosophy Physics

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
0.23
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Speech Recognition and Synthesis
Physical Sciences →  Computer Science →  Artificial Intelligence
Speech and Audio Processing
Physical Sciences →  Computer Science →  Signal Processing
© 2026 ScienceGate Book Chapters — All rights reserved.