Предлагается альтернативный подход к очищению речевых сигналов от шума - использование генеративных диффузионных моделей, которые моделируют распределение обучающих данных. В последние годы с помощью таких моделей были получены многообещающие результаты в области создания сигналов различного рода, во многом превосходящие генеративные модели предыдущего поколения, такие как вариационные автокодировщики. Однако диффузионные модели пока не нашли широкого применения в области очищения речевых данных от шума. Представлена новая разработанная авторами диффузионная модель, которую можно использовать для шумоподавления реальных речевых сигналов с помощью глубокой нейронной сети. Собственный набор данных составил более 150 часов чистой речи на русском языке. Результаты работы модели, оцененные с помощью метрик SI-SDR и PESQ, сравнимы или превосходят результаты, показываемые лучшими дискриминативными моделями. An alternative approach to speech denoising by using generative diffusion models that model the distribution of training data is proposed. In recent years, these models have allowed to obtain promising results in the field of generating signals of various kinds, in many ways superior to previous generative models such as variational autoencoders. However, diffusion models have not yet found wide application in the field of speech denoising. A new diffusion model developed by the authors is presented, which can be used to denoise real speech signals using a deep neural network. Our own data set of more than 150 hours of pure speech in Russian has been created. The obtained results, estimated using the SI-SDR and PESQ metrics, are comparable or superior to the results of the best discriminative models.
Berné NortierMostafa SadeghiRomain Serizel
Julius RichterSimon WelkerJean-Marie LemercierBunlong LayTal PeerTimo Gerkmann
Julius RichterSimon WelkerJean-Marie LemercierBunlong LayTimo Gerkmann