Joun Yeop LeeSung Jun CheonByoung Jin ChoiNam Soo KimDoo Hwa Hong
본 논문에서는 mutual information(MI)를 사용하여 스타일 end-to-end 음성 합성에서 스타일에 텍스트 정보를 없애는 기법을 제안한다. MI을 딥 러닝 환경에서 구현하기 위하여 mutual information neural estimator(MINE)을 활용하였으며 이를 통해 텍스트 정보가 분리된 스타일을 추출하여 음성 합성에 사용할 수 있을 것이다. 제안하는 기법은 VCTK 데이터베이스를 활용하여 실험되었으며 실험 결과 기존의 방식은 Tacotron Global Style Token 기법에 비해 높은 성능을 보임을 확인할 수 있었다.
Da-Rong LiuChi-Yu YangSzu-Lin WuHung-yi Lee
Ruibo FuJianhua TaoZhengqi WenJiangyan YiTao WangChunyu Qiang
Jiawei ZhaoWei LuoBoxing ChenAndrew Gilman
Wen‐Chin HuangDejan MarkovićAlexander RichardIsrael D. GebruAnjali Kondur Menon