当前位置: 首页 > 工具软件 > Voice2Note > 使用案例 >

耳听也不为实了,基于谷歌SV2TTS算法的开源项目在GITHUB登顶

强宾白
2023-12-01

     近日谷歌的论文SV2TTS(https://arxiv.org/pdf/1806.04558.pdf)在不论是在学术界还是在开源社区都引发热议,SV2TTS号称可以使用低分辨率的原音信息,在短时间内完成转换,生成新的声音。而且最近依据这个算法已经登陆到了github的趋势榜首位置(https://github.com/CorentinJ/Real-Time-Voice-Cloning)。

   

    SV2TTS论文摘要

    我们把原语音定义为v1,原语音内容定义为c1,原语音的speaker定义为s1,目标语音定义为v2,目标内容定义为c2。以便下文解释。

    SV2TTS定义了三层模型: 

    模型1:针对s1的声音特征的encoder网络,利用数千个人声样本,只从对于S1语音语调的嵌入工作,生成嵌入向量。至于什么是嵌入之前介绍很多了,具体可参考(https://blog.csdn.net/BEYONDMA/article/details/90114016)这里不加赘述了。

    模型2:基于Tacotron 2的合成网络,我们知道Tacotron 2是基于注意力的模型,依据c2与s1的相关特征,生成梅尔(mel)谱图;

    模型3:基于自回归波的语音生成网

 类似资料: