当前位置: 首页 > 工具软件 > Coqui TTS > 使用案例 >

《ESPnet2-TTS: Extending the Edge of TTS Research》

罗淮晨
2023-12-01

《ESPnet2-TTS: Extending the Edge of TTS Research》

https://github.com/espnet/espnet

背景

End-to-end text-to-speech (E2E-TTS) 缓解了文本预处理的复杂度,并以数据驱动的方式学习输入序列和输出序列之间的对齐关系,实现高质量的语音合成。

本文主要提供一个名叫ESPnet2-TTS的工具包,类似于Kaldi,基于Pytorch。

主要贡献有以下几个

  • ESPnet2-TTS工具包的介绍。一些新的特性,例如统一的任务设计、灵活的实时预处理,以及简单的python接口使用众多预训练模型
  • 介绍提出SOTA模型,包括端到端的文本到波形模型、联合训练声学模型和声码器(可简化训练过程,且提高性能)。此外,增加了一些扩展,例如引入Conformer结构、full-band波形建模、以及基于预训练说话人识别模型的zero-shot自适应训练。

相关工作

主要提到了几种E2E-TTS工具包

  • Tensorflow-TTS
  • coqui-ai TTS
  • OpenSeq2Seq
  • NeMo
  • Fairseq

其中,Tensorflow-TTS和conqui-ai TTS只可用于TTS任务。其余支持多种任务,例如语音识别、机器翻译、语音翻译等。

然后介绍了ESPnet的一些优点。比如支持多语言、多场景、提供了众多预训练模型,以及支持众多语音处理任务(语音识别、语音增强、语音二值化、自监督学习等)

ESPnet2

文本预处理包括文本清洗、grapheme-to-phoneme(G2P)、声学特征提取、数据增强等

基于shell脚本使用,提供了20+种的脚本,涵盖多种语言多种场景

模型

提供了text-to-mel、mel-to-wav、text-to-wav等不同种的模型

text-to-mel就是我们常说的声学模型,输入文本,经模型后得到声学特征;mel-to-wav则是声码器,将声学特征转换到波形点;text-to-wav是一种端到端的TTS模型,旨在直接由文本生成波形。

text-to-mel声学模型提供了自回归和非自回归各两种结构。自回归结构由Tacotron2和Transformer-Speech,非自回归结构有FastSpeech和FastSpeech2。对于自回归结构,使用attention学习输入和输出之间的对齐关系。对于非自回归结构,需要提供每个输入音素的时长信息,文章中是用自回归模型的attention权重计算出来的,当然也可以单独训练一个对齐模型出来得到音素时长。此外,可使用speaker embedding或者x-vector加入话者信息,使用全局风格tokens提供风格信息

mel-to-wav声码器模型支持Griffin-Lim和一系列基于GAN的声码器。基于GAN的声码器有Parallel WaveGAN, MelGAN, StyleMelGAN, HiFiGAN以及以上GAN的多子带版本。由于GAN包括生成器和分类器,该工具支持不同生成器和分类器的自由组合

Jointly text-to-wav模型即联合训练声学模型和声码器,这里的声学模型和声码器也可以任意组合

text-to-wav端到端模型支持VITS模型,该模型基于变分思想和flow模型,有兴趣可自行学习

PS:

非自回归结构合成语音的速度可达实时

可学习的全局或者细粒度嵌入可以控制说话人特征或者说话风格。

 类似资料:

相关阅读

相关文章

相关问答