wukong-robot 语音识别&语音合成

林英锐

2023-12-01

本文为我的源代码阅读专栏第一个工程的代码阅读——wukong-robot 一个优秀的开源智能音箱项目。本文解析的源代码文件为robot文件夹中智能语音相关文件——ASR.py和TTS.py

wukong-robot相关语音识别引擎介绍

wukong-robot相关语音识别调用代码放在ASR.py中。ASR.py文件对百度、腾讯、讯飞和阿里的语音识别接口统一封装成语音识别引擎，以方便wukong-robot自有调用。这些引擎都封装成了类，并且继承自抽象类AbstractASR。下面我先对AbstractASR进行分析，然后分别对各语音识别引擎进行简单的解析

AbstractASR类

AbstractASR类提供了SLUG属性用以标识当前对象的具体插件功能，同时提供了以下抽象方法供子类进行个性化实现：

transcribe。实现具体的语音识别功能
get_instance。用于实例化不同的语音识别引擎
get_config。由各子类实现，用于获取不同引擎的配置

BaiduASR

百度的语音识别引擎可以使用百度开放的python包aip，也可以使用百度开放的http接口调用。作者将百度开放的http接口封装在robot/sdk/BaiduSpeech.py中

TencentASR

作者将腾讯开放的语音识别http接口封装在robot/sdk/TencentSpeech.py中，然后由TencentASR来调用

XunfeiASR

作者将讯飞开放的语音识别http接口封装在robot/sdk/XunfeiSpeech.py中，然后由XunfeiASR来调用

AliASR

作者将阿里开放的语音识别http接口封装在robot/sdk/AliSpeech.py中，然后由AliASR来调用

语音识别引擎的加载

ASR.py中额外提供了两个方法：get_engines和get_engine_by_slug。
get_engines可以递归搜索并返回所有继承于AbstractASR的类
get_engine_by_slug通过slug参数寻找类，实例化此类为对象并返回

wukong-robot相关语音合成引擎介绍

wukong-robot相关语音识别调用代码放在TTS.py中。TTS.py文件对百度、腾讯、讯飞和阿里的语音识别接口统一封装成语音识别引擎，以方便wukong-robot自有调用。这些引擎都封装成了类，并且继承自抽象类AbstractTTS。下面我先对AbstractTTS进行分析，然后分别对各语音识别引擎进行简单的解析。（tts的代码布局基本与asr一致，熟悉代码的童鞋可忽略）

AbstractTTS类

AbstractTTS类提供了SLUG属性用以标识当前对象的具体插件功能，同时提供了以下抽象方法供子类进行个性化实现：

get_speech。实现具体的语音合成功能
get_instance。用于实例化不同的语音合成引擎
get_config。由各子类实现，用于获取不同引擎的配置

HanTTS

作者将HanTTS语音合成引擎中的部分代码拷贝到wukong-robot项目中，主要有atc.py——实现数字转汉字功能；process.py——语音合成处理逻辑。主要处理逻辑为：

将文字格式化为全汉字，去掉标点符号
使用pypinyin将文字转换为拼音
根据拼音从语音库 syllables.zip中找到对应语音
根据标点符号设定不同的语音间隔，
通过AudioSegment将语音和语音间隔合成为一段声音

BaiduTTS

百度的语音合成引擎可以使用百度开放的python包aip来实现

TencentTTS

作者将腾讯开放的语音合成http接口封装在robot/sdk/TencentSpeech.py中，然后由TencentTTS来调用

XunfeiTTS

作者将讯飞开放的语音合成http接口封装在robot/sdk/XunfeiSpeech.py中，然后由XunfeiTTS来调用

AliTTS

作者将阿里开放的语音合成http接口封装在robot/sdk/AliSpeech.py中，然后由AliTTS来调用

语音识别引擎的加载

TTS.py中额外提供了两个方法：get_engines和get_engine_by_slug。
get_engines可以递归搜索并返回所有继承于AbstractTTS的类
get_engine_by_slug通过slug参数寻找类，实例化此类为对象并返回

用到的技术点

classmethod修饰符。classmethod 修饰符对应的函数不需要实例化，不需要 self 参数，但第一个参数需要是表示自身类的 cls 参数，可以来调用类的属性，类的方法，实例化对象等
递归搜索并返回所有继承于AbstractASR的类：

def get_engines():
    def get_subclasses(cls):
        subclasses = set()
        for subclass in cls.__subclasses__():
            subclasses.add(subclass)
            subclasses.update(get_subclasses(subclass))
        return subclasses
    return [engine for engine in list(get_subclasses(AbstractASR)) if hasattr(engine, 'SLUG') and engine.SLUG]

pypinyin。将汉字转换为拼音包
AudioSegment。pydub的一个包，用于声音分割

参考

考虑到项目源代码可能会被作者更新，致使代码与我的总结文档不一致，下面列表中会提供原始代码链接和冻结代码链接。冻结代码链到我自己fork的工程中，大家如果需要找原始源码，可以点击原始代码链接

wukong-robot 语音识别&语音合成

wukong-robot相关语音识别引擎介绍

AbstractASR类

BaiduASR

TencentASR

XunfeiASR

AliASR

语音识别引擎的加载

wukong-robot相关语音合成引擎介绍

AbstractTTS类

HanTTS

BaiduTTS

TencentTTS

XunfeiTTS

AliTTS

语音识别引擎的加载

用到的技术点

参考

相关阅读

相关文章

相关问答

相关文档