当前位置：首页 > 软件库 > 神经网络/人工智能 > 自然语言处理 >

PaddleSpeech

基于飞桨的语音开源模型库

授权协议 Apache-2.0

开发语言 Python

所属分类神经网络/人工智能、自然语言处理

软件类型开源软件

地区国产

投递者白博赡

操作系统跨平台

开源组织百度

适用人群未知

软件概览

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

特性:

本项目采用了易用、高效、灵活以及可扩展的实现，旨在为工业应用、学术研究提供更好的支持，实现的功能包含训练、推断以及测试模块，以及部署过程，主要包括

易用性: 安装门槛低，可使用 CLI 快速开始。
对标 SoTA: 提供了高速、轻量级模型，且借鉴了最前沿的技术。
基于规则的中文前端: 我们的前端包含文本正则化和字音转换（G2P）。此外，我们使用自定义语言规则来适应中文语境。
多种工业界以及学术界主流功能支持:
- 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
- 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块，并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC，详情请见模型列表。
- 级联模型应用: 作为传统语音任务的扩展，我们结合了自然语言处理、计算机视觉等任务，实现更接近实际需求的产业级应用。

近期更新:

2021.12.14: 我们在 Hugging Face Spaces 上的 ASR 以及 TTS Demos 上线啦!
2021.12.10: PaddleSpeech CLI 上线！覆盖了声音分类、语音识别、语音翻译（英译中）以及语音合成。

安装

我们强烈建议用户在 Linux 环境下，3.7 以上版本的 python 上安装 PaddleSpeech。目前为止，Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能，Mac OSX、 Windows 下暂不支持语音翻译功能。想了解具体安装细节，可以参考安装文档。

快速开始

安装完成后，开发者可以通过命令行快速开始，改变 --input 可以尝试用自己的音频或文本测试。

声音分类

paddlespeech cls --input input.wav

语音识别

paddlespeech asr --lang zh --input input_16k.wav

语音翻译 (English to Chinese)

paddlespeech st --input input_16k.wav

语音合成

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

语音合成的 web demo 已经集成进了 Huggingface Spaces. 请参考: TTS Demo

文本后处理

标点恢复

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

更多命令行命令请参考 demos

Note: 如果需要训练或者微调，请查看语音识别，语音合成。

使用案例

[PaddleSpeech 原神] 音色克隆之胡桃

[PaddleSpeech 原神] 音色克隆之胡桃项目代码已完整放在aistudio,地址如下：快去体验吧，可以直接运行。 PaddleSpeech 原神音色克隆之胡桃随着直播和短视频的火热流行，配音成为了一个很有“钱途”的行业 PaddleSpeech的出现，让我们快速又简单的上手音色克隆。本篇将会带你去完成一个音色克隆的项目，这里以原神中的胡桃为例子数据集中还有很多种语音任你选择。
PaddleSpeech TTS 设计要素 — 数据组件

(以下内容搬运自 PaddleSpeech) PaddleSpeech TTS 内使用的数据格式，数据处理惯例的说明。 DataTable: 表头即 parser 在经历过一些开发实践之后，Parakeet 还是采用了先预处理数据再加载预处理好的数据进行训练的方式。此前我们曾经思考过把预处理写在 Dataset 的 __getitem__ 里面，在访问到某一跳样例的时候进行再预处理，我们曾经这么实
PaddleSpeech TTS 设计要素 — 训练组件

(以下内容搬运自 PaddleSpeech) 主要讲述 PaddleSpeech TTS 的和训练相关的组件，以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家，我们也参考了 torch lightning 等专门帮忙解决训练问题的库，以及领域专用的库如 detectron2 等为了方便自己的模型开发而作

PaddleSpeech

特性:

近期更新:

安装

快速开始

同类工具

相关阅读

相关文章

相关问答

相关文档