PaddleSpeech

基于飞桨的语音开源模型库
授权协议 Apache-2.0
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 国产
投 递 者 白博赡
操作系统 跨平台
开源组织 百度
适用人群 未知
 软件概览

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

特性:

本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括

  • 易用性: 安装门槛低,可使用 CLI 快速开始。
  • 对标 SoTA: 提供了高速、轻量级模型,且借鉴了最前沿的技术。
  • 基于规则的中文前端: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。
  • 多种工业界以及学术界主流功能支持:
    • 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
    • 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 模型列表
    • 级联模型应用: 作为传统语音任务的扩展,我们结合了自然语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。

近期更新:

  • 2021.12.14: 我们在 Hugging Face Spaces 上的 ASR 以及 TTS Demos 上线啦!
  • 2021.12.10: PaddleSpeech CLI 上线!覆盖了声音分类、语音识别、语音翻译(英译中)以及语音合成。

安装

我们强烈建议用户在 Linux 环境下,3.7 以上版本的 python 上安装 PaddleSpeech。 目前为止,Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能,Mac OSX、 Windows 下暂不支持语音翻译功能。 想了解具体安装细节,可以参考安装文档

快速开始

安装完成后,开发者可以通过命令行快速开始,改变 --input 可以尝试用自己的音频或文本测试。

声音分类

paddlespeech cls --input input.wav

语音识别

paddlespeech asr --lang zh --input input_16k.wav

语音翻译 (English to Chinese)

paddlespeech st --input input_16k.wav

语音合成

paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

文本后处理

  • 标点恢复
    paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

更多命令行命令请参考 demos

Note: 如果需要训练或者微调,请查看语音识别 语音合成

  • [PaddleSpeech 原神] 音色克隆之胡桃 项目代码已完整放在aistudio,地址如下: 快去体验吧,可以直接运行。 PaddleSpeech 原神音色克隆之胡桃 随着直播和短视频的火热流行,配音成为了一个很有“钱途”的行业 PaddleSpeech的出现,让我们快速又简单的上手音色克隆。 本篇将会带你去完成一个音色克隆的项目,这里以原神中的胡桃为例子 数据集中还有很多种语音任你选择。

  • (以下内容搬运自 PaddleSpeech) PaddleSpeech TTS 内使用的数据格式,数据处理惯例的说明。 DataTable: 表头即 parser 在经历过一些开发实践之后,Parakeet 还是采用了先预处理数据再加载预处理好的数据进行训练的方式。此前我们曾经思考过把预处理写在 Dataset 的 __getitem__ 里面,在访问到某一跳样例的时候进行再预处理,我们曾经这么实

  • (以下内容搬运自 PaddleSpeech) 主要讲述 PaddleSpeech TTS 的和训练相关的组件,以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家,我们也参考了 torch lightning 等专门帮忙解决训练问题的库,以及领域专用的库如 detectron2 等为了方便自己的模型开发而作

 相关资料
  • 本文向大家介绍Android基于讯飞语音SDK实现语音识别,包括了Android基于讯飞语音SDK实现语音识别的使用技巧和注意事项,需要的朋友参考一下 一、准备工作 1、你需要android手机应用开发基础 2、科大讯飞语音识别SDK android版 3、科大讯飞语音识别开发API文档 4、android手机 关于科大讯飞SDK及API文档,请到科大语音官网下载:http://www.xfyun

  • class Reader(Dataset): ... class CTCLoss(paddle.nn.Layer): 来回报错: ValueError: (InvalidArgument) The type of data we are trying to retrieve (int32) does not match the type of data (int64) currently cont

  • golang 离线tts文字转语音的开源 支持中文 可以离线部署,不需要联网

  • 问题内容: 谁能推荐可靠的开源软件来在wav文件中记录英语语音?我研究过的两个主要程序是Sphinx和Julius,但是我从来都无法使用它们,并且每个转录文件的文档充其量都是粗略的。 我正在开发64位Ubuntu 10.04,其存储库包括sphinx2和julius,以及voxforge的英语julius声学模态。我专注于转录文件,而不是直接处理麦克风的声音,因为我已经放弃了期望像这样的项目可以与

  • 1.1.1. 目录 1.1.2. 一、概述 1.1.3. 二、SDK生成产物目录结构 1.1.4. 三、快速集成 1.1.5. 四、API 参考 1.1.6. 五、示例源码 1.1.1. 目录 一、概述 二、SDK生成产物目录结构 三、快速集成 集成前准备 语音识别服务集成 语音合成服务集成 四、API 参考 语音识别服务 语音合成服务 五、示例源码 1.1.2. 一、概述 Rokid 语音识别服

  • 我想构建一个android应用程序,它可以识别我的声音,将其转换为文本,并显示我刚才在祝酒词中所说的内容。我可以通过使用一个按钮来完成这项工作,该按钮将为我启动语音识别器。但现在我想让它只在我的声音的基础上工作。 应用程序应触发语音识别器,仅当我开始说话时才开始听我说话,当它感觉到沉默时应停止听我说话。就像会说话的tom应用程序的功能一样。它记录了声音,但我想用语音识别器识别它。像这样的事情: 主

  • 有什么好用的文字转语音的开源模型?要求如下: 开源免费 可以离线部署,不需要联网 人声多样,不单一 可以做到声情并茂,语气自然

  • 代码封装自科大语音讯飞无UI版本,通过1行代码来实现语音识别 1行代码来实现文字识别,在封装的.h文件中有集成说明。 测试方式:点击“识别语音”,然后对着说话,在Xcode的debug输出窗口可以看到识别的结果。见下面右图。 [Code4App.com]