DeepSpeech

端到端自动语音识别
授权协议 Apache-2.0
开发语言 C/C++ Python
所属分类 程序开发、 TTS/语音合成和处理
软件类型 开源软件
地区 国产
投 递 者 祝宏放
操作系统 跨平台
开源组织 百度
适用人群 未知
 软件概览

DeepSpeech 是一个采用 PaddlePaddle 平台的端到端自动语音识别(ASR)引擎的开源项目,具体原理参考这篇论文 Baidu's Deep Speech 2 paper。 我们的愿景是为语音识别在工业应用和学术研究上,提供易于使用、高效和可扩展的工具,包括训练,推理,测试模块,以及 demo 部署。同时,我们还将发布一些预训练好的英语和普通话模型。

下载安装命令

## CPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle

## GPU版本安装命令
pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu
  • 环境:Ubuntu18.0.4 python3.6 安装DeepSpeech: 会自动安装最新的版本 pip install deepspeech 或者,也可以指定版本: pip install deepspeech~=0.9.3 ● 首先wget获取deepspeech的model:这里选取最新的0.9.3 wget https://github.com/mozilla/DeepSpeec

  • 可以在 DeepSpeech 的 GitHub 页面上找到模型下载链接。可以选择下载预训练模型或者训练自己的模型。还可以使用 pip 安装 DeepSpeech。 命令: pipinstall deepspeech

  • 使用 Java 调用 DeepSpeech 的代码需要使用 DeepSpeech 的 Java 绑定。使用方法如下: 下载并安装 DeepSpeech 的 Java 绑定。 在 Java 代码中导入相应的类,如:org.mozilla.deepspeech.libdeepspeech.DeepSpeechModel。 创建 DeepSpeechModel 对象,并使用 loadModel() 方法

  • 论文:https://arxiv.org/pdf/1412.5567.pdf 题目:Deep Speech: Scaling up end-to-end speech recognition 摘要 我们提出了使用端到端深度学习开发的最先进的语音识别系统。我们的体系结构比传统的语音系统要简单得多,传统的语音系统依靠费力地设计的处理管道。当在嘈杂的环境中使用时,这些传统系统的性能也往往很差。相反,我们

  • mozilla 源码 In the age of OTT platforms, there are still some who prefer to download movies/videos from YouTube/Facebook/Torrents (shush 狼) over streaming. I am one of them and on one such occasion, I

  • Paddlpaddle+DeepSpeech2自动语音识别部署 背景 ​ 语音识别 环境 DeepSpeech2 Paddlpaddle1.8.5 Python 2.7 Nvidia-docker ubuntu1~18.04 安装与配置 可以不使用nvidia-docker,直接跳到第五步 1.首先安装nvidia-docker curl https://get.docker.com | sh s

  • 代码地址https://github.com/SeanNaren/deepspeech.pytorch 中文语音数据库采用thchs30 (1)首先提取data文件下的trn翻译文本,生成包含空格在内的生字表并保存为json格式lexicon.json,是汉字字典,不是拼音,我在这一步卡了很久,后来发现data_loader只能读取单个字符,所以中文识别的词汇表是翻译文本的汉字生字表 (2)生成t

 相关资料
  • 我正在构建一个应用程序,它使用语音命令来执行某些功能。我这里有一些代码 然而,这种方法需要通过点击按钮来激活。有没有办法通过语音命令启动语音识别器?就像现在的谷歌一样,你可以说“Ok Google”,然后它就会打开语音识别器活动并监听命令? 谢谢。

  • Java中是否有任何方法可以检测Android设备是否安装了脱机语音识别语言,以及它是否不会提示用户下载该语言? 我知道您可以要求语音对文本以选择脱机语音对文本,但您如何知道设备是否安装了该语言? 这个问题不是关于如何使用脱机语音,这是可行的。问题是“如何从Java应用程序代码中检测和下载/安装脱机语音语言”。i、 e.让应用程序检测他们是否安装了离线德语,如果没有,则提示用户下载/安装。

  • 我正在为嵌入式设备的语音相关语音识别解决方案寻找解决方案。我已经研究过Pocketsphinx,但由于我仍然不熟悉它,我想也许更有经验的人可能会知道。是否有可能使用Pocketsphinx来实现这样的语音识别。它应该记录音频,提取其特征,然后将其与所说的任何内容进行匹配,而不是使用声学和语言模型。是否有可能使用Pocketsphinx实现此流程?如果没有,有人能为这样的解决方案指出正确的方向吗?谢

  • 由于连接到不同的API,我目前正在开发一个工具,允许我阅读所有的通知。 它工作得很好,但现在我想用一些声音命令来做一些动作。 就像当软件说“一封来自Bob的邮件”时,我想说“阅读”或“存档”。 我的软件是通过一个节点服务器运行的,目前我没有任何浏览器实现,但它可以是一个计划。 在NodeJS中,启用语音到文本的最佳方式是什么? 我在它上面看到了很多线程,但主要是使用浏览器,如果可能的话,我希望在一

  • 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产

  • 识别简单的语句。

  • 光环板内置的麦克风和Wi-Fi功能相结合,可以实现语音识别相关的应用。通过接入互联网,可以使用各大主流科技公司提供的语音识别服务,像是微软语音识别服务。使用联网功能需要登陆慧编程账号。 注册/登陆慧编程 点击工具栏右侧的登陆/注册按钮,依据提示登陆/注册账号。 启用上传模式 点击启用上传模式。 新建语音识别项目 我们将新建一个语音识别项目,使用语音来点亮光环板的LED灯。 连接网络 1. 添加事件

  • 1.1. ASR(语音识别) HTTP接口文档 1.1.1. 概述 1.1.2. 服务地址 1.1.3. 协议详解 1.1.4. HTTP API 接入参考Demo 1.1.5. 协议概述 1.1. ASR(语音识别) HTTP接口文档 1.1.1. 概述 本文档目的是描述Rokid云ASR(语音识别)Http接口协议,面向想要了解ASR细节,并具有一定开发能力的开发者或用户。 1.1.2. 服务