Mozilla Voice STT

Mozilla 语音文本引擎
授权协议 MPL-2.0
开发语言 C/C++ Python C# SHELL
所属分类 程序开发、 TTS/语音合成和处理
软件类型 开源软件
地区 不详
投 递 者 欧阳高昂
操作系统 跨平台
开源组织 Mozilla
适用人群 未知
 软件概览

Mozilla Voice STT 是开源的语音转文本(Speech-To-Text)引擎,使用基于百度 Deep Speech 研究论文的机器学习技术作为训练模型,并通过 TensorFlow 简化了实现。

该项目是目前最好的语音文本引擎之一,它提供了易于使用的开源语音转文本解决方案,可轻松集成到许多平台、编程语言和应用程序中,支持在从 Raspberry Pi 4 到高功率 GPU 服务器等设备上实时运行。

  • 语音识别技术可能会彻底改变我们与机器的交互方式,但通常技术开发代价昂贵,而且有专利上的使用限制。大多数语音识别技术都被封锁在少数的大公司内。Mozilla认为这样会阻碍创新,因此它发起了“Common Voice”这一开源语音识别项目。\\ 在“Common Voice”项目中,你可以捐献语音到一个大型数据库里,这些语音会被用于构建开源的语音识别引擎,任何人都可以访问这些数据从而轻松又快速地训练基

  • 目录 代码实践一之torch hub 代码实践二之deepspeech 代码实践三之speech_recognition 代码实践一之torch hub  1. 环境准备 python 3.7以及下面的包 pip install torch torchaudio omegaconf 2. 下载并加载已经训练好的speech2text模型 model, decoder, utils = torch.

 相关资料
  • 我是快速和iOS应用程序开发的新手。我正在使用AVSpeechSynthesiser创建一个文本到语音应用程序。我想设置一个字符串说在英语,但我希望它把那个特定的字符串翻译成语音,但在不同的语言,如阿拉伯语。我是否能够使用AVSpeechSynthesizer做到这一点,或者我需要使用翻译API来做到这一点。 谢谢你

  • 使用Microsoft语音API转录中/大型音频文件(每个文件约6-10分钟)的最佳方式是什么?比如批量音频文件转录? 我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码,用于连续转录语音,但它在某个时候停止转录。转录有任何限制吗?我只使用免

  • 带有en-us语音的AVSpeechsynthesizer是“A”的发音,是“大写字母A”,但只想要“A”,怎么能做到呢?

  • 有没有任何开源项目或库(在java或c),我可以用来将文本转换为用户语音。

  • 我似乎在这上面找不到任何东西。iOS7中是否有任何Siri类或API允许您进行文本到语音转换?我所要做的就是如下所示: 然后让Siri从我的应用程序中说出来。 看来我们应该有能力做到这一点,不是吗?似乎是一件微不足道的事情。

  • [][1]我正在尝试用Vala语言做一个类似siri的应用程序。然而,我找不到任何语音识别或文本到语音库的vala,这是必不可少的。瓦拉有语音识别和语音文字转换吗?如果是的话,你能说出他们的名字吗? 顺便说一句,我是新的vala编程,所以也请做一些例子... 非常感谢。

  • 我已经查看了语音识别的Android示例,但我并不真正了解它应该做什么或它是如何工作的。在清单中没有任何类型的主要活动要运行,因此当我在手机上安装该应用程序时,我无法运行它。 我还试图找到一个简单的语音到文本的示例,它将语音作为输入并在屏幕上输出文本。这样我就可以研究它来看看它是如何工作的,但是我在网上找不到任何展示它的示例。

  • 我想在我的应用程序中转换语音到文本...对于这个,我正在使用识别监听器界面一切正常,但如何更新和显示文本,即使说话(像在谷歌现在语音搜索) 我已经设置了识别意图。EXTRA_PARTIAL_RESULTS,为真,并且还使用了识别监听器界面的onPARAL结果(Bundle arg()方法来设置文本通过语音识别完成后立即显示整个文本,但是我希望实时文本在用户说话时显示 我的活动 怎么让这一切发生