我正在寻找一种匹配已知数据集的方法,比如说一个MP3或wav文件的列表,每个文件都是一个人说话的样本。在这一点上,我知道ABC文件是关于X个人的。
然后,我想再抽取一个样本,根据当时已知的数据集,进行一些语音匹配,以显示这个语音最有可能是谁。
此外,我不一定在乎这个人说了什么,只要我能找到匹配的,即我不需要任何抄写或其他方式。
我知道CMU狮身人面像不做语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM扬声器拨号(http://cmusphinx.sourceforge.net/wiki/speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为此类工作的基础。
如果我使用CMU,如何进行语音匹配?
此外,如果CMU Sphinx不是最好的框架,是否有开源的替代框架?
对于博士论文来说,这是一个足够复杂的主题。目前还没有良好可靠的系统。
你要做的是一项非常复杂的任务。你应该如何处理它取决于你的情况。
如果你认识的人很少,你可以尝试一些简单的事情,比如获取这些人的线人并将他们与样本进行比较。
否则,你必须联系一些从事这方面工作的学者,或者自己制定一个解决方案。不管怎样,正如我所说,这都是一个困难的问题。
新的谷歌云语音文本转换API据说是市场上最好的。它是否提供了说话人注释(或其他说话人信息)?比如谁在什么时候说什么。我似乎在它的文档或提供的例子中找不到任何提到它的地方。 IBM和亚马逊都这样做。 如果有人能告诉我,我将不胜感激,谢谢!
请帮助建议我的问题在下面。 我尝试使用这里的示例代码创建注册 {“错误”:{“代码”:“未指定”,“消息”:“由于订阅密钥无效,访问被拒绝。请确保订阅了试图调用的API并提供正确的密钥。”}} 错误消息很奇怪,因为我使用了与成功创建配置文件相同的订阅密钥。
我使用RecognizerIntent并实现RecognitionListener,并实现其所有回调方法来执行语音命令。我试着调整参数EXTRA\u SPEECH\u INPUT\u MINIMUM\u LENGTH\u MILLIS、EXTRA\u SPEECH\u INPUT\u mably\u COMPLETE\u SILENCE\u LENGTH\u MILLIS和EXTRA\u SPEE
我知道“x-webkit-speech”能够进行某种语音识别,实际上识别效果很好。 我发现“x-webkit-语音”有利于开发Q 然而,我正在寻找的是一种在浏览器中执行连续语音识别的方法。例如,如果我在网上听到一个讲座,我想实时转录教授正在谈论的内容。 是否可以使用“x-webkit-speech”?我的感觉是,“x-webkit-speech”在检测到一段很短的静默期时会自动停止,这很烦人。我知
由于连接到不同的API,我目前正在开发一个工具,允许我阅读所有的通知。 它工作得很好,但现在我想用一些声音命令来做一些动作。 就像当软件说“一封来自Bob的邮件”时,我想说“阅读”或“存档”。 我的软件是通过一个节点服务器运行的,目前我没有任何浏览器实现,但它可以是一个计划。 在NodeJS中,启用语音到文本的最佳方式是什么? 我在它上面看到了很多线程,但主要是使用浏览器,如果可能的话,我希望在一
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产