语音识别新手,所以请原谅我的无知。我想得到一份紧急无线电广播的抄本。很明显,我做错了什么,因为没有一个先进的ASR(智能语音识别)工具能让它有任何意义。
我试过IBM Watson、Google Speech甚至Cobalt。他们中没有人能从音频中收集到最基本的信息。
这是一个由两部分组成的问题。上述示例中的音频是否可以通过ASR工具使用?在通过API发送之前,我是否应该进行一些转换?
上述示例中的音频是否可以通过ASR工具使用?
是的,你可以非常可靠地识别这些东西,但是你必须建立一个定制的ASR系统,因为传统的系统不能与这样的音频质量一起工作。
在发送API之前,是否需要进行一些转换?
不,使用专门针对特定类型的数据训练的专门模型会更有效率。
Cobalt可以为您构建一个定制的解决方案。您可以使用像Kaldi这样的开源工具包自己构建模型。另一家检查这种音频的专门解决方案的公司是Adacel,他们在机场塔楼工作,所以有类似类型的音频。
关于这个主题的研究,你可以查阅定制阿波罗任务转录系统的项目。
你还需要付出更多的努力来获得更好的音频质量。
我在设计一个可以同时录制语音和将语音转换为文本的应用程序时遇到了这个bug。我使用Google API进行语音识别部分,并使用audioRecorder对象进行录音。它没有成功,因此我转而使用onBufferReceived()来检索过程中的字节(当用户说话时)。Google API代码现在是我代码的onResults()部分,它可以在没有UI的情况下进行语音识别。 这是代码
我正在开发一个功能,当按下一个按钮时,它将启动语音识别,同时将记录用户所说的话。代码如下: 我一步一步地制作了这个应用程序,起初这个应用程序没有录音功能,语音识别效果非常好。 在我多次测试并认为语音识别正常后,我开始使用合并录音功能。 然后,我进行了测试,一旦按下按钮\u start,甚至在我试图说话之前,就会立即出现ERROR3音频信息。 我播放录音。语音也被正确记录和保存。 发生什么事了?为什
我已经使用HTK(Hidden Markov Model Tool Kit)来识别用于控制Android应用程序的特定命令,但在这种情况下,我需要将一些语音数据传递给服务器,这可能会耗费更多时间。 为了防止这种延迟,我正在考虑使用pocketsphinx通过Android应用程序在本地识别语音数据,这样我就不需要将音频传递给服务器。 如果这是一个好主意,那么从头开始学习pocketsphinx容易
我用Google API对自然对话的语音识别取得了很好的效果,但是对于Youtube视频或电影中的声音,识别效果很差或根本不存在。 在iPhone 4上录制西班牙语到英语的声音是可以识别的,但在电影中使用同一部手机几乎是不可能的,即使是一个角色在几乎没有背景噪音的情况下说话的场景。只有一次成功。 我试图清理声音与SoX(声音交换)使用噪声和comand efects,没有任何成功。 有什么想法吗?
我正在为嵌入式设备的语音相关语音识别解决方案寻找解决方案。我已经研究过Pocketsphinx,但由于我仍然不熟悉它,我想也许更有经验的人可能会知道。是否有可能使用Pocketsphinx来实现这样的语音识别。它应该记录音频,提取其特征,然后将其与所说的任何内容进行匹配,而不是使用声学和语言模型。是否有可能使用Pocketsphinx实现此流程?如果没有,有人能为这样的解决方案指出正确的方向吗?谢
我正在开发一个语音识别应用程序,用户会在其中说一句话或任何东西,然后将其转换为文本......(语音到文本的转换通过谷歌进行) 我的问题是,,,当这个人说话时,保存或记录他的声音(语音)的文件/缓冲区在哪里?(在谷歌收购并转换之前) 并且是否可以持有此文件或缓冲区?