我正在尝试制作一款可以通过语音识别停止的闹钟Android应用程序。为此,我正在使用Google语音识别API(这段代码可以连续进行语音识别)。
它工作得很好,直到我同时演奏音乐。在这种情况下,语音识别的效率会大大降低。
这个问题是合乎逻辑的,因为音乐会增加一些噪音,使识别变得更加困难。但是由于播放的音乐是已知的,我想知道是否有可能告诉谷歌尝试忽略这些额外的噪音。我知道信号处理中存在一些滤波器来做到这一点(如卡尔曼滤波器或维纳滤波器)。
所以我的问题是:有没有可能应用谷歌语音识别的过滤器来忽略已知的噪音?或者是否有另一个语音识别库允许这样做?
编辑:这不是重复,因为问题不一样。但有趣的建议。
谷歌语音识别已经进行了优化,可以检测语音,而不管背景环境噪声的“类型”。
您可以使用谷歌的云语音API,它提供了一些增强功能,而不是使用谷歌的“Now/Assistant”应用程序提供的本机语音识别。
识别器旨在忽略背景声音和噪音而不会额外消除噪音。但是,为了获得最佳效果,请将麦克风尽可能靠近用户,尤其是在存在背景噪音时。
毫无疑问,在他们的语音识别系统中,上述情况通常是正确的。
使用单词和短语提示在词汇表中添加名称和术语,并提高特定单词和短语的准确性。
对于简短的查询或命令,请使用StreamingRecognize并将single\u话语设置为true。这优化了对简短话语的识别,也最大限度地减少了延迟。
https://cloud.google.com/speech/docs/best-practices
我用Google API对自然对话的语音识别取得了很好的效果,但是对于Youtube视频或电影中的声音,识别效果很差或根本不存在。 在iPhone 4上录制西班牙语到英语的声音是可以识别的,但在电影中使用同一部手机几乎是不可能的,即使是一个角色在几乎没有背景噪音的情况下说话的场景。只有一次成功。 我试图清理声音与SoX(声音交换)使用噪声和comand efects,没有任何成功。 有什么想法吗?
我正在玩Google Cloud Speech API。我想知道我是否使用python语音识别库并调用google cloud语音API,这仍然是使用API的有效方式吗?我只想转录文本。 我对它们之间的区别感到困惑,如果我只想转录音频,是否有任何建议的方法。 使用Python语音识别: 不使用Python SpeechRecognition:
我正在努力寻找使用谷歌云语音API进行实时连续语音识别的例子。我的要求是使用麦克风,检测语音,并在用户说话时进行转录。 我知道他们的RESTAPI没有这种支持,所以我研究了grpc示例,包括他们提供的示例。但它们似乎都是用户可以上传音频并检测语音的例子。 我在Java,谷歌grpc也支持java。有人遇到一个很好的例子,展示了如何通过麦克风持续进行这种识别吗?
我正在开发一个android应用程序,它将监听语音命令并相应地触发动作。 以下是一些疑问: > 谷歌语音识别离线库是否可用于android应用程序 我们能创建自己的词汇词典吗 应用程序应在脱机模式下工作(无Internet)。
我正在尝试从扬声器转录音频 我正在将声音从扬声器传送到节点。js文件(https://askubuntu.com/a/850174) 这是我的抄本。js公司 但谷歌云语音到文本在1分钟内对流媒体识别有一个限制。所以我有一个错误“超过了允许的最大流持续时间65秒” 如何将流拆分为以静默为拆分器的块,或拆分为持续30秒的块?
如果可能的话,我需要一些意见或建议。我有一个使用语音识别api和媒体记录器的应用程序。该应用程序的要点是当用户说“注意”时,它会记录语音消息,直到用户说“完成”。之后,应用程序将语音消息保存到手机中。 我目前有一个带有按钮(记录、保存、停止、完成)的弹出框,用户可以手动按下按钮来记录他们的语音信息。我正在考虑完全改造用户拥有完全语音控制的应用程序。所以基本上,它越免提越好。 我从这里开始研究连续语