问题：

使用谷歌语音识别时忽略背景音乐

长孙智刚

2023-03-14

我正在尝试制作一款可以通过语音识别停止的闹钟Android应用程序。为此，我正在使用Google语音识别API（这段代码可以连续进行语音识别）。

它工作得很好，直到我同时演奏音乐。在这种情况下，语音识别的效率会大大降低。

这个问题是合乎逻辑的，因为音乐会增加一些噪音，使识别变得更加困难。但是由于播放的音乐是已知的，我想知道是否有可能告诉谷歌尝试忽略这些额外的噪音。我知道信号处理中存在一些滤波器来做到这一点（如卡尔曼滤波器或维纳滤波器）。

所以我的问题是：有没有可能应用谷歌语音识别的过滤器来忽略已知的噪音？或者是否有另一个语音识别库允许这样做？

编辑：这不是重复，因为问题不一样。但有趣的建议。

共有1个答案

岳宣

2023-03-14

谷歌语音识别已经进行了优化，可以检测语音，而不管背景环境噪声的“类型”。

您可以使用谷歌的云语音API，它提供了一些增强功能，而不是使用谷歌的“Now/Assistant”应用程序提供的本机语音识别。

识别器旨在忽略背景声音和噪音而不会额外消除噪音。但是，为了获得最佳效果，请将麦克风尽可能靠近用户，尤其是在存在背景噪音时。

毫无疑问，在他们的语音识别系统中，上述情况通常是正确的。

使用单词和短语提示在词汇表中添加名称和术语，并提高特定单词和短语的准确性。

对于简短的查询或命令，请使用StreamingRecognize并将single\u话语设置为true。这优化了对简短话语的识别，也最大限度地减少了延迟。

https://cloud.google.com/speech/docs/best-practices

类似资料：

谷歌电影语音识别

我用Google API对自然对话的语音识别取得了很好的效果，但是对于Youtube视频或电影中的声音，识别效果很差或根本不存在。在iPhone 4上录制西班牙语到英语的声音是可以识别的，但在电影中使用同一部手机几乎是不可能的，即使是一个角色在几乎没有背景噪音的情况下说话的场景。只有一次成功。我试图清理声音与SoX（声音交换）使用噪声和comand efects，没有任何成功。有什么想法吗？
Python语音识别与谷歌云语音API

我正在玩Google Cloud Speech API。我想知道我是否使用python语音识别库并调用google cloud语音API，这仍然是使用API的有效方式吗？我只想转录文本。我对它们之间的区别感到困惑，如果我只想转录音频，是否有任何建议的方法。使用Python语音识别：不使用Python SpeechRecognition：
如何使用谷歌云语音API进行实时语音识别？

我正在努力寻找使用谷歌云语音API进行实时连续语音识别的例子。我的要求是使用麦克风，检测语音，并在用户说话时进行转录。我知道他们的RESTAPI没有这种支持，所以我研究了grpc示例，包括他们提供的示例。但它们似乎都是用户可以上传音频并检测语音的例子。我在Java，谷歌grpc也支持java。有人遇到一个很好的例子，展示了如何通过麦克风持续进行这种识别吗？
Android离线谷歌语音识别

我正在开发一个android应用程序，它将监听语音命令并相应地触发动作。以下是一些疑问： > 谷歌语音识别离线库是否可用于android应用程序我们能创建自己的词汇词典吗应用程序应在脱机模式下工作（无Internet）。
如何进行实时语音识别|谷歌云语音到文本

我正在尝试从扬声器转录音频我正在将声音从扬声器传送到节点。js文件(https://askubuntu.com/a/850174) 这是我的抄本。js公司但谷歌云语音到文本在1分钟内对流媒体识别有一个限制。所以我有一个错误“超过了允许的最大流持续时间65秒” 如何将流拆分为以静默为拆分器的块，或拆分为持续30秒的块？
谷歌语音识别媒体记录器

如果可能的话，我需要一些意见或建议。我有一个使用语音识别api和媒体记录器的应用程序。该应用程序的要点是当用户说“注意”时，它会记录语音消息，直到用户说“完成”。之后，应用程序将语音消息保存到手机中。我目前有一个带有按钮（记录、保存、停止、完成）的弹出框，用户可以手动按下按钮来记录他们的语音信息。我正在考虑完全改造用户拥有完全语音控制的应用程序。所以基本上，它越免提越好。我从这里开始研究连续语

使用谷歌语音识别时忽略背景音乐

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档