当前位置: 首页 > 知识库问答 >
问题:

为什么谷歌语音API比内置语音识别糟糕得多

赵修诚
2023-03-14

我正在Android上使用谷歌语音API在我的Android应用程序中启用语音到文本。然而,我注意到,与Google Assistant或内置的“嘿Google”服务相比,识别率要差得多。

是使用另一个API还是同一个API,是什么原因导致质量差异如此之大。

例如,当我说“Smitten Ice Cream”(加利福尼亚州旧金山市的一个地方)时,Google Maps马上就能听懂,而我的应用程序在尝试了5次后就听不懂了。是否有可能向我试图转录位置的语音API添加上下文?

共有1个答案

金骞尧
2023-03-14

这个答案是基于多年来为我的应用程序使用内置Google Speech识别器的假设。

我收到过很多很多报告,当用户第一次开始使用我的应用程序时,语音识别远没有使用Google Now/Assistant时那么准确,尽管它似乎是他们设备上的相同“服务”。

假设是,当您将包名称放在意图详细信息中时:

intent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE, getPackageName());

谷歌将为此软件包启动一个新的“语音模型”,除非已经存在。正如留档中所述,如果你省略了这个——谷歌可能会无论如何添加这个。

这实际上是一个明智的方法。如果你的应用程序专注于医学术语,你不希望结果对这些术语有偏见——任何现有模型都很可能有偏见。

我发现,经过短时间的使用,准确率大大提高。

由于一个长期存在的bug,还有一个潜在的问题-如果识别结果仍然很差,您需要卸载提供识别服务的谷歌应用程序,删除所有文件等,然后重新安装。对于那些准确度令人费解地糟糕的人来说,这是一个即时解决方案。

我的应用程序疑难解答部分中出现了一段与上述内容非常类似的内容,试图帮助用户理解。我从未遇到过识别准确率没有提高的情况。

这对你来说不是一个解决方案,但我希望确认你的经验会有所帮助。

 类似资料:
  • 我正在玩Google Cloud Speech API。我想知道我是否使用python语音识别库并调用google cloud语音API,这仍然是使用API的有效方式吗?我只想转录文本。 我对它们之间的区别感到困惑,如果我只想转录音频,是否有任何建议的方法。 使用Python语音识别: 不使用Python SpeechRecognition:

  • 我用Google API对自然对话的语音识别取得了很好的效果,但是对于Youtube视频或电影中的声音,识别效果很差或根本不存在。 在iPhone 4上录制西班牙语到英语的声音是可以识别的,但在电影中使用同一部手机几乎是不可能的,即使是一个角色在几乎没有背景噪音的情况下说话的场景。只有一次成功。 我试图清理声音与SoX(声音交换)使用噪声和comand efects,没有任何成功。 有什么想法吗?

  • 我正在开发一个android应用程序,它将监听语音命令并相应地触发动作。 以下是一些疑问: > 谷歌语音识别离线库是否可用于android应用程序 我们能创建自己的词汇词典吗 应用程序应在脱机模式下工作(无Internet)。

  • 我正在尝试从shell命令使用Google的语音识别API,但我遇到了问题。 我的Shell文件包含以下代码: 记录-D plughw: 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型:音频/x-flac;速率=16000”-

  • 我正在努力寻找使用谷歌云语音API进行实时连续语音识别的例子。我的要求是使用麦克风,检测语音,并在用户说话时进行转录。 我知道他们的RESTAPI没有这种支持,所以我研究了grpc示例,包括他们提供的示例。但它们似乎都是用户可以上传音频并检测语音的例子。 我在Java,谷歌grpc也支持java。有人遇到一个很好的例子,展示了如何通过麦克风持续进行这种识别吗?

  • 如果可能的话,我需要一些意见或建议。我有一个使用语音识别api和媒体记录器的应用程序。该应用程序的要点是当用户说“注意”时,它会记录语音消息,直到用户说“完成”。之后,应用程序将语音消息保存到手机中。 我目前有一个带有按钮(记录、保存、停止、完成)的弹出框,用户可以手动按下按钮来记录他们的语音信息。我正在考虑完全改造用户拥有完全语音控制的应用程序。所以基本上,它越免提越好。 我从这里开始研究连续语