当前位置: 首页 > 知识库问答 >
问题:

GCP语音到文本和语音激活检测协同工作

冉高寒
2023-03-14

我觉得我很快就能得到我想要的,但是错过了一个特别的东西。我想使用谷歌的语音到文本引擎,实时传输音频数据(在本例中是来自wav文件,但可以是stdin),并在应用程序检测到静音时生成转录本。我从这段代码开始,这段代码很好,但正如它所说的那样,它流式传输音频,我只在TranCcript完成发送GCP整个音频文件后才能得到它。

我的计划是:使用VAD,这样我就可以检测到沉默,或者至少没有语音活动。我的VAD设置为在检测到0.5秒或3秒的静默时发送消息。当检测到3s时,我想把自上次沉默以来的所有数据视为“一个短语”。然后把这个发送给GCP,它会发回翻译。

到目前为止,我已经成功地检测到了静默——也就是说,VAD的实现是可行的,我已经得到了STT来生成整个音频文件的转录本,但是我正在努力做的是在检测到静默之后和之后将数据切碎,并让GCP生成该位的转录本。我想,用一句话来说,我正在努力解决我的缓冲。。。。

非常感谢您的帮助。

另一方面,我认为这是因为GCP STT的实现方式而采用的方法,但是这可能不是最好的方法,我认为EOF将关闭STT流,在这种情况下,我需要创建一个新的当VAD再次检测到语音并再次调用它时。我决定对我的代码做一个要点,因为它在这里会相当大。

谢谢

共有1个答案

杜骏祥
2023-03-14

我建议使用内置功能来检测静音。在不再检测到语音后,单_语音请求应自动结束(默认为false)

 类似资料:
  • 使用Microsoft语音API转录中/大型音频文件(每个文件约6-10分钟)的最佳方式是什么?比如批量音频文件转录? 我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码,用于连续转录语音,但它在某个时候停止转录。转录有任何限制吗?我只使用免

  • 带有en-us语音的AVSpeechsynthesizer是“A”的发音,是“大写字母A”,但只想要“A”,怎么能做到呢?

  • 问题内容: 我正在计划编写一个用于Linux的程序,该程序使用文本进行语音和语音识别。什么是最好的工具/库?我是否应该使用Windows才能使用更好的工具?这些工具需要易于从控制台或C程序调用。 问题答案: 对于语音识别,有各种Sphinx。不同的变体各有优缺点,这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java,但其他都是C。

  • 有没有任何开源项目或库(在java或c),我可以用来将文本转换为用户语音。

  • [][1]我正在尝试用Vala语言做一个类似siri的应用程序。然而,我找不到任何语音识别或文本到语音库的vala,这是必不可少的。瓦拉有语音识别和语音文字转换吗?如果是的话,你能说出他们的名字吗? 顺便说一句,我是新的vala编程,所以也请做一些例子... 非常感谢。

  • 我似乎在这上面找不到任何东西。iOS7中是否有任何Siri类或API允许您进行文本到语音转换?我所要做的就是如下所示: 然后让Siri从我的应用程序中说出来。 看来我们应该有能力做到这一点,不是吗?似乎是一件微不足道的事情。