问题：

GCP语音到文本和语音激活检测协同工作

冉高寒

2023-03-14

我觉得我很快就能得到我想要的，但是错过了一个特别的东西。我想使用谷歌的语音到文本引擎，实时传输音频数据（在本例中是来自wav文件，但可以是stdin），并在应用程序检测到静音时生成转录本。我从这段代码开始，这段代码很好，但正如它所说的那样，它流式传输音频，我只在TranCcript完成发送GCP整个音频文件后才能得到它。

我的计划是：使用VAD，这样我就可以检测到沉默，或者至少没有语音活动。我的VAD设置为在检测到0.5秒或3秒的静默时发送消息。当检测到3s时，我想把自上次沉默以来的所有数据视为“一个短语”。然后把这个发送给GCP，它会发回翻译。

到目前为止，我已经成功地检测到了静默——也就是说，VAD的实现是可行的，我已经得到了STT来生成整个音频文件的转录本，但是我正在努力做的是在检测到静默之后和之后将数据切碎，并让GCP生成该位的转录本。我想，用一句话来说，我正在努力解决我的缓冲。。。。

非常感谢您的帮助。

另一方面，我认为这是因为GCP STT的实现方式而采用的方法，但是这可能不是最好的方法，我认为EOF将关闭STT流，在这种情况下，我需要创建一个新的当VAD再次检测到语音并再次调用它时。我决定对我的代码做一个要点，因为它在这里会相当大。

谢谢

共有1个答案

杜骏祥

2023-03-14

我建议使用内置功能来检测静音。在不再检测到语音后，单_语音请求应自动结束（默认为false）

类似资料：

语音到文本大型音频文件[Microsoft语音API]

使用Microsoft语音API转录中/大型音频文件（每个文件约6-10分钟）的最佳方式是什么？比如批量音频文件转录？我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码，用于连续转录语音，但它在某个时候停止转录。转录有任何限制吗？我只使用免
AVSpeechSynthesizer文本到语音

带有en-us语音的AVSpeechsynthesizer是“A”的发音，是“大写字母A”，但只想要“A”，怎么能做到呢？
需要文本到语音和用于Linux的语音识别工具

问题内容：我正在计划编写一个用于Linux的程序，该程序使用文本进行语音和语音识别。什么是最好的工具/库？我是否应该使用Windows才能使用更好的工具？这些工具需要易于从控制台或C程序调用。问题答案：对于语音识别，有各种Sphinx。不同的变体各有优缺点，这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java，但其他都是C。
自定义文本到语音中的语音

有没有任何开源项目或库（在java或c），我可以用来将文本转换为用户语音。
Vala的语音识别和文本语音转换

[][1]我正在尝试用Vala语言做一个类似siri的应用程序。然而，我找不到任何语音识别或文本到语音库的vala，这是必不可少的。瓦拉有语音识别和语音文字转换吗？如果是的话，你能说出他们的名字吗？顺便说一句，我是新的vala编程，所以也请做一些例子... 非常感谢。
iOS文本到语音API

我似乎在这上面找不到任何东西。iOS7中是否有任何Siri类或API允许您进行文本到语音转换？我所要做的就是如下所示：然后让Siri从我的应用程序中说出来。看来我们应该有能力做到这一点，不是吗？似乎是一件微不足道的事情。

GCP语音到文本和语音激活检测协同工作

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档