当前位置: 首页 > 知识库问答 >
问题:

如何加速谷歌云语音

赫连宏伯
2023-03-14

我使用的麦克风通过浏览器录制声音,将其转换为文件并将文件发送到java服务器。然后,我的java服务器将文件发送到云语音api并给我转录。问题是转录超长(2秒对话约为3.7秒)。

所以我想加快转录速度。首先要做的是流式传输数据(如果我在记录开始时开始转录。问题是我并不真正了解api。例如,如果我想从源(浏览器/麦克风)转录我的音频流,我需要使用某种JS api,但我找不到任何可以在浏览器中使用的东西(我们不能使用这样的节点,是吗?)。

否则,我需要将我的数据从我的js流式传输到我的java(不知道如何在不破坏数据的情况下做到这一点......),然后从那里将其推送到流识别文件:https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.java

但是它需要一个文件作为输入,那么我应该如何使用它呢?我真的不能告诉系统我是否完成了记录。。。它将如何理解这是转录的结束?

我想在我的web浏览器中创建一些东西,就像那里的google演示:https://cloud.google.com/speech/

我认为关于使用流式api的方法,有一些基本的东西我不了解。如果有人能解释一下我应该如何处理这件事,那将是欠我的。

非常感谢。

共有1个答案

尉迟禄
2023-03-14

谷歌“语音到文本通常处理音频的速度比实时快,平均在15秒内处理30秒的音频”[1]。您可以使用Google API Explorer来测试每个请求需要多长时间。

为了加快转录速度,您可以尝试向请求中添加识别元数据[3]。如果你知道演讲的上下文,你可以提供短语提示。或者使用增强模型来使用一组特殊的机器学习模型[5]。所有这些建议都将提高准确性,并可能影响转录速度。

使用流式识别时,在config中,您可以将SingleOutrance选项设置为True。这将检测用户是否暂停讲话并停止识别。如果没有,流式处理请求将持续到内容限制,即流式处理请求的音频长度为1分钟[6]。

 类似资料:
  • 我在尝试使用谷歌云语音库时出错。 这可能是关于我的依赖项。在添加Firebase身份验证依赖项之前,库是无缝工作的。所以它可能是关于endpoint-管理-控制-应用引擎-所有依赖项。 Stackdriver日志: 这是类的唯一方法: 项目的依赖关系:

  • 谷歌云平台语音命令[Listend]和[Listend-Infinite]在C#中,这两个选项是否可以立即语音识别,并存储在一个变量中,而不需要录音文件?我将制作一个程序,比较存储的语音数据,并在信息亭上表示它。我参考了https://github.com/googlecloudplatform/dotnet-docs-samples/tree/master/speech/api 我的项目的名字是

  • 介绍如何在谷歌云平台获取在云联壹云平台需要使用的配置参数。 如何获取谷歌云服务帐号密钥信息? 纳管指定项目 打开“GCP Console中的IAM和管理-IAM页面”页面并登录。 单击顶部“选择项目”,选择需要授权的项目。 在左侧导航栏中选择“服务账号”,进入指定项目的服务账号页面。 单击 “创建服务账号” 按钮,进入创建服务账号页面。 配置服务账号名称、服务账号ID、服务账号说明等,单击 “创建

  • 我正在使用谷歌云语音到文本AP,并试图转录长音频文件。但是,无法检测到桶中的音频文件。我得到一个错误,说明:IOError:[Errno 2]没有这样的文件或目录: transcribe_gcs(gcs_uri):

  • 上面写着“Google Cloud Messaging(GCM)是一个免费服务”,但是为了使它能够运行,我需要在Google Cloud平台中创建一个项目,这需要花钱…那怎么免费呢?还是我错过了什么?

  • 我正在开发google云语音api,我用我的flac文件尝试了他们的api,但他们只是转录了我的flac格式文件的一部分。我能对我的文件做些什么使它完美地工作吗。我试着在他们的链接上测试他们的api。我在请求正文中传递这个 {“audio”:{“uri”:“gs://kami1994/file-1506682082651.flac”},“config”:{“encoding”:“flac”,“la