问题：

谷歌云语音api返回空结果

姚乐家

2023-03-14

我一直在使用Chromium谷歌语音API，最近我改用谷歌云语音API。自从Google云语音API发布以来，其性能在识别准确率方面似乎有所下降。此外，我还看到越来越多的“空结果”返回音频流。

我同时将音频流传输到多个不同的服务，谷歌云语音API返回空结果，而其他一些服务返回转录文本。让我想知道Chromium语音API和Google Cloud语音API的工作方式是否有任何改变？

我验证了音频的标题是否正确，并验证了我正在将音频流式传输到Google。

有没有人觉得谷歌有时（更像大多数时候）会返回空结果？

共有3个答案

卓雅达

2023-03-14

我也有同样的问题，谷歌语音API返回了空结果。我使用FFmpgeg将音频文件转换为LINEAR16。为了安装此工具，我使用了自制软件：

brew install ffmpeg

为了将音频文件转换为LINEAR16，我使用了以下命令：

ffmpeg -i input.flac -f s16le -acodec pcm_s16le output.raw

在我把它加载到我的谷歌存储后：https://console.cloud.google.com/storage/browser/

这是我的JSON文件，配置用于发出请求：

{
  'config': {
      'encoding':'LINEAR16',
      'sampleRate': 16000,
      'languageCode': 'en-US'
  },
  'audio': {
      'uri':'gs://your-bucket-name/output.raw'
  }
}

对于超过1分钟的文件，需要使用AsyncRecognite方法：

curl -s -k -H "Content-Type: application/json" \
-H "Authorization: Bearer [YOUR-KEY]" \
https://speech.googleapis.com/v1beta1/speech:asyncrecognize \
-d @sync-request.json

它将返回操作id。您可以通过获取操作结果来检查它是否准备就绪：

curl -s -k -H "Content-Type: application/json" \
-H "Authorization: Bearer " [YOUR-KEY]\
https://speech.googleapis.com/v1beta1/operations/[OPERATION-ID]

应和光

2023-03-14

我也收到了空的回复，但最终通过使用不同的设置进行编码得到了结果。

soxasync.wav-t原始频道=1-位=16-速率=16000-编码=符号整数-endian=小async.raw

龚寂弦

2023-03-14

这种类型的问题更适合公共问题跟踪器，因为它需要更多详细信息才能重现您的确切错误。请确保在此表格中填写所需信息，或者至少填写一个清晰突出问题的代码的最小工作示例。为了准确复制，重要的是提供您执行的示例代码或命令，这些代码或命令与配置文件和您流式传输的音频文件的URI（或多个文件）一起返回错误，并返回空结果。

事实上，目前处于测试阶段的语音API存在已知问题，因此可能会阻止转录正常工作。同时，您可以参考以下文档，以确定是否有任何最佳做法适用于您的案例。

类似资料：

谷歌语音识别API返回空结果

我正在尝试从shell命令使用Google的语音识别API，但我遇到了问题。我的Shell文件包含以下代码：记录-D plughw： 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型：音频/x-flac；速率=16000”-
谷歌云语音未返回全文

我正在开发google云语音api，我用我的flac文件尝试了他们的api，但他们只是转录了我的flac格式文件的一部分。我能对我的文件做些什么使它完美地工作吗。我试着在他们的链接上测试他们的api。我在请求正文中传递这个 {“audio”：{“uri”：“gs://kami1994/file-1506682082651.flac”}，“config”：{“encoding”：“flac”，“la
Python语音识别与谷歌云语音API

我正在玩Google Cloud Speech API。我想知道我是否使用python语音识别库并调用google cloud语音API，这仍然是使用API的有效方式吗？我只想转录文本。我对它们之间的区别感到困惑，如果我只想转录音频，是否有任何建议的方法。使用Python语音识别：不使用Python SpeechRecognition：
谷歌云语音NoSuchFieldError:CONTEXT_SPAN_KEY

我在尝试使用谷歌云语音库时出错。这可能是关于我的依赖项。在添加Firebase身份验证依赖项之前，库是无缝工作的。所以它可能是关于endpoint-管理-控制-应用引擎-所有依赖项。 Stackdriver日志：这是类的唯一方法：项目的依赖关系：
谷歌云语音命令

谷歌云平台语音命令[Listend]和[Listend-Infinite]在C#中，这两个选项是否可以立即语音识别，并存储在一个变量中，而不需要录音文件？我将制作一个程序，比较存储的语音数据，并在信息亭上表示它。我参考了https://github.com/googlecloudplatform/dotnet-docs-samples/tree/master/speech/api 我的项目的名字是
谷歌云语音到文本AP

我正在使用谷歌云语音到文本AP，并试图转录长音频文件。但是，无法检测到桶中的音频文件。我得到一个错误，说明：IOError：[Errno 2]没有这样的文件或目录： transcribe_gcs（gcs_uri）：

谷歌云语音api返回空结果

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档