当前位置: 首页 > 知识库问答 >
问题:

谷歌云语音转文本 REST API 返回空响应

富钧
2023-03-14

我尝试使用示例页面(https://cloud.google.com/speech-to-text/)使用谷歌云语音到文本API。上传音频文件后它工作正常(.m4a)

然后我尝试使用 rest API 和相同的音频文件调用这些服务,它不起作用。

我得到 200 个空响应。

我用这个信息调用Rest API

发布 https://speech.googleapis.com/v1p1beta1/speech:recognize?key=SOME_KEY

身体:

{
  "audio": {
    "content": "base64 audio content"
  },
  "config": {
    "sampleRateHertz": 16000,
    "encoding": "LINEAR16",
    "languageCode": "en-US"
  }
}

但是在 https://cloud.google.com/speech-to-text/ 上,身体有点不同,就像这样

{
  "audio": {
    "content": "/* Your audio */"
  },
  "config": {
    "enableAutomaticPunctuation": true,
    "encoding": "LINEAR16",
    "languageCode": "en-US",
    "model": "default"
  }
}

我不知道为什么它在调用 rest API 时不起作用。

请帮忙

已更新 =

我通过此代码读取音频文件(来自谷歌文档的示例)

const file = fs.readFileSync('FILE_LOCATION')
const audioBytes = file.toString('base64')

共有1个答案

翟丰茂
2023-03-14

阅读文档时,我找不到Google文本到语音支持的“.m4a”(Apple Lossless)文件的参考。事实上,恰恰相反。

我的建议是,至少尝试将您的文件转换为 WAV 格式文件并提供该文件。如果可行,请查看您是否无法获得这种格式的原始音频。

看:

  • 使用谷歌语音 API 将语音从音频文件转换为文本
  • 音频编码
 类似资料:
  • 我一直在使用Chromium谷歌语音API,最近我改用谷歌云语音API。自从Google云语音API发布以来,其性能在识别准确率方面似乎有所下降。此外,我还看到越来越多的“空结果”返回音频流。 我同时将音频流传输到多个不同的服务,谷歌云语音API返回空结果,而其他一些服务返回转录文本。让我想知道Chromium语音API和Google Cloud语音API的工作方式是否有任何改变? 我验证了音频的

  • 我正在开发google云语音api,我用我的flac文件尝试了他们的api,但他们只是转录了我的flac格式文件的一部分。我能对我的文件做些什么使它完美地工作吗。我试着在他们的链接上测试他们的api。我在请求正文中传递这个 {“audio”:{“uri”:“gs://kami1994/file-1506682082651.flac”},“config”:{“encoding”:“flac”,“la

  • 我正在使用谷歌云语音到文本AP,并试图转录长音频文件。但是,无法检测到桶中的音频文件。我得到一个错误,说明:IOError:[Errno 2]没有这样的文件或目录: transcribe_gcs(gcs_uri):

  • 我正在尝试从shell命令使用Google的语音识别API,但我遇到了问题。 我的Shell文件包含以下代码: 记录-D plughw: 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型:音频/x-flac;速率=16000”-

  • 我在尝试使用谷歌云语音库时出错。 这可能是关于我的依赖项。在添加Firebase身份验证依赖项之前,库是无缝工作的。所以它可能是关于endpoint-管理-控制-应用引擎-所有依赖项。 Stackdriver日志: 这是类的唯一方法: 项目的依赖关系:

  • 我正在使用spyder IDE进行我的语音到文本转换项目,该项目使用谷歌语音到文本api。我在代码中集成了谷歌语音和文本,出现了类似“配额耗尽”的错误。在谷歌控制台的仪表板上,我可以看到可用的配额。 > 错误 文件"C:\Program Data\Anaconda3\lib\site-包\speech_recognition__init__. py",第932行,在recognize_google

  • 谷歌云平台语音命令[Listend]和[Listend-Infinite]在C#中,这两个选项是否可以立即语音识别,并存储在一个变量中,而不需要录音文件?我将制作一个程序,比较存储的语音数据,并在信息亭上表示它。我参考了https://github.com/googlecloudplatform/dotnet-docs-samples/tree/master/speech/api 我的项目的名字是

  • Android谷歌语音转文本SDK,语音录制由SDK控制。我需要将其设置为手动按钮,用于启动和停止语音录制,以便将语音转换为文本。例如:当单击按钮开始语音识别时,它会继续录制音频,直到单击停止按钮。但在android SDK中,它会自动停止录制并将录制的音频传递给处理。