我尝试使用示例页面(https://cloud.google.com/speech-to-text/)使用谷歌云语音到文本API。上传音频文件后它工作正常(.m4a)
然后我尝试使用 rest API 和相同的音频文件调用这些服务,它不起作用。
我得到 200 个空响应。
我用这个信息调用Rest API
发布 https://speech.googleapis.com/v1p1beta1/speech:recognize?key=SOME_KEY
身体:
{
"audio": {
"content": "base64 audio content"
},
"config": {
"sampleRateHertz": 16000,
"encoding": "LINEAR16",
"languageCode": "en-US"
}
}
但是在 https://cloud.google.com/speech-to-text/ 上,身体有点不同,就像这样
{
"audio": {
"content": "/* Your audio */"
},
"config": {
"enableAutomaticPunctuation": true,
"encoding": "LINEAR16",
"languageCode": "en-US",
"model": "default"
}
}
我不知道为什么它在调用 rest API 时不起作用。
请帮忙
已更新 =
我通过此代码读取音频文件(来自谷歌文档的示例)
const file = fs.readFileSync('FILE_LOCATION')
const audioBytes = file.toString('base64')
阅读文档时,我找不到Google文本到语音支持的“.m4a”(Apple Lossless)文件的参考。事实上,恰恰相反。
我的建议是,至少尝试将您的文件转换为 WAV 格式文件并提供该文件。如果可行,请查看您是否无法获得这种格式的原始音频。
看:
我一直在使用Chromium谷歌语音API,最近我改用谷歌云语音API。自从Google云语音API发布以来,其性能在识别准确率方面似乎有所下降。此外,我还看到越来越多的“空结果”返回音频流。 我同时将音频流传输到多个不同的服务,谷歌云语音API返回空结果,而其他一些服务返回转录文本。让我想知道Chromium语音API和Google Cloud语音API的工作方式是否有任何改变? 我验证了音频的
我正在开发google云语音api,我用我的flac文件尝试了他们的api,但他们只是转录了我的flac格式文件的一部分。我能对我的文件做些什么使它完美地工作吗。我试着在他们的链接上测试他们的api。我在请求正文中传递这个 {“audio”:{“uri”:“gs://kami1994/file-1506682082651.flac”},“config”:{“encoding”:“flac”,“la
我正在使用谷歌云语音到文本AP,并试图转录长音频文件。但是,无法检测到桶中的音频文件。我得到一个错误,说明:IOError:[Errno 2]没有这样的文件或目录: transcribe_gcs(gcs_uri):
我正在尝试从shell命令使用Google的语音识别API,但我遇到了问题。 我的Shell文件包含以下代码: 记录-D plughw: 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型:音频/x-flac;速率=16000”-
我在尝试使用谷歌云语音库时出错。 这可能是关于我的依赖项。在添加Firebase身份验证依赖项之前,库是无缝工作的。所以它可能是关于endpoint-管理-控制-应用引擎-所有依赖项。 Stackdriver日志: 这是类的唯一方法: 项目的依赖关系:
我正在使用spyder IDE进行我的语音到文本转换项目,该项目使用谷歌语音到文本api。我在代码中集成了谷歌语音和文本,出现了类似“配额耗尽”的错误。在谷歌控制台的仪表板上,我可以看到可用的配额。 > 错误 文件"C:\Program Data\Anaconda3\lib\site-包\speech_recognition__init__. py",第932行,在recognize_google
谷歌云平台语音命令[Listend]和[Listend-Infinite]在C#中,这两个选项是否可以立即语音识别,并存储在一个变量中,而不需要录音文件?我将制作一个程序,比较存储的语音数据,并在信息亭上表示它。我参考了https://github.com/googlecloudplatform/dotnet-docs-samples/tree/master/speech/api 我的项目的名字是
Android谷歌语音转文本SDK,语音录制由SDK控制。我需要将其设置为手动按钮,用于启动和停止语音录制,以便将语音转换为文本。例如:当单击按钮开始语音识别时,它会继续录制音频,直到单击停止按钮。但在android SDK中,它会自动停止录制并将录制的音频传递给处理。