当前位置: 首页 > 知识库问答 >
问题:

API谷歌语音到文本-mp3文件

桓智敏
2023-03-14

我能够使用链接中包含的教程转录音频(https://cloud.google.com/speech-to-text/docs/async-recognize),但它仅适用于WAV格式的音频。我想让它与MP3或M4A格式的音频一起工作。

我已经测试了链接中包含的所有可能性(https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.java),并遵循链接中的指导原则(https://cloud.google.com/speech-to-text/docs/encoding)

在Google Cloud主页上,Speech API演示工具允许您发送mp3文件并进行成绩单。

我想要一个社区的帮助,为我的请求转录一个音频超过1分钟的mp3格式。

共有1个答案

商璞
2023-03-14

谢谢你的帮助。但让我用另一种方式来解释。

在链接页面上,介绍如何使用音频文件进行转录。然而,在GitHub中提供的所有可能性中,没有人能够以WAV以外的格式转录音频。我的大多数文件都是MP3和M4A格式。

我总是得到以下答案:

线程“main”java中出现异常。lang.IndexOutOfBoundsException:java上的索引:0。util。集合$清空列表。在com上获取(Collections.java:4454)。日志信息。演讲演讲SpeechApplication。main(SpeechApplication.java:50)

我认为问题在于setEncoding和setSampleRateHertz参数中的识别配置。我找不到正确的JAVA设置来转录WAV以外的文件。

 类似资料:
  • Android谷歌语音转文本SDK,语音录制由SDK控制。我需要将其设置为手动按钮,用于启动和停止语音录制,以便将语音转换为文本。例如:当单击按钮开始语音识别时,它会继续录制音频,直到单击停止按钮。但在android SDK中,它会自动停止录制并将录制的音频传递给处理。

  • 我正在使用谷歌云语音到文本AP,并试图转录长音频文件。但是,无法检测到桶中的音频文件。我得到一个错误,说明:IOError:[Errno 2]没有这样的文件或目录: transcribe_gcs(gcs_uri):

  • 我正在使用spyder IDE进行我的语音到文本转换项目,该项目使用谷歌语音到文本api。我在代码中集成了谷歌语音和文本,出现了类似“配额耗尽”的错误。在谷歌控制台的仪表板上,我可以看到可用的配额。 > 错误 文件"C:\Program Data\Anaconda3\lib\site-包\speech_recognition__init__. py",第932行,在recognize_google

  • 新的谷歌云语音文本转换API据说是市场上最好的。它是否提供了说话人注释(或其他说话人信息)?比如谁在什么时候说什么。我似乎在它的文档或提供的例子中找不到任何提到它的地方。 IBM和亚马逊都这样做。 如果有人能告诉我,我将不胜感激,谢谢!

  • 使用Microsoft语音API转录中/大型音频文件(每个文件约6-10分钟)的最佳方式是什么?比如批量音频文件转录? 我使用了https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码,用于连续转录语音,但它在某个时候停止转录。转录有任何限制吗?我只使用免

  • 我似乎在这上面找不到任何东西。iOS7中是否有任何Siri类或API允许您进行文本到语音转换?我所要做的就是如下所示: 然后让Siri从我的应用程序中说出来。 看来我们应该有能力做到这一点,不是吗?似乎是一件微不足道的事情。