Android谷歌语音转文本SDK,语音录制由SDK控制。我需要将其设置为手动按钮,用于启动和停止语音录制,以便将语音转换为文本。例如:当单击按钮开始语音识别时,它会继续录制音频,直到单击停止按钮。但在android SDK中,它会自动停止录制并将录制的音频传递给处理。
除了Java、C#、Go、Python和Node之外,目前还没有关于如何在Android中从流式输入中转录音频的官方文档。JS。不过,该API有一个Android应用程序示例。您可以使用它作为起点,将Java代码转换为Android本机代码。
注意:尽管Android使用Java但它是一个不同的版本,旨在适应Android架构。
使用我上面提到的方法需要额外的努力、研究技能以及您的Java和Android基本编程技能。#thisthehardway
更简单的方法是应用外部库,如Droid Speech(如@kAliert所述)。
来自Droid Speech的留档:
Droid Speech旨在缩小这一差距,提供无与伦比的连续语音识别优化,而不存在上述任何问题。它的开发考虑到了所有需要堵塞的漏洞,以便在android设备中无缝运行语音识别。
这将是相对容易的,但它是由第三方,因为你没有完全控制它。
干杯
据我所知,这就是它的工作方式。没有连续语音识别。要实现您所请求的内容,您需要使用像这样的第三方库。
我创建了一个带有Start和Stop的Android示例应用程序的更新版本,并将其发布在这里:
https://github.com/Avilaaiops/SpeechRecognitionClient
它将Gradle更新为4.0.1,静态编程语言更新为1.3.72,语音SDK更新为1.24.0
这应该可以帮助人们寻找alpha SDK中不再存在的最新示例。
我正在使用谷歌云语音到文本AP,并试图转录长音频文件。但是,无法检测到桶中的音频文件。我得到一个错误,说明:IOError:[Errno 2]没有这样的文件或目录: transcribe_gcs(gcs_uri):
我正在使用spyder IDE进行我的语音到文本转换项目,该项目使用谷歌语音到文本api。我在代码中集成了谷歌语音和文本,出现了类似“配额耗尽”的错误。在谷歌控制台的仪表板上,我可以看到可用的配额。 > 错误 文件"C:\Program Data\Anaconda3\lib\site-包\speech_recognition__init__. py",第932行,在recognize_google
我能够使用链接中包含的教程转录音频(https://cloud.google.com/speech-to-text/docs/async-recognize),但它仅适用于WAV格式的音频。我想让它与MP3或M4A格式的音频一起工作。 我已经测试了链接中包含的所有可能性(https://github.com/GoogleCloudPlatform/java-docs-samples/blob/ma
我正在尝试从扬声器转录音频 我正在将声音从扬声器传送到节点。js文件(https://askubuntu.com/a/850174) 这是我的抄本。js公司 但谷歌云语音到文本在1分钟内对流媒体识别有一个限制。所以我有一个错误“超过了允许的最大流持续时间65秒” 如何将流拆分为以静默为拆分器的块,或拆分为持续30秒的块?
我想用nodejs和googlespeech-to-text api制作一个实时转录应用程序。 我正在使用RecordRTC和socket。io将音频块获取到后端服务器。目前,我正在录制1秒长的块,并且转录工作正常,但它没有将其视为流,而是在处理每个块后发送响应。这意味着我要收回半句话,谷歌无法利用上下文帮助自己识别演讲。 我的问题是,如何让谷歌将我的块视为一个连续的流。或者是否有其他解决方案可以
新的谷歌云语音文本转换API据说是市场上最好的。它是否提供了说话人注释(或其他说话人信息)?比如谁在什么时候说什么。我似乎在它的文档或提供的例子中找不到任何提到它的地方。 IBM和亚马逊都这样做。 如果有人能告诉我,我将不胜感激,谢谢!