我正在处理一项语音识别任务。到目前为止,我一直在使用Google云语音识别API(Python)并取得了良好的效果。API将返回一个置信值以及每个转录文本块。正如文档中所述,置信度是一个介于0和1之间的数字,但我没有找到任何更深入的解释来解释谷歌的API是如何得出这个数字的,所以我假设它某种程度上来自于进行识别的神经网络。
我想采取的下一步是制作我自己的(离线)自动语音识别程序,我发现pyKaldi应该可以胜任这项任务。我还没有开始编程,但我想事先知道(出于研究目的)-Kaldi是否可以像Google Speech to Text API一样返回一些类似的自信值?这种“信心”到底是什么?它是如何计算的?
是的,pyKaldi支持用最小bayes风险(MBR)计算的置信值(单词置信得分)。您将在文档中找到所有必要的信息。以下是指向模块说明的链接:
https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages
顾名思义,它是一个置信度值,但它并没有表示从一系列音频块导出(或在概率设置中给定)的单词的结果文本输出是正确的“可能性”有多大。在我看来,表现力或意义有点模糊,取决于模型和训练数据的质量(噪音、混响等)。它在比较替代方案时很有意义,告诉你值较高的更有可能是正确的。这反过来又提出了一个问题,即哪个距离可以称为显着差异。一个置信度值不能告诉你任何事情,你也不能仅仅根据它们的置信度值来比较两个不同的识别器模型。微软称之为“相反,置信度分数提供了一种机制,用于比较给定输入的多个识别替代项的相对准确性。这有助于返回最准确的识别结果。”
我试图调用google speech to text api,但它总是返回空结果。我从这个答案中得到了实现提示:在dart、FLATTER中使用gcloud语音api进行实时语音识别 我使用的是颤振声(https://pub.dev/packages/flutter_sound)打包以录制音频,然后将base64编码的音频发送到语音API 录音代码 音频文件android。aac带。从上述代码成功
问题内容: 我正在计划编写一个用于Linux的程序,该程序使用文本进行语音和语音识别。什么是最好的工具/库?我是否应该使用Windows才能使用更好的工具?这些工具需要易于从控制台或C程序调用。 问题答案: 对于语音识别,有各种Sphinx。不同的变体各有优缺点,这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java,但其他都是C。
我目前正在从事一个Android AppEngine项目,使用语音作为主要输入方法。在android上,您可以使用语音包将语音命令转换为纯文本。语音识别不是在设备本身上完成的,而是发送到一个谷歌服务器,该服务器返回文本。 供您参考:http://developer.android.com/resources/articles/speech-input.html 我的目标是使用相同的google服务
我正在尝试从扬声器转录音频 我正在将声音从扬声器传送到节点。js文件(https://askubuntu.com/a/850174) 这是我的抄本。js公司 但谷歌云语音到文本在1分钟内对流媒体识别有一个限制。所以我有一个错误“超过了允许的最大流持续时间65秒” 如何将流拆分为以静默为拆分器的块,或拆分为持续30秒的块?
我正在尝试从shell命令使用Google的语音识别API,但我遇到了问题。 我的Shell文件包含以下代码: 记录-D plughw: 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型:音频/x-flac;速率=16000”-
我想构建一个android应用程序,它可以识别我的声音,将其转换为文本,并显示我刚才在祝酒词中所说的内容。我可以通过使用一个按钮来完成这项工作,该按钮将为我启动语音识别器。但现在我想让它只在我的声音的基础上工作。 应用程序应触发语音识别器,仅当我开始说话时才开始听我说话,当它感觉到沉默时应停止听我说话。就像会说话的tom应用程序的功能一样。它记录了声音,但我想用语音识别器识别它。像这样的事情: 主