问题：

Kaldi是否返回任何识别置信度参数，类似于Google语音到文本API？

邵璞

2023-03-14

我正在处理一项语音识别任务。到目前为止，我一直在使用Google云语音识别API（Python）并取得了良好的效果。API将返回一个置信值以及每个转录文本块。正如文档中所述，置信度是一个介于0和1之间的数字，但我没有找到任何更深入的解释来解释谷歌的API是如何得出这个数字的，所以我假设它某种程度上来自于进行识别的神经网络。

我想采取的下一步是制作我自己的（离线）自动语音识别程序，我发现pyKaldi应该可以胜任这项任务。我还没有开始编程，但我想事先知道（出于研究目的）-Kaldi是否可以像Google Speech to Text API一样返回一些类似的自信值？这种“信心”到底是什么？它是如何计算的？

共有1个答案

阎京

2023-03-14

是的，pyKaldi支持用最小bayes风险（MBR）计算的置信值（单词置信得分）。您将在文档中找到所有必要的信息。以下是指向模块说明的链接：

https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages

顾名思义，它是一个置信度值，但它并没有表示从一系列音频块导出（或在概率设置中给定）的单词的结果文本输出是正确的“可能性”有多大。在我看来，表现力或意义有点模糊，取决于模型和训练数据的质量（噪音、混响等）。它在比较替代方案时很有意义，告诉你值较高的更有可能是正确的。这反过来又提出了一个问题，即哪个距离可以称为显着差异。一个置信度值不能告诉你任何事情，你也不能仅仅根据它们的置信度值来比较两个不同的识别器模型。微软称之为“相反，置信度分数提供了一种机制，用于比较给定输入的多个识别替代项的相对准确性。这有助于返回最准确的识别结果。”

类似资料：

颤振：Google语音到文本API始终返回null

我试图调用google speech to text api，但它总是返回空结果。我从这个答案中得到了实现提示：在dart、FLATTER中使用gcloud语音api进行实时语音识别我使用的是颤振声(https://pub.dev/packages/flutter_sound)打包以录制音频，然后将base64编码的音频发送到语音API 录音代码音频文件android。aac带。从上述代码成功
需要文本到语音和用于Linux的语音识别工具

问题内容：我正在计划编写一个用于Linux的程序，该程序使用文本进行语音和语音识别。什么是最好的工具/库？我是否应该使用Windows才能使用更好的工具？这些工具需要易于从控制台或C程序调用。问题答案：对于语音识别，有各种Sphinx。不同的变体各有优缺点，这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java，但其他都是C。
AppEngine上的Google语音/语音识别API？

我目前正在从事一个Android AppEngine项目，使用语音作为主要输入方法。在android上，您可以使用语音包将语音命令转换为纯文本。语音识别不是在设备本身上完成的，而是发送到一个谷歌服务器，该服务器返回文本。供您参考：http://developer.android.com/resources/articles/speech-input.html 我的目标是使用相同的google服务
如何进行实时语音识别|谷歌云语音到文本

我正在尝试从扬声器转录音频我正在将声音从扬声器传送到节点。js文件(https://askubuntu.com/a/850174) 这是我的抄本。js公司但谷歌云语音到文本在1分钟内对流媒体识别有一个限制。所以我有一个错误“超过了允许的最大流持续时间65秒” 如何将流拆分为以静默为拆分器的块，或拆分为持续30秒的块？
谷歌语音识别API返回空结果

我正在尝试从shell命令使用Google的语音识别API，但我遇到了问题。我的Shell文件包含以下代码：记录-D plughw： 1,0-q-f cd-t wav-R 16000|flac-f--Best--samplughw=16000-s-otest.flac wget-q-U“Mozilla/5.0”--文件后测试。flac--标题“内容类型：音频/x-flac；速率=16000”-
基于语音（噪声）强度水平的语音识别？

我想构建一个android应用程序，它可以识别我的声音，将其转换为文本，并显示我刚才在祝酒词中所说的内容。我可以通过使用一个按钮来完成这项工作，该按钮将为我启动语音识别器。但现在我想让它只在我的声音的基础上工作。应用程序应触发语音识别器，仅当我开始说话时才开始听我说话，当它感觉到沉默时应停止听我说话。就像会说话的tom应用程序的功能一样。它记录了声音，但我想用语音识别器识别它。像这样的事情：主

Kaldi是否返回任何识别置信度参数，类似于Google语音到文本API？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档