当前位置: 首页 > 知识库问答 >
问题:

CMU Sphinx转录准确性

令狐灿
2023-03-14

我正在开发一个网络语音识别应用程序。我正在使用recorderJS捕获声音并将其发送到后端,在那里应该使用CMU Sphinx进行处理。

在发现最新版本5Realpha的库时,我遇到了准确性问题,该库使用了默认的声学模型、语言模型和词典,后来又使用JSGF语法减少了识别的单词数量,因此我使用了1.0 beta6版本。

1.0 beta6版本的麦克风识别非常准确。然而,当我转录声音时,它总是很差。如何提高准确性?我尝试在最新版本中使用StreamSpeechRecognizer,但结果也很差。

共有1个答案

管玉堂
2023-03-14

我设法获得了很好的准确性。我检查了edu的实施情况。cmu。斯芬克斯前端。util。麦克风类,我发现采样率为16000,比特率为16,通道数为1。

我进一步查看了recorderJS,发现Google Chrome中的采样率为44100 Hz,因此我查找了库的可配置版本,找到了Matt Diamond recorderJS的Chris Rudmin fork。

我没有使用最新版本,因为声音是以Ogg格式导出的,我需要它是WAV,所以我查看了以前的版本;我使用了0.3版本,其中比特率是可配置的,并且运行良好。

后来我修改了附带的示例,以下参数给出了很好的精度:

监视器增益:0

位深度:16

通道数:1

记录Opus:未选中

采样率:16000

比特率:32000

这是CMU Sphinx的XML配置文件中的流数据源配置。

<component name="streamDataSource"

    type="edu.cmu.sphinx.frontend.util.StreamDataSource">

    <property name="sampleRate" value="16000" />

    <property name="bitsPerSample" value="16" />

    <property name="bigEndianData" value="false" />

    <property name="signedData" value="true" />

</component>
 类似资料:
  • 问题内容: 我的系统需要至少10毫秒的计时器精度。 我选择了timerfd,因为它非常适合我,但是发现即使在长达15毫秒的时间内,它也不是完全准确的,或者是我不理解它是如何工作的。 在一个10毫秒的计时器上,我测量的时间高达21毫秒。 我已经进行了一次快速测试,以显示我的问题。 这里是一个测试: 像这样执行: 即使假设有些可能的延迟,对我来说15毫秒的延迟听起来也太多了。 问题答案: 尝试按以下方

  • 问题内容: 我需要准确地将HSB转换为RGB,但是我不确定如何解决将小数转换为整数而不四舍五入的问题。这是我从colorpicker库中获得的当前函数: 如您所见,此函数的不准确性来自Math.round 问题答案: / accepts parameters * h Object = {h:x, s:y, v:z} * OR * h, s, v / function HSVtoRGB(h, s,

  • 我试图在caffe中训练一个二元分类模型,它告诉输入图像是狗还是背景。我有8223个阳性样本,33472个阴性样本。我的验证集包含1200个样本,每个类600个。事实上,我的优点是摘自MS-COCO数据集的片段。所有的图像都被调整大小,所以比格维度不超过92,较小的维度不小于44。在使用create_imagenet.sh(resize=false)创建LMDB文件之后,我开始使用求解器进行训练,

  • 我注意到消息的EnqueueTimeUtc值不准确 我正在为我的系统使用ServiceBus主题和订阅者 发送方在.NET中使用“Microsoft.Azure.ServiceBus”version=“4.1.1”NuGet包编写,使用SendAsync()方法将消息发送到主题 订阅方是使用Azure.ServiceBus.Control_Client(azure-servicebus versi

  • 关于使用Lenet5网络解释MNIST上某些优化器的性能,我有几个问题,以及验证损失/精度与训练损失/精度图确切地告诉我们什么。因此,所有的事情都是在Keras中使用标准的LeNet5网络完成的,它运行了15个历元,批处理大小为128。 有两个图,列车acc vs val acc和列车损失vs val损失。我生成了4个图,因为我运行了两次,一次是validation_split=0.1,一次是va

  • 3. 登录与准备 3.1. 浏览器及网络要求 在课堂开始前,需先检查浏览器及网络配置是否符合要求,如下: 浏览器要求 谷歌Chrome浏览器,版本V55.0及以上。 网络环境要求 上行带宽达到 2Mbps 或以上,测速工具:http://www.speedtest.net 3.2. 登录课堂 打开管理后台提供的课堂地址,输入昵称和密码登录课堂。 昵称 可自定义名称,名称将会在视频窗口及聊天中显示。