问题：

使用CMU Sphinx进行数字识别

冉昊

2023-03-14

Hi识别专家，

我有很多的mp3文件（原创音源流采样是11.025千赫）包含数字（0-9）。

不同的说话者（男性/女性）说“一”、“七”、“三”等，中间有停顿（约2-2.5秒）

我要用CMU Sphinx来识别语音（桌面应用程序）。所以我有一些问题：

声学模型：如果不对流进行上采样/下采样，如何找到支持11025 kHz的声学模型。如果我这样做，什么是最好的数字模型？

识别模式：我发现转录有两种模式——键定位和识别。考虑到我只有数字（和一些噪音），哪种模式会更好

谢啦

UPD：

尼古拉，谢谢你的回答。我已经试过你的建议了——它奏效了！

如果你不介意，我想问一些额外的问题：

只有45%的文件被正确识别。其他55%的人有20-90%的错误。因此，我的问题是：是否有可能估计所获得结果的置信度？例如，我可以跳过“不确定”识别的文件？

如果答案2是“否”，你能建议什么来提高准确性？我知道，这个问题很抽象...

提前感谢您！

更新2：

顺便说一下，最好的参数集（我刚刚浏览了各种参数）是：

-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5

共有1个答案

易烨磊

2023-03-14

MP3解码：如何解码我的mp3文件，这意味着我应该向ffmpeg指定什么采样（因为我知道它不推荐给上采样/下采样流）。我应该在解码时过滤噪音和/或频段吗？

 ffmpeg -i file.mp3 -ar 8000 file.wav

声学模型：如果不对流进行上采样/下采样，如何找到支持11025 kHz的声学模型。如果我这样做，什么是最好的数字模型？

en-us-8khz在下载中可用，您需要像教程中一样创建一个数字语法，然后按以下方式使用它

 pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000

识别模式：我发现转录有两种模式——键定位和识别。考虑到我只有数字（和一些噪音），哪种模式会更好

识别模式

类似资料：

python使用opencv进行人脸识别

本文向大家介绍python使用opencv进行人脸识别，包括了python使用opencv进行人脸识别的使用技巧和注意事项，需要的朋友参考一下环境 ubuntu 12.04 LTS python 2.7.3 opencv 2.3.1-7 安装依赖示例代码转换效果原图：转换后使用感受对于大部分图像来说，只要是头像是正面的，没有被阻挡，识别基本没问题，准确性还是很高的。识别效率有点低，
用Buildozer进行语音识别

[信息]:#安装纯Python模块 [信息]:需求（SpeechRecognition,pyaudio）没有菜谱，试图用pip安装它们 [信息]:如果失败，这可能意味着模块已经编译了组件，需要一个配方。工作：pid 3095的线程后台线程异常:n/python2.7-u-c“导入设置...（和509更多）回溯（最近调用的最后一次）：文件“/usr/lib/python2.7/threadin
利用CoreImage进行人脸识别

利用CoreImage进行人脸识别，可以判断人脸整体位置，以及两只眼睛和嘴巴的大概位置。并根据人脸范围，对图片进行剪切。 [Code4App.com]
用素数对数字进行计数

给定一个数N，我需要找到从1到N至少有一个素数（2,3,5或7）的数的计数。现在N可以高达10^18。解决这个问题的最佳方法是什么。例句：设N=100，答案是64。请帮助解决这个问题。代码：这是主要功能，但显然不是好方法
使用 openssl 对文件进行数字签名

有没有办法使用openssl对x509证书或任何文档进行数字签名？
如何使用加速度计进行手势识别

问题内容：我的目标是从安装在太阳点上的加速度计识别简单的手势。手势可以像旋转设备或以几种不同的动作移动设备一样简单。该设备目前仅具有加速度计，但是我们正在考虑添加陀螺仪，以使其更容易/更准确。有人对如何做到这一点有建议吗？Java中是否有可用的库？您推荐我查看的示例项目？您推荐的论文？这个亮点是一个Java平台，可帮助您快速制作系统原型。它使用Java编程，可以将命令中继回连接到计算机的基站

使用CMU Sphinx进行数字识别

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档