Hi识别专家,
我有很多的mp3文件(原创音源流采样是11.025千赫)包含数字(0-9)。
不同的说话者(男性/女性)说“一”、“七”、“三”等,中间有停顿(约2-2.5秒)
我要用CMU Sphinx来识别语音(桌面应用程序)。所以我有一些问题:
>
声学模型:如果不对流进行上采样/下采样,如何找到支持11025 kHz的声学模型。如果我这样做,什么是最好的数字模型?
识别模式:我发现转录有两种模式——键定位和识别。考虑到我只有数字(和一些噪音),哪种模式会更好
谢啦
UPD:
尼古拉,谢谢你的回答。我已经试过你的建议了——它奏效了!
如果你不介意,我想问一些额外的问题:
>
只有45%的文件被正确识别。其他55%的人有20-90%的错误。因此,我的问题是:是否有可能估计所获得结果的置信度?例如,我可以跳过“不确定”识别的文件?
如果答案2是“否”,你能建议什么来提高准确性?我知道,这个问题很抽象...
提前感谢您!
更新2:
顺便说一下,最好的参数集(我刚刚浏览了各种参数)是:
-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5
MP3解码:如何解码我的mp3文件,这意味着我应该向ffmpeg指定什么采样(因为我知道它不推荐给上采样/下采样流)。我应该在解码时过滤噪音和/或频段吗?
ffmpeg -i file.mp3 -ar 8000 file.wav
声学模型:如果不对流进行上采样/下采样,如何找到支持11025 kHz的声学模型。如果我这样做,什么是最好的数字模型?
en-us-8khz在下载中可用,您需要像教程中一样创建一个数字语法,然后按以下方式使用它
pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000
识别模式:我发现转录有两种模式——键定位和识别。考虑到我只有数字(和一些噪音),哪种模式会更好
识别模式
本文向大家介绍python使用opencv进行人脸识别,包括了python使用opencv进行人脸识别的使用技巧和注意事项,需要的朋友参考一下 环境 ubuntu 12.04 LTS python 2.7.3 opencv 2.3.1-7 安装依赖 示例代码 转换效果 原图: 转换后 使用感受 对于大部分图像来说,只要是头像是正面的,没有被阻挡,识别基本没问题,准确性还是很高的。 识别效率有点低,
[信息]:#安装纯Python模块 [信息]:需求(SpeechRecognition,pyaudio)没有菜谱,试图用pip安装它们 [信息]:如果失败,这可能意味着模块已经编译了组件,需要一个配方。 工作:pid 3095的线程后台线程异常:n/python2.7-u-c“导入设置...(和509更多) 回溯(最近调用的最后一次): 文件“/usr/lib/python2.7/threadin
利用CoreImage进行人脸识别,可以判断人脸整体位置,以及两只眼睛和嘴巴的大概位置。并根据人脸范围,对图片进行剪切。 [Code4App.com]
给定一个数N,我需要找到从1到N至少有一个素数(2,3,5或7)的数的计数。 现在N可以高达10^18。解决这个问题的最佳方法是什么。 例句:设N=100,答案是64。 请帮助解决这个问题。 代码:这是主要功能,但显然不是好方法
有没有办法使用openssl对x509证书或任何文档进行数字签名?
问题内容: 我的目标是从安装在太阳点上的加速度计识别简单的手势。手势可以像旋转设备或以几种不同的动作移动设备一样简单。该设备目前仅具有加速度计,但是我们正在考虑添加陀螺仪,以使其更容易/更准确。 有人对如何做到这一点有建议吗?Java中是否有可用的库?您推荐我查看的示例项目?您推荐的论文? 这个亮点是一个Java平台,可帮助您快速制作系统原型。它使用Java编程,可以将命令中继回连接到计算机的基站