使用Julius搭建一个语音识别引擎这里主要就是听写程序,可以进行一段语音的连续识别,而且主要是针对中文:
一.语音识别引擎的基本结构
基本所有的开源语音识别引擎都是如下的结构,包括:Sphinx,Julius等,下面主要以Julius为例,说明相关的内容:
1.Acoustic Model(声学模型):用于音素的识别。
所使用的技术:
1) HMM(Hiden Mokov Model):
2) GMM(Gaussian Mixture Model):
3)DFA&NFA:
构建自己的声学模型:
可以使用的工具:
2.Phoneme Dictionary(读音词典):用于词语的识别。
构建自己的读音词典:
可以使用的工具:
3.Language Model(语言模型):用于语句的识别。
构建自己的读音词典:
可以使用的工具:
上面的三者3=>2=>1 依次成依赖关系,只要把上面的三者配置好,一个语音识别引擎就搭建好了,其他的就是利用开发包提供API进行客制化开发了。
二.具体操作
以Julius-Voxforge当中的Sample为例,使用Julius主要就是涉及三个文件:
1.sample.grammar:语言文法。
2. sample.voca:读音词典。
3. julian.jconf:语音识别引擎的主要配置文件。在这里指定相面的三大要素.
至于其他文件:
sample.dfa
sample.dict
sample.term
都是通过命令自动生成的---mkdfa.pl sample。