HTK 说明文档 http://htk.eng.cam.ac.uk/
DTW动态时间归整
https://www.cnblogs.com/bnuvincent/p/5203243.html
连续语音识别:
connected speech recognition 对字级别建模
continuous speech recognition 对音素级别建模,是传统方案
embedded training
1.在鼓励词识别中,一个训练实例(一句话)就对应一个词,因此一个词的HMM model就对应一个训练实例;
2.在连续语音识别中,一个训练实例(一句话)包含多个词(因素),需要将对应的HMM model连接在一起;
3.将每个训练实例(一句话)中的多个HMM model的边界标示出来是不可能的。
手工分段的数据非常昂贵,400倍于数据时间 (1小时的语音,需要400小时的标记时间),同时手工标记时很难找准音素边界。实际上,语音识别系统在训练每个phone HMM时,是嵌入到整个句子(对整个句子训练),让训练程序自动地找到分割和对齐音素。这种完全自动的声学模型训练方式就被称为Embedded Training。
Baum-Welch(EM算法),Viterbi简化:
Token Passing Approach:
假设每一个HMM的state可以保存一个或多个Token。Token是一个概念上的对象object,它可以在state之间进行传递,一般都是按照箭头指向的方向,所以也叫前传(propagate)。每一个Token携带着它所经过路径的打分score,这个分值一般是log量级的概率和(因为我们要找的是最大概率路径嘛,也就是最高分的路径。)Token的传递是以观测序列的generate为节拍进行。
你可以想象每一条路径都是一条贪吃蛇,token就是蛇的头部的那一节,身体部分就是他所经过的state路径。算法过程大致如下:
初始化(t=0):
初始state(入口处)的Token的s=0
其他state的Token的s=-inf
执行过程(t>0):
复制若干数目Token,并将其传递至所有与该state连接的其他state中,并且对其值做如下操作:
在每个state中,比较所有token,留下分值最高的token,抛弃其他所有token(Viterbi剪枝过程)
终态(t=T):
比较所有终态(final state)的Token,保留其中分数最高的token
该token对应的就是最佳路径的概率。
决策树
https://blog.csdn.net/brandon2015/article/details/78816829?utm_source=blogxgwz7
https://blog.csdn.net/sinat_35674501/article/details/74736088