asr之HTK

韩善

2023-12-01

HTK 说明文档 http://htk.eng.cam.ac.uk/

DTW动态时间归整

https://www.cnblogs.com/bnuvincent/p/5203243.html

连续语音识别：

connected speech recognition 对字级别建模

continuous speech recognition 对音素级别建模，是传统方案

embedded training
1.在鼓励词识别中，一个训练实例（一句话）就对应一个词，因此一个词的HMM model就对应一个训练实例；

2.在连续语音识别中，一个训练实例（一句话）包含多个词（因素），需要将对应的HMM model连接在一起；

3.将每个训练实例（一句话）中的多个HMM model的边界标示出来是不可能的。

手工分段的数据非常昂贵，400倍于数据时间（1小时的语音，需要400小时的标记时间），同时手工标记时很难找准音素边界。实际上，语音识别系统在训练每个phone HMM时，是嵌入到整个句子（对整个句子训练），让训练程序自动地找到分割和对齐音素。这种完全自动的声学模型训练方式就被称为Embedded Training。

Baum-Welch（EM算法），Viterbi简化：

Token Passing Approach:

假设每一个HMM的state可以保存一个或多个Token。Token是一个概念上的对象object，它可以在state之间进行传递，一般都是按照箭头指向的方向，所以也叫前传（propagate）。每一个Token携带着它所经过路径的打分score，这个分值一般是log量级的概率和（因为我们要找的是最大概率路径嘛，也就是最高分的路径。）Token的传递是以观测序列的generate为节拍进行。
你可以想象每一条路径都是一条贪吃蛇，token就是蛇的头部的那一节，身体部分就是他所经过的state路径。算法过程大致如下：

初始化（t=0）：
初始state（入口处）的Token的s=0
其他state的Token的s=-inf
执行过程（t>0）：
复制若干数目Token，并将其传递至所有与该state连接的其他state中，并且对其值做如下操作：
在每个state中，比较所有token，留下分值最高的token，抛弃其他所有token（Viterbi剪枝过程）
终态（t=T）：
比较所有终态（final state）的Token，保留其中分数最高的token

该token对应的就是最佳路径的概率。

决策树

https://blog.csdn.net/brandon2015/article/details/78816829?utm_source=blogxgwz7

https://blog.csdn.net/sinat_35674501/article/details/74736088

asr之HTK

相关阅读

相关文章

相关问答

相关文档