当前位置: 首页 > 工具软件 > HTK > 使用案例 >

asr之HTK

韩善
2023-12-01

HTK 说明文档 http://htk.eng.cam.ac.uk/

 

DTW动态时间归整

https://www.cnblogs.com/bnuvincent/p/5203243.html

 

连续语音识别:

connected speech recognition 对字级别建模

continuous speech recognition 对音素级别建模,是传统方案

 

embedded training
1.在鼓励词识别中,一个训练实例(一句话)就对应一个词,因此一个词的HMM model就对应一个训练实例;

2.在连续语音识别中,一个训练实例(一句话)包含多个词(因素),需要将对应的HMM model连接在一起;

3.将每个训练实例(一句话)中的多个HMM model的边界标示出来是不可能的。

手工分段的数据非常昂贵,400倍于数据时间 (1小时的语音,需要400小时的标记时间),同时手工标记时很难找准音素边界。实际上,语音识别系统在训练每个phone HMM时,是嵌入到整个句子(对整个句子训练),让训练程序自动地找到分割和对齐音素。这种完全自动的声学模型训练方式就被称为Embedded Training。

 

Baum-Welch(EM算法),Viterbi简化:

Token Passing Approach:

假设每一个HMM的state可以保存一个或多个Token。Token是一个概念上的对象object,它可以在state之间进行传递,一般都是按照箭头指向的方向,所以也叫前传(propagate)。每一个Token携带着它所经过路径的打分score,这个分值一般是log量级的概率和(因为我们要找的是最大概率路径嘛,也就是最高分的路径。)Token的传递是以观测序列的generate为节拍进行。 
你可以想象每一条路径都是一条贪吃蛇,token就是蛇的头部的那一节,身体部分就是他所经过的state路径。算法过程大致如下:

初始化(t=0):
    初始state(入口处)的Token的s=0
    其他state的Token的s=-inf
执行过程(t>0):
    复制若干数目Token,并将其传递至所有与该state连接的其他state中,并且对其值做如下操作:  
    在每个state中,比较所有token,留下分值最高的token,抛弃其他所有token(Viterbi剪枝过程)
终态(t=T):
    比较所有终态(final state)的Token,保留其中分数最高的token

该token对应的就是最佳路径的概率。
 

决策树

https://blog.csdn.net/brandon2015/article/details/78816829?utm_source=blogxgwz7

https://blog.csdn.net/sinat_35674501/article/details/74736088

 类似资料: