当前位置: 首页 > 面试题库 >

基于CTC的声学模型 和 其他声学模型的 loss function区别

赫连彬炳
2023-03-14
本文向大家介绍基于CTC的声学模型 和 其他声学模型的 loss function区别相关面试题,主要包含被问及基于CTC的声学模型 和 其他声学模型的 loss function区别时的应答技巧和注意事项,需要的朋友参考一下

参考 https://zhuanlan.zhihu.com/p/33464788 语音识别有时候输入长度远大于输出长度,这是因为语音信号的非平稳性决定的,我们只能做短时傅里叶变换,这就造成了一个句子会有很多帧,即很多时刻。而标签(输出词序列)中的一个词往往对应了好几帧。最后输出的长度会远小于输入的长度。CTC就是为了解决这个问题。 CTC是怎么做的呢?如果不考虑标签的话,使用RNN,每帧语音都会有一个输出,比如输入是200帧,输出有20个词。这样就会得到200个输出序列,这200个输出序列如何与标签的20词计算loss的呢?首先,在多对少的映射中,我们很容易想到应该会有很多重复的词,把这些词去掉就行了,然后因为帧长很短,有些帧的输出没有任何意义,可能只包含静音。所以CTC增加了一个blank标签,也就是每帧softmax的时候增加一个类别(增加一个输出blank的类别)。最后CTC的映射规则就出来了,200->20,去blank+去重。

 类似资料:
  • 当我使用pocketsphinx\u continuous-填充我的音频-dict my\u dictionary-jsgf my\u jsgf时 我发现以下错误: 错误:“dir. c”,第195行:第1行:电话“我”在声学模型中丢失;单词“Bismi”被忽略 错误:“dict.c”,第195行:第2行:电话“I”在声学模型中出错;忽略单词“Bismi(2)” 错误:“dict.c”,第195行

  • 本文向大家介绍CTC模型相关面试题,主要包含被问及CTC模型时的应答技巧和注意事项,需要的朋友参考一下 CTC的全称是Connectionist Temporal Classification,中文翻译大概是连接时序分类。它要达到的目标就是直接将语音和相应的文字对应起来,实现时序问题的分类。 用公式来描述的话,CTC的公式推导如下: 在基于CD-DNN-HMM架构的语音识别声学模型中,训练DNN通

  • 决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构。通常包含3个步骤:特征选择、决策树的生成和决策树的修剪。 决策树模型 分类决策树树模型是一种描述对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点有两种类型:内部节点(internal node)和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。 用决策树分类

  • 本文向大家介绍生成模型和判别模型的区别相关面试题,主要包含被问及生成模型和判别模型的区别时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 生成模型是先从数据中学习联合概率分布,然后利用贝叶斯公式求得特征和标签对应的条件概率分布。判别模型直接学习条件概率分布,直观的输入什么特征就预测可能的类别。

  • 1. Hierarchical Softmax的缺点与改进 在讲基于Negative Sampling的word2vec模型前,我们先看看Hierarchical Softmax的的缺点。的确,使用霍夫曼树来代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢

  • 1. 基于Hierarchical Softmax的模型概述 我们先回顾下传统的神经网络词向量语言模型,里面一般有三层,输入层(词向量),隐藏层和输出层(softmax层)。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。这个模型如下图所示。其中V是词汇表的大小, word2vec对这个模型做了改进,首先,对于从输入层到隐藏