比TF-IDF更好的隐含语义索引模型是个什么鬼
TF-IDF
TF(term frequency),表示一个词在一个文档中出现的频率;IDF(inverse document frequency),表示一个词出现在多少个文档中。
它的思路是这样的:同一个词在短文档中出现的次数和在长文档中出现的次数一样多时,对于短文档价值更大;一个出现概率很低的词一旦出现在文档中,其价值应该大于其他普遍出现的词。
这在信息检索领域的向量模型中做相似度计算非常有效,屡试不爽,曾经是google老大哥发家的必杀技。但是在开发聊天机器人这个事情上看到了它的软肋,那就是它只是考虑独立的词上的事情,并没有任何语义信息在里面,因此我们需要选择加入了语义特征的更有效的信息检索模型。
隐含语义索引模型
在TF-IDF模型中,所有词构成一个高维的语义空间,每个文档在这个空间中被映射为一个点,这种方法维数一般比较高而且每个词作为一维割裂了词与词之间的关系。所以为了解决这个问题,我们要把词和文档同等对待,构造一个维数不高的语义空间,每个词和每个文档都是被映射到这个空间中的一个点。用数学来表示这个思想就是说,我们考察的概率即包括文档的概率,也包括词的概率,以及他们的联合概率。
为了加入语义方面的信息,我们设计一个假想的隐含类包括在文档和词之间,具体思路是这样的:
(1)选择一个文档的概率是p(d);
(2)找到一个隐含类的概率是p(z|d);
(3)生成一个词w的概率为p(w|z);
以上是假设的条件概率,我们根据观测数据能估计出来的是p(d, w)联合概率,这里面的z是一个隐含变量,表达的是一种语义特征。那么我们要做的就是利用p(d, w)来估计p(d)、p(z|d)和p(w|z),最终根据p(d)、p(z|d)和p(w|z)来求得更精确的p(w, d),即词与文档之间的相关度。
为了做更精确的估计,设计优化的目标函数是对数似然函数:
L=∑∑n(d, w) log P(d, w)
那么如何来通过机器学习训练这些概率呢?首先我们知道:
p(d, w) = p(d) × p(w|d)
而
p(w|d) = ∑p(w|z)p(z|d)
同时又有:
p(z|d) = p(z)p(d|z)/∑p(z)p(d|z)
那么
p(d, w) =p(d)×∑p(w|z) p(z)p(d|z)/∑p(z)p(d|z)=∑p(z)×p(w|z)×p(d|z)
下面我们采取EM算法,EM算法的精髓就是按照最大似然的原理,先随便拍一个分布参数,让每个人都根据分布归类到某一部分,然后根据这些归类来重新统计数目,按照最大似然估计分布参数,然后再重新归类、调参、估计、归类、调参、估计,最终得出最优解
那么我们要把每一个训练数据做归类,即p(z|d,w),那么这个概率值怎么计算呢?
我们先拍一个p(z)、p(d|z)、p(w|z)
然后根据
p(z|d,w)=p(z)p(d|z)p(w|z)/∑p(z)p(d|z)p(w|z),其中分子是一个z,分母是所有的z的和
这样计算出来的值是p(z|d,w)的最大似然估计的概率估计(这是E过程)
然后根据这个估计来对每一个训练样本做归类
根据归类好的数据统计出n(d,w)
然后我再根据以下公式来更新参数
p(z) = 1/R ∑n(d,w)p(z|d,w)
p(d|z)=∑n(d,w)p(z|d,w) / ∑n(d,w)p(z|d,w),其中分子是一个d的和,分母是所有的d的和,这样计算出来的值是p(d|z)的最大似然估计
p(w|z)=∑n(d,w)p(z|d,w) / ∑n(d,w)p(z|d,w),其中分子是一个w的和,分母是所有的w的和,这样计算出来的值是p(w|z)的最大似然估计
最后重新计算p(z|d,w):
p(z|d,w)=p(z)p(d|z)p(w|z)/∑p(z)p(d|z)p(w|z)
这是M的过程
不断重复上面EM的过程使得对数似然函数最大:
L=∑∑n(d, w) log P(d, w)
通过以上迭代就能得出最终的p(w, d),即词与文档之间的相关度,后面就是利用相关度做检索的过程了
为了得到词词之间的相关度,我们用p(w, d)乘以它的转置,即
p(w,w) = p(w,d)×trans(p(w,d))
当用户查询query的关键词构成词向量Wq, 而文档d表示成词向量Wd,那么query和文档d的相关度就是:
R(query, d) = Wq×p(w,w)×Wd
这样把所有文档算出来的相关度从大到小排序就是搜索的排序结果
总结
综上就是隐含语义索引模型的内容,相比TF-IDF来说它加进了语义方面的信息、考虑了词与词之间的关系,是根据语义做信息检索的方法,更适合于研发聊天机器人做语料训练和分析,而TF-IDF更适合于完全基于独立的词的信息检索,更适合于纯文本搜索引擎