HAL是什么我就不解释了,具体可以参考:http://www.zhan5zhan.com/post/6.html
1、何谓短文本
论坛、博客、微博、聊天记录、问答,都可以认为是短文本。虽然博客、论坛也有很多长文本,但是是少数。
2、短文本难点
1)不规范、口语化。比如各种简写、各种错字别字。
2)语境缺失。在专业论坛,各种专有名词,就很难理解。比如暗黑3的“和尚”指代一种角色,“妈咪爱”是婴儿药物。
3、解决思路:补充语境、背景知识
简写、错字、别字、孤立词,必须放入一个完整语境中,才能理解。如何构造一个对短文本补充的词袋,是问题的关键。
4、HAL的方法
Hal通过找到词矩阵中,词与词之间共现次数较多的词互为补充。在上面链接中就有例子。
5、pHAL方法
对HAL的补充,决定共现词对原词是否可以构成“解释”关系,可以有两个因素:离的近、越近表示关系越紧密;出现次数多,两者共同出现次数越多,关系越强。
因此pHAL和HAL相比,增加了共现概率、共现距离。
S(wi|w) = P(wi|w) / L(wi|w)
这就是共现公式,当概率越大、距离越短,表明两个词之间关系越紧密。
6、下面是我找到的一些有意思的例子
- 湘悦 12 大酒店|0.149390|0.30|2.0 北京|0.041757|0.13|3.1 北京市|0.027999|0.09|3.3 预定|0.014967|0.05|3.7 评价|0.014967|0.05|3.7 楼|0.010671|0.02|2.0 预订|0.010540|0.03|3.2 价格|0.006499|0.03|4.2 住宿|0.006499|0.03|4.2 房价|0.006499|0.03|4.2 酒店|0.003430|0.02|5.3 好|0.002217|0.01|5.5
- 血岭狙击 7 剧情|0.071429|0.14|2.0 狙击杀手|0.047619|0.14|3.0 迅雷|0.047619|0.14|3.0 疑问|0.047619|0.14|3.0 下载|0.035714|0.14|4.0 主演|0.028571|0.14|5.0 史泰龙|0.023810|0.14|6. 0
- 闵大联 2 医生|0.250000|0.50|2.0 苏州|0.250000|0.50|2.0
- 中国森林病虫 2 杂志|0.250000|0.50|2.0 征稿|0.166667|0.50|3.0
- 娜曼丝 1 家纺|0.500000|1.00|2.0
- 海甸二路 3 陈淑芬|0.111111|0.33|3.0 中医诊所|0.083333|0.33|4.0 搬到|0.066667|0.33|5.0
比如有人说娜曼丝,如果你不熟悉,你肯定不知道这是什么,但是后面的“家纺”说明这是一个家纺品牌。比如说“血岭狙击”,如果你不了解,你可能以为是游戏、电影、或者电视剧、也有可能是小说,实际上他是史泰龙主演的电影,经常被迅雷下载。
7、这有什么用?
ok,这很有用,可以扩充短文本,然后用于分类、聚类、推荐系统、相似度计算、语义理解、情感分析、舆论舆情,反垃圾.....