情感分析Sentiment Analysis and Opinion Mining Bing Liu 阅读笔记——chapter3

厉成仁
2023-12-01

文本情感分类

  • 文档层面的情感分类:整篇文档general
  • 问题定义:如果情感s是两级的,那就是分类问题,如果是实数值或者是依次的打分,类似1-5评分,那就是回归问题。
  • 假设:情感分类or回归问题假设意见文档d(如一个产品的评论)表达的是对单一实体e的意见,包含来自一个单一的观点持有者的意见。
  • 因为,如果一个意见文档评价了多个实体,对于不同实体的意见可能不同,比如,对一部分实体持有positive意见,另一部分negative,因此,在这种情况下,为整个文档分配一个情绪方向没有实际意义。如果多个意见持有者在单个文档中表达意见也没有多大意义,因为他们的意见也可能不同。
  • 这种假设对于商品和服务的评价类的数据成立,因为这种类型的数据一般只专注于评价一种单一的产品或服务,而且一般是一个单一的评价者做出的评价。然而,对于forum,blog这样的数据类型,在一篇帖子中作者可能会对多个实体进行评价,并用比较句子对它们进行比较。

有监督的学习

二分类问题,可以将打分转化为二分类问题(或者三分类),比如,1、2分是negative,3是中性,4、5是positive。

本质上是文本分类任务,但是传统的文本分类是按照话题划分,与话题相关的词是关键特征,在情感分类中,指示情感是p还是n的词语很重要。

  • SVM:Joachims, 1999; Shawe-Taylor and Cristianini, 2000
  • Pang, Lee and Vaithyanathan (2002):使用词袋模型作为特征效果好。
  • 曾被采用过的特征有

    • 词项和词频,词的位置信息,TF-IDF在传统基于话题的文本分类中最常见,权重模型在信息检索中也经常被使用,与传统的文本分类一样,这些特征也被证明对情感分类非常有效。
    • part of speech(POS,词类):形容词对于opinions很重要,有些研究者将形容词当做特殊的特征处理。还可以用句子中所有词的POS 标签和它们的n元组作为特征。本书中采用的是UPenn树库POS标签。
    • 情感词汇和短语:
    • rules of opinions:一些意见规则。除了情感词和短语之外,还有许多其他表达或语言构成可用于表达或暗示情感和观点。

    • sentiment shifters(情感迁移):

    • syntactic dependency(句法依赖性):句法分析树,依赖树,依存关系,产生基于依赖关系的词的特征。

除了采用标准机器学习方法,研究人员还提出了一些针对情感分类的技巧。

文献综述

  • 基于在正面评价和负面评价中的词构造的得分函数Dave, Lawrence and Pennock, 2003
  • 用人工编译的基于某特定领域的词和短语的回归方法Tong, 2001
  • Gamon, 2004:在顾客反馈数据上做的分类,这种数据和评论相比通常是短小,而且有噪音。
  • Pang and Lee, 2004:基于图的最小割算法被用于提升情感分类效果
  • Mullen and Collier, 2004; Xia and Zong, 2010:句法关系和传统特征结合使用
  • Kennedy and Inkpen, 2006; Li et al., 2010:contextual valence(???)和词性迁移被应用到分类中。
  • Cui, Mittal and Datar, 2006:多种情感分类算法的评估
  • Ng, Dasgupta and Arifin, 2006:用语言学的知识资源做分类
  • Abbasi, Chen and Salem, 2008:在不同语言的情感分类中一种基于特征选择而派生的方法被提出
  • Li, Zhang and Sindhwani, 2009:NMF方法
  • Dasgupta and Ng, 2009; Li et al., 2011; Zhou, Chen and Wang, 2010:半监督学习,主动学习
  • (Kim, Li and Lee, 2009) (Paltoglou and Thelwall, 2010): 不同的IR词项权重模型用来研究和比较情感分类
  • Martineau and Finin, 2009:一种新的词项权重模型Delta TFIDF被提出
  • Qiu et al., 2009:一种基于词典和自监督的方法被采用
  • He, 2010:带标签的特征,而不是带标签的文档被用于分类
  • Mejova and Srinivasan, 2011:作者探索了多种特征定义和特征选择技巧
  • Nakagawa, Inui and Kurohashi, 2010:一种基于依赖树的方法被提出,采用了带有隐变量的条件随机场(Lafferty, McCallum and Pereira, 2001)
  • Bickerstaffe and Zukerman, 2010:考虑类内相似性的层级多分类器被报告。
  • Li et al., 2010:personal,impersonal(人称动词和非人称动词)的句子被用于帮助分类
  • Yessenalina, Choi and Cardie, 2010:自动生成的注释器基本原理用于帮助分类。
  • Yessenalina, Yue and Cardie, 2010:多层次结构化模型被提出。
  • Wang et al., 2011:作者提出了一个基于图的hashtag(话题标签)方法用来对Twitter帖子情感分类。
  • Kouloumpis, Wilson and Moore, 2011: 还利用了语言学特征和从微博中捕获的使用的非正式和创造性语言的信息的特征。
  • Maas et al., 2011:(word vector)作者采用可以捕获词的一些隐藏层面的词向量用于分类
  • Bespalov et al., 2011:基于有监督的隐藏n-gram分析用于情感分类
  • Burfoot, Bird and Baldwin, 2011:congressional floor debates 国会底层辩论(一种政治类型的数据)被分类。
  • Becker and Aharonson, 2010:在基于心理语言学和心理物理学的实验基础上得到的文本,把重点放在文本的最后部分。
  • Liu et al., 2010:对于博客和评论的情感分类,对不同的语言学特征做了比较。
  • Tokuhisa, Inui and Matsumoto, 2008:研究了对话表达的emotion classification,最开始是分成pos,neg,neu三类,后面又将pos和neg表达细分为10个情绪类别。

无监督的学习

既然情感词汇经常作为情感分类的主宰因素,可以将情感词汇和短语作为无监督行为用于情感分类。

Turney, 2002

这篇文章基于一些固定的有可能被用来表达观点的语法模式进行分类,这些句法模式是基于POS标签组成的。算法分为三步:

  1. 两个连续的词,如果它们的POS标签符合表3.2中的任意一种模式,那么就提取出来,比如,模式二是说,两个连续的词,如果第一个词是副词,第二个词是形容词,第三歌词不是名词,那么就将这两个连续的词提取出来。名词或动词充当上下文,因为在不同的上下文中,JJ,RB,RBR和RBS词可以表达不同的情感。
  2. 使用PMI方法估计提取出的短语的情感倾向性
PMI(term_1,term_2)=log_2(
\frac{Pr(term_1 \wedge term_2) }{Pr(term_1)Pr(term_2})

(\wedge是逻辑与)

PMI度量的是两个词之间的统计依赖性,分子是真实的词项1和词项2的共现概率,分母是如果这两个词是统计独立的共现概率,一个短语的情感倾向性的计算是基于它和正面参考词和负面参考词的相关程度。

SO(phrase)=PMI(phrase, "excellent")-PMI(phrase, "poor")

概率的计算是通过给搜索引擎发送查询,然后收集查询命中的数量,对于每个搜索查询,一个搜索引擎通常会针对这个查询给出一些相关文档,也就是命中的数量,因此,通过同时搜索两个词和单独的分别搜索每个词,我们可以得到公式(1)中的概率值。
3. 给定一个评论,计算评论中所有短语的平均SO,如果SO是正那么评论即为pos如果是负评论为neg。

各个领域的评论的最终分类准确度范围从汽车评论的84%到电影评论的66%不等。

另一种无监督的方法是基于词典的方法,该方法使用情感词和短语的字典及其相关的方向和强度,并结合强化和否定来计算每个文档的情感分数(Taboada et al., 2011),这种方法通常用于句子和aspect级别的情感分类。(Ding, Liu and Yu, 2008; Hu and Liu, 2004; Kim and Hovy, 2004)

情感打分预测

除了pos和neg的分类,研究者还研究了预测评论的得分的问题,因为得分是数值型的,所以该问题可看成是回归问题,虽然也不是所有的研究者都应用回归的技巧解这个问题。

  • Pang and Lee, 2005采用SVM回归,SVM多分类采用的是one-vs-all策略和一种元学习方法(metric labeling),SVM一对多的多分类效果比其他两种方法的效果差很多,因为y是数值不是类别值。
  • Goldberg and Zhu (2006),通过将评分预测建模成一个基于图的半监督学习任务提升了上述方法,用了有评分的评论数据和没有评分的评论数据。不带标签的评论数据是待遇测的测试集,在图中,每个节点是一篇文档或者一篇评论,两个节点之间的链接是两篇文档的相似度值,一个大的相似度权重意味着这两篇文档很大程度上具有相同的情感打分。这篇文章考察了多种相似度计算模型,该算法还假设最初一个单独的学习者已经预测了未标记文档的数字评级。基于图的方法仅通过解决优化问题来修改评级来改进它们,以迫使评级在整个图中关于评级和链接权重是平滑的。(相当于给一个初值,然后通过迭代不断优化)
  • Qu, Ifrim and Weikum (2010):a bag-of-opinions,用于捕捉带有意见的n-grams的strength,和传统的词袋表示不同,每个意见用一个三元组表示,分别是一个情感词,一个修饰词,一个否定词,对于二分类来说,修饰词不那么重要,但是对于评分预测来说很重要,否定词也是。关键是得到一个可用的意见词典和评论的评分,要将回归模型转移到新给定的依赖于域的应用程序,算法得出一组关于意见得分的统计数据,然后将它们作为额外的特征与评分预测标准的unigram特征一起使用。
  • Liu and Seneff, 2009,在这个工作之前,这俩人提出了一种基于通过将句子解析成层次表示获得的子句结构提取副词-形容词-名词-短语的方法。他们根据一种启发式的方法计算情感得分,这种方法是根据形容词副词和否定词在评论中出现时候的得分来计算他们对情感成都的贡献,这种方法中没有机器学习。
  • Snyder and Barzilay (2007),这俩人是研究预测某一个aspect的评分,用标准的分类和回归方法做不能利用用户对于不同aspects评价的依赖关系。对于准确预测来说这些依赖关系是很重要的,因此这篇文章中提出了两个模型,aspect model(对个人的aspect建模)和agreement model(对aspects之间的评分一致性建模),特征选取每篇评论的词汇特征,如unigram,bigram等。
  • Long, Zhang and Zhu (2010),用了与(Pang and Lee,2005)类似的方法,但是采用的是贝叶斯网络分类器预测一篇评论中每个方面的得分,为了良好的准确性,筛选了评论,去掉了没有足够信息的评论。评论的筛选方法是基于Kolmogorov复杂度。用于训练的特征只是来自于和那些方面相关的句子。aspect extraction方法和(Hu and Liu,2004)中的方法相似。

跨领域的情感分类

情感分类对于提取训练数据的领域高度敏感。领域适应或者迁移是很必要的。已有的研究主要基于两个设置,一是需要为新的领域提供一小部分的带标签的数据,二是新的领域不需要带标签的数据。原来已有的带标签训练数据的叫做源域,用于测试的新的领域叫做目标域。

  • Aue and Gamon, 2005,在新的领域没有大量的带标签数据的基础上迁移模型,他们试验了四种策略:

(1) training on a mixture of labeled reviews from other domains where such data are available and testing on the target domain; (2) training a classifier as above, but limiting the set of features to those only observed in the target domain; (3) using ensembles of classifiers from domains with available labeled data and testing on the target domain; (4) combining small amounts of labeled data with large amounts of unlabeled data in the target domain (this is the traditional semi-supervised learning setting). SVM was used for the first three strategies, and EM for semi-supervised learning (Nigam et al., 2000) was used for the fourth strategy. Their experiments showed that the strategy (4) performed the best because it was able to make use of both the labeled and unlabeled data in the target domain.

  • Yang, Si and Callan, 2006
  • Tan et al., 2007
  • Blitzer, Dredze and Pereira, 2007
  • Pan et al., 2010
  • He, Lin and Alani (2011)
  • (Gao and Li, 2011)
  • Bollegala, Weir and Carroll (2011)
  • (Yoshida et al., 2011)
  • Andreevskaia and Bergler, 2008
  • Wu, Tan and Cheng, 2009:图模型
  • Xia and Zong (2011)

跨语言的情感分类

在多种语言环境下进行情感分类,有了英语的系统,快速应用到其他语言。

总结

文档级别的情感分类提供关于实体,话题或事件的总体意见。它已被大量研究人员研究过。但是,这种级别的分类对于应用程序有一些缺点:

  • 在许多应用中,用户需要知道其他细节,例如,消费者喜欢和不喜欢实体的哪些方面。在典型的意见文档中,提供了这样的细节,但是文档情感分类不为用户提取它们。
  • 文档情感分类不容易适用于非评论,例如论坛讨论,博客和新闻文章,因为许多此类帖子可以评估多个实体并进行比较。在许多情况下,很难确定发布是否实际评估了用户感兴趣的实体,以及发布是否表达任何意见,更不用说确定他们的情绪。文档级情感分类不执行这种细粒度的任务,这需要深入的自然语言处理。事实上,在线评论不需要情绪分类,因为几乎所有评论都已经有用户指定的星级评分。在实践中,论坛讨论和博客需要情绪分类来确定人们对不同实体(例如,产品和服务)和主题的看法。

基本上也都是文献综述,具体方法特征很少啊。

 类似资料: