情感分析的目的是判断作者的态度或意见:
情感分析的例子之一是判断一篇评论是正面的还是反面的,我们可以用朴素贝叶斯算法来实现。
我们可以用Pang&Lee 2004的影评数据来测试,这份数据集包含1000个正面和1000个负面的评价,以下是一些示例:
本月第二部连环杀人犯电影实在太糟糕了!虽然开头的故事情节和场景布置还可以,但后面就……
当我听说罗密欧与朱丽叶又出了一部改编电影后,心想莎士比亚的经典又要被糟蹋了。不过我错了,Baz Luhrman导演的水平还是高的……
你可以从 http://www.cs.cornell.edu/People/pabo/movie-review-data/ 上下载这个数据集,并整理成以下形式:
你也可以从这里下载整理好的数据。
动手实践
你可以为上文的朴素贝叶斯分类器增加十折交叉验证的逻辑吗?它的输出结果应该是如下形式:
另外,请计算Kappa指标。
再次声明:只看不练是不行的,就好比你不可能通过阅读乐谱就学会弹奏钢琴。
解答
这是我得到的结果:
Kappa指标则是:
所以我们的分类算法效果是不错的。