当前位置: 首页 > 面试题库 >

Twitter在Python中的情感分析

岑畅
2023-03-14
问题内容

我正在寻找 文本情感分析
(http://en.wikipedia.org/wiki/Sentiment_analysis)的开源实现,最好是python
。有谁熟悉我可以使用的开源实现?

我正在编写一个应用程序,该应用程序在Twitter上搜索某个搜索词,例如“
youtube”,并计算“快乐”推文与“悲伤”推文的数量。我正在使用Google的appengine,所以它在python中。我希望能够对来自Twitter的返回搜索结果进行分类,并且希望在python中进行分类。到目前为止,我还没有找到这样的情感分析器,特别是在python中。您熟悉我可以使用的这种开源实现吗?最好是已经在python中了,但是如果没有,希望我可以将其翻译成python。

请注意,我正在分析的文本非常简短,它们是推文。因此,理想地,此分类器针对此类短文本进行了优化。

顺便说一句,twitter确实在搜索中支持“ :)”和“
:(”运算符,其目的只是为了做到这一点,但是不幸的是,它们提供的分类并不是那么好,所以我想自己可以尝试一下。

谢谢!

BTW,早期的演示是在这里和我至今的代码是在这里,我很愿意和任何有兴趣的开发者开源它。


问题答案:

对于大多数这类应用程序,您必须投放大量自己的代码来进行统计分类任务。正如Lucka所建议的那样,只要您的目标不干扰其许可证的非商业性质,NLTK就是在Python中进行自然语言操作的理想工具。但是,我建议使用其他软件包进行建模。我还没有找到许多可用于Python的强大高级机器学习模型,因此我将建议一些易于与Python配合使用的独立二进制文件。

您可能对Advanced Discriminative
Modeling的工具包
感兴趣,该工具包可轻松与Python交互。这已用于自然语言处理各个领域中的分类任务。您还可以选择许多不同的模型。我建议从最大熵分类开始,只要您已经熟悉实现朴素贝叶斯分类器即可。如果不是这样,您可能需要对其进行研究并进行编码,以真正真正地了解作为机器学习任务的统计分类。

得克萨斯大学奥斯汀分校的计算语言学小组开设了课程,其中大多数项目都使用了这一出色的工具。您可以查看Computational Linguistics
II的课程页面,以了解如何使其工作以及它以前服务于哪些应用程序。

同样有用的另一个很好的工具是Mallet。Mallet之间的区别是,有更多的文档和更多可用的模型,例如决策树,并且它是Java编写的,我认为这会使它变慢一些。
Weka是一个大包装中的一整套整套不同的机器学习模型,其中包含一些图形化内容,但实际上主要是出于教学目的,并不是我真正要投入生产的东西。

祝您工作顺利。真正困难的部分可能是您需要预先进行知识工程的数量,以便您对模型将要学习的“种子集”进行分类。它需要相当大,这取决于您是在进行二进制分类(快乐还是悲伤)或整个情绪范围(这将需要更多)。确保保留一些工程数据以进行测试,或者运行十倍测试或删除一项测试,以确保在将数据发布之前,您实际上在预测方面做得很好。最重要的是,玩得开心!我认为,这是NLP和AI的最佳部分。



 类似资料:
  • 因此,我们已经使用Power Automation Power BI twitter开发API建立了twitter情绪分析。直到本月初,一切都很顺利。然而,由于无效的订阅密钥或错误的APIendpoint,我们突然开始出现以下错误:拒绝访问。请确保为活动订阅提供有效密钥,并为您的资源使用正确的区域API终结点”。进一步调查发现my Azure subcription已禁用。(免费帐户)。但是,免费

  • 本文向大家介绍使用Python编程进行Twitter情感分析。,包括了使用Python编程进行Twitter情感分析。的使用技巧和注意事项,需要的朋友参考一下 情感分析是估算通过书面文本或口头交流为特定事件提供反馈的人们的情绪的过程。当然,口头交流也必须转换为书面文本,以便可以通过python程序进行分析。人们表达的情绪可能是正面的也可能是负面的。通过为情感文本中的不同单词分配权重,我们可以计算出

  • 本文向大家介绍python snownlp情感分析简易demo(分享),包括了python snownlp情感分析简易demo(分享)的使用技巧和注意事项,需要的朋友参考一下 SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,

  • 与 TF-IDF + LogReg 之类的简单且快得多的方法相比,LSTM 实际上由于数据集太小而无济于事。 注意 RNN 非常棘手。批次大小、损失和优化器的选择很重要,等等。某些配置无法收敛。 训练期间的 LSTM 损失减少模式可能与你在 CNN/MLP 等中看到的完全不同。 from __future__ import print_function from keras.preprocess

  • 2 个轮次后达到 0.8498 的测试精度。K520 GPU 上为 41 秒/轮次。 from __future__ import print_function from keras.preprocessing import sequence from keras.models import Sequential from keras.layers import Dense, Dropout,

  • 但是,我还没能在Stanford CorenLP中找到任何文本分类的注释器。我有什么办法可以实现我的想法。更好的是,有没有更好的方法来实现我想要实现的目标。 提前谢了。