当前位置: 首页 > 工具软件 > Twitter-text > 使用案例 >

基于词级ngram的词袋模型对twitter数据进行情感分析

东方高洁
2023-12-01

前言

大家好,我是阿光。

本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。

正在更新中~ ✨

�� 我的项目环境:

  • 平台:Windows10
  • 语言环境:python3.7
  • 编译器:PyCharm
  • PyTorch版本:1.8.1

�� 项目专栏:【PyTorch深度学习项目实战100例】


一、基于词级ngram的词袋模型对twitter数据进行情感分析

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。

本项目在于探索其他在相同数据集上训练出来的 NLP模型,然后在给定的测试集上对这些模型的性能进行评估。

二、数据集介绍

该数据集基于以下两个来源的数据:

  • 密歇根大学情感分析比赛Kaggle
  • Niek Sanders的推特情绪语料库

推特情绪分析数据集包含1,578,627条分类推文,每一行标记为1表示积极情绪,0表示消极情绪。我建议使用1/10的语料库来测试你的算法,而剩下的可以用来训练你用来分类情绪的算法。我试着用这个数据集和一个非常简单的朴素贝叶斯分类算法,结果是75%的准确率

 类似资料: