当前位置: 首页 > 工具软件 > 词Ci > 使用案例 >

练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现

唐茂实
2023-12-01

最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。

本次练习题中可以实现的功能大致有三个:

  • 短语发现
  • 新词发现
  • 词共现

短语发现、新词发现跟词共现有些许区别:
[‘举’,‘个’,‘例子’,‘来说’]

  • 短语发现、新词发现,是词-词连续共现的频率,窗口范围为1,也就是:‘举’,‘例子’;‘个’,‘例子’;‘例子’,‘来说’,探究挨得很近的词之间的关系
  • 词共现是词-词离散出现,词共现包括了上面的内容,探究:‘举’,‘来说’,不用挨着的词出现的次数

code可见我的github:mattzheng/LangueOne


一、数据集介绍

练习数据来源:今日头条中文新闻(文本)分类数据集
今日头条是最近开源的数据集,38w,其中的数据格式为:

6552391948794069256_!_106_!_news_house_!_新手买房࿰
 类似资料: