最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。
本次练习题中可以实现的功能大致有三个:
短语发现、新词发现跟词共现有些许区别:
[‘举’,‘个’,‘例子’,‘来说’]
code可见我的github:mattzheng/LangueOne
练习数据来源:今日头条中文新闻(文本)分类数据集
今日头条是最近开源的数据集,38w,其中的数据格式为:
6552391948794069256_!_106_!_news_house_!_新手买房