当前位置：首页 > 工具软件 > 词Ci > 使用案例 >

练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现

唐茂实

2023-12-01

最近笔者在做文本挖掘项目时候，写了一些小算法，不过写的比较重，没有进行效率优化，针对大数据集不是特别好用，不过在小数据集、不在意性能的情况下还是可以用用的。

本次练习题中可以实现的功能大致有三个：

短语发现
新词发现
词共现

短语发现、新词发现跟词共现有些许区别：
[‘举’，‘个’，‘例子’，‘来说’]

短语发现、新词发现，是词-词连续共现的频率，窗口范围为1，也就是：‘举’，‘例子’；‘个’，‘例子’；‘例子’，‘来说’，探究挨得很近的词之间的关系
词共现是词-词离散出现，词共现包括了上面的内容，探究：‘举’，‘来说’，不用挨着的词出现的次数

code可见我的github：mattzheng/LangueOne

一、数据集介绍

练习数据来源：今日头条中文新闻（文本）分类数据集
今日头条是最近开源的数据集，38w，其中的数据格式为：

6552391948794069256_!_106_!_news_house_!_新手买房࿰

类似资料：

相关阅读

Android仿今日头条多个fragment懒加载的实现基于PHP实现短信验证码发送次数限制用Sphinx4发现关键字或关键词 web开发中添加数据源实现思路带有虚假的名词短语

相关文章

字节跳动-今日头条客户端开发实习一面字节今日头条前端开发实习生一面面试今日头条Android面试题今日头条｜Android开发工程师｜6 + 1 面经字节跳动-今日头条后端开发一面面经

相关问答

等效二叉树练习，实现"并发"删除数据框x%中出现的单词 Java：发现字符串中是否存在单词基于月1日比较一些日期谓词显示基于今天数据的数据库

相关文档

DApp 开发简短教程深度学习入门：基于 Python 的理论与实现驾驭 Go 语言基础与网络开发 Java 开发学习笔记开发学习笔记合集