当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

THUOCL

清华大学开源的高质量中文词库
授权协议 未知
开发语言 C/C++
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 赫连卓
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。

THUOCL 具有以下特点:

  1. 包含词频统计信息 DF 值(Document Frequency),方便用户个性化选择使用。

  2. 词库经过多轮人工筛选,保证词库收录的准确性。

  3. 开放更新,将不断更新现有词表,并推出更多类别词表。

该词库可以用于中文自动分词,提升中文分词效果。可搭配 THULAC 工具包使用,提升特定领域中文分词的效果。

  • 目录 词库简介 词库格式及词频统计语料库 词库清单 IT 财经 成语 地名 历史名人 诗词 医学 饮食 法律 汽车 动物 开源协议 作者 词库简介 THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点: 包含词频统计信息DF值(Docu

 相关资料
  • 清华大学开源软件镜像站,致力于为国内和校内用户提供高质量的开源软件镜像、Linux 镜像源服务,帮助用户更方便地获取开源软件。本镜像站由清华大学 TUNA 团队负责维护。

  • 我正在做一个粒子在晶格中运动的随机行走模拟。因此,我必须创建大量的随机数,大约10^12及以上。目前,我正在使用C 11提供的可能性 问题是:我能做些什么来减少生成这些数字所需的CPU时间,以及对它们的质量有什么影响? 如您所见,我尝试了不同的引擎,但这对CPU时间没有太大影响。此外,我的uniform01(gen)和generate\u canonical之间有什么区别 编辑:通过阅读答案,我得

  • 问题内容: 按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 只是为了好玩…我倾向于通过全天寻找偶然的难题来保持警觉。我喜欢linux的一件事是,它体现出了无止尽的聪明,从优雅到一开始一直到手册页中的注释。 您能否阐明指示

  • 一面:9.26 二面:10.8 HR面:10.10 意向:10.18 offer:10.25 ----- 一面(20min): 1.你这边比较擅长的开发类语言是什么是? 2.Python 的话,我们定义函数的时候,输入参数有带一个型号和2个型号的参数,这是什么定义,这是什么含义? 3.假如说有一个随机字符串,里面有字母符号空格标点,就各种各样的字符,我要去除里面的空格怎么实现? 4.说一下就是JV

  • 问题内容: 如何以高质量保存Python图形? 也就是说,当我继续放大保存在PDF文件中的对象时,为什么没有任何模糊? 另外,保存它的最佳方式是什么? ,?还是其他?我做不到,因为有一个隐藏的数字发生,导致编译混乱。 问题答案: 如果您正在使用Matplotlib并试图在LaTeX文档中获得良好数据,请另存为EPS。具体来说,请在运行命令以绘制图像后尝试以下操作: 我发现EPS文件效果最好,而参数

  • 最近面了挺多,主要是前端方向,有时间写写吧 大华一面电话面,10.11 大概40min,八股较多,项目问的比较少,应该是留给二面问了。 1.v-if和v-show的理解,主要说了两者的区别以及两者的优缺点和具体使用环境。 2.CSS相关,面试官问CSS的时候问了我对于CSS熟悉吗,由于本人基本上使用UI框架做页面,对CSS实在不熟,所以实话实说说不是很熟悉。于是出了以下相关问题:(1)positi