当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

ideaseg

基于 NLP 的中文分词器
授权协议 Apache
开发语言 Java
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 养淇
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

ideaseg 是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

HanLP 相比其他诸如 IKjcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。

与其他基于 HanLP 的插件相比,ideaseg 同步了最新 HanLP 的代码和数据,去除了无法商用的相关内容;实现了自动配置; 包含了模型数据,无需自行下载,使用简单方便。

ideaseg 提供三个模块包括:

  1. core ~ 核心分词器模块
  2. elasticsearch ~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本)
  3. opensearch ~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)

 

 相关资料
  • 安装jieba分词工具 在https://pypi.python.org/pypi/jieba/下载jieba-0.38.zip 解压后执行: python setup.py install 试验切词效果 创建testjieba.py文件内容如下: # coding:utf-8 #!/usr/local/bin/python import jieba seg_list = jieba.cut(

  • 我有一些不同语言的文本,可能有一些拼写错误或其他错误,我想检索他们自己的词汇。一般来说,我对自然语言处理没有经验,所以可能我使用了一些不正确的单词。 关于词汇,我指的是一种语言的单词集合,其中每个单词都是唯一的,不考虑性别、数字或时态的屈折变化(例如,think、thinks和thought are都是考虑-思考)。 这是一个主要问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误

  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 本文向大家介绍Python基于jieba, wordcloud库生成中文词云,包括了Python基于jieba, wordcloud库生成中文词云的使用技巧和注意事项,需要的朋友参考一下 代码如下 准备文件:需要在当前程序运行目录准备一个中文文本文件NSFC.txt。 程序运行后,完成对NSFC.txt文件中的中文统计,并输出图形文件展示词云。 图片效果如下: 以上就是本文的全部内容,希望对大家的

  • 本文向大家介绍基于Python词云分析政府工作报告关键词,包括了基于Python词云分析政府工作报告关键词的使用技巧和注意事项,需要的朋友参考一下 前言 十三届全国人大三次会议作了政府工作报告。这份政府工作报告仅有10500字左右,据悉是改革开放40年以来最短的一次。受到疫情影响,今年的两会会议适当缩短,政府工作报告也大幅压缩,体现了“实干为要”的理念。那么,这份政府工作报告突出强调了哪些关键词呢