当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

ideaseg

基于 NLP 的中文分词器

授权协议 Apache

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者养淇

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

软件概览

ideaseg 是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器，包含了最新的模型数据，同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

HanLP 相比其他诸如 IK、jcseg 等分词器而言，在分词的准确率上有巨大的提升，但速度上有所牺牲。通过对 HanLP 进行优化配置，ideaseg 在准确度和分词速度上取得了最佳的平衡。

与其他基于 HanLP 的插件相比，ideaseg 同步了最新 HanLP 的代码和数据，去除了无法商用的相关内容；实现了自动配置；包含了模型数据，无需自行下载，使用简单方便。

ideaseg 提供三个模块包括：

core ~ 核心分词器模块
elasticsearch ~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本)
opensearch ~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)

相关资料

基于NLP/ML的摘要分类

null
基于 python 的高效中文文本切词

安装jieba分词工具在https://pypi.python.org/pypi/jieba/下载jieba-0.38.zip 解压后执行： python setup.py install 试验切词效果创建testjieba.py文件内容如下： # coding:utf-8 #!/usr/local/bin/python import jieba seg_list = jieba.cut(
NLP：从文本中检索词汇

我有一些不同语言的文本，可能有一些拼写错误或其他错误，我想检索他们自己的词汇。一般来说，我对自然语言处理没有经验，所以可能我使用了一些不正确的单词。关于词汇，我指的是一种语言的单词集合，其中每个单词都是唯一的，不考虑性别、数字或时态的屈折变化（例如，think、thinks和thought are都是考虑-思考）。这是一个主要问题，所以让我们把它简化为一种语言的词汇检索，例如英语，并且没有错误
genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
Python基于jieba, wordcloud库生成中文词云

本文向大家介绍Python基于jieba, wordcloud库生成中文词云，包括了Python基于jieba, wordcloud库生成中文词云的使用技巧和注意事项，需要的朋友参考一下代码如下准备文件：需要在当前程序运行目录准备一个中文文本文件NSFC.txt。程序运行后，完成对NSFC.txt文件中的中文统计，并输出图形文件展示词云。图片效果如下：以上就是本文的全部内容，希望对大家的
基于Python词云分析政府工作报告关键词

本文向大家介绍基于Python词云分析政府工作报告关键词，包括了基于Python词云分析政府工作报告关键词的使用技巧和注意事项，需要的朋友参考一下前言十三届全国人大三次会议作了政府工作报告。这份政府工作报告仅有10500字左右，据悉是改革开放40年以来最短的一次。受到疫情影响，今年的两会会议适当缩短，政府工作报告也大幅压缩，体现了“实干为要”的理念。那么，这份政府工作报告突出强调了哪些关键词呢

ideaseg

同类工具

相关阅读

相关文章

相关问答

相关文档