当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

word分词

Java分布式中文分词组件

授权协议 GPL

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者方季同

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法，还提供了10种文本相似度算法，同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

使用案例

word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比

因项目需要，对目前比较流行的几个分词器进行了对比，ansj_seg是最美好的一个分词器，智能、强悍，对索引和最大颗粒分割都照顾得很到位，词库的树形读取也堪称经典；如果搜索只追求绝对准确度不考虑搜索结果最大化，jcseg效果还是很好的；如果只做站内搜索，不是海量互联网搜索引擎，可以考虑使用IKanalyzer，鼎鼎大名的知乎网用的也是IKanalyzer分词器；如果做推荐做分类可能会使用jcseg，
word中文分词一

前言：这篇笔记算是 word中文分词 java库的入门笔记，记录下word分词的基本配置，和一个由于经验浅而踩的坑。感谢word分词的作者，word分词的github地址：https://github.com/ysc/word 1、maven依赖 <dependency> <groupId>org.apdplat</groupId> <artifactId>word</
word分词的使用文档

word分词的git总是打不开，把内容转过来方便查看分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt d:/wor
java中使用word分词器

pom.xml添加maven依赖  <dependency> <groupId>org.apdplat</groupId> <artifactId>word</artifactId> <version>1.2</version> </dependency> WordFi
在java中使用word分词工具进行简单分词

在java中使用word分词工具进行简单分词大佬关于word分词组件使用的总结： https://my.oschina.net/apdplat/blog/228619#OSC_h3_3 简单应用：添加依赖 <dependency> <groupId>org.apdplat</groupId> <artifactId>word</artifactId> <version>
word分词--实例---用法

详细内容查看： https://blog.csdn.net/qq_40374604/article/details/83418856 https://my.oschina.net/apdplat/blog/228619#OSC_h4_8 Maven依赖：在pom.xml中指定dependency，可用版本有1.0、1.1、1.2，1.3： <dependencies> <depend

word分词

同类工具

相关阅读

相关文章

相关问答

相关文档