前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。
感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word
1、maven依赖
<dependency>
<groupId>org.apdplat</groupId>
<artifactId>word</artifactId>
<version>1.3</version>
</dependency>
2、自定义词典和停用词配置
1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)
2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)
3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的
文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。
4)、word.local.conf增加自定义停用词配置,添加一行 stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随
意,文件名就是步骤2新建的文件,也可以使用classpath指定,
classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。
5)、接下来就算是入门了。。。。。。