当前位置: 首页 > 工具软件 > word分词 > 使用案例 >

word中文分词 一

董弘新
2023-12-01

        前言:这篇笔记算是 word中文分词 java库的入门笔记,记录下word分词的基本配置,和一个由于经验浅而踩的坑。

感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word

1、maven依赖

<dependency>
  <groupId>org.apdplat</groupId>
  <artifactId>word</artifactId>
  <version>1.3</version>
</dependency>

2、自定义词典和停用词配置

        1)、在classpath目录下新建名为 word.local.conf的文本文件(没有txt后缀) (文件是utf-8编码)

        2)、新建自定义词典文件 mydic.txt,新建停用词词典文件 mystopword.txt。(文件使用utf-8编码,尽量英文文件名)

        3)、word.local.conf增加自定义词典配置,添加一行 "dic.path=H:/mydic.txt ",路径名称随意,文件名就是步骤2新建的

                 文件,也可以使用classpath指定,classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        4)、word.local.conf增加自定义停用词配置,添加一行  stopwords.path= "dic.path=H:/mystopword.txt ",,路径名称随

                 意,文件名就是步骤2新建的文件,也可以使用classpath指定,

                 classpath不能有空格,绝对路径也不能有空格(踩过的坑)。。。

        5)、接下来就算是入门了。。。。。。

 

 类似资料: