当前位置: 首页 > 工具软件 > mmseg4j > 使用案例 >

solr4.5 mmseg4j 分词器配置

花永昌
2023-12-01
1、下载mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 版本选择mmseg4j-1.9.1.zip
2、解压mmseg4j-1.9.1
3、将解压后的\mmseg4j-1.9.1\dist中的jar拷贝到tomcat下solr的lib中
4、将\mmseg4j-1.9.1\中的data拷贝到solr/example/solr/collection1/下并重命名为dic(mmseg4j-1.9.*默认jar包中默认就有词典了
5、在schema.xml中配置mmseg4j,增加到<types>标签下:
<!-- mmseg4j分词器 -->
 <fieldType name="text_mmseg4j" class="solr.TextField" >
 <analyzer type="index">
<!--此处为分词器词典所处位置-->
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
 </analyzer>
 <analyzer type="query">
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
 </analyzer>
 </fieldType>

6、 用编辑器打开collection1/conf/schema.xml配置文件,找到<fields>…</fields>,修改需要使用中文分词的字段,type=”text_mmseg4j",
<field name="username" type="text_mmseg4j" indexed="true" stored="true" />

7、以上分词配置完毕


 类似资料: