前言
我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。
业务场景
有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:
分词思路
在Solr的schema.xml文件中,有这样的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType>
对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。
修改源码
在Java工程中引入如下jar包:
<dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-core</artifactId> <version>6.0.0</version> </dependency>
参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:
package com.trainning.project.custom; import java.util.Arrays; import java.util.Collection; import java.util.Map; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer; import org.apache.lucene.analysis.util.TokenizerFactory; import org.apache.lucene.util.AttributeFactory; /** * @author JiangChao * @date 2017年4月2日下午3:41:13 */ public class MyVerticalLineTokenizerFactory extends TokenizerFactory{ public static final String RULE_JAVA = "java"; public static final String RULE_UNICODE = "unicode"; private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE); private final String rule; /** Creates a new MyVerticalLineTokenizerFactory */ public MyVerticalLineTokenizerFactory(Map<String,String> args) { super(args); rule = get(args, "rule", RULE_NAMES, RULE_JAVA); if (!args.isEmpty()) { throw new IllegalArgumentException("Unknown parameters: " + args); } } @Override public Tokenizer create(AttributeFactory factory) { switch (rule) { case RULE_JAVA: return new MyVerticalLineTokenizer(factory); case RULE_UNICODE: return new UnicodeWhitespaceTokenizer(factory); default: throw new AssertionError(); } } }
具体做分词的MyVerticalLineTokenizer代码如下
package com.trainning.project.custom; import org.apache.lucene.analysis.util.CharTokenizer; import org.apache.lucene.util.AttributeFactory; /** * @author JiangChao * @date 2017年4月2日下午9:46:18 */ public class MyVerticalLineTokenizer extends CharTokenizer { public MyVerticalLineTokenizer() { } public MyVerticalLineTokenizer(AttributeFactory factory) { super(factory); } /** Collects only characters which do not satisfy * 参数c指的是term的ASCII值,竖线的值为 124 */ @Override protected boolean isTokenChar(int c) { return !(c == 124); } }
这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:
/** Collects only characters which do not satisfy * 参数c指的是term的ASCII值,逗号的值为 44 */ @Override protected boolean isTokenChar(int c) { return !(c == 44); }
整合
代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field
<fieldType name="vertical_text" class="solr.TextField"> <analyzer> <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/> </analyzer> </fieldType> <field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意这里的class是刚才自己写的分词器的完整类名。
打开Solr主页,在Analysis页面测试一下,是否实现了预期?
源码下载:
GitHub:下载地址
本地下载:链接地址
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对小牛知识库的支持。
我想根据特殊字符(如“=”)将一个句子拆分为单词。我尝试了以下代码,但无法得到确切答案,请参阅我的代码: 代码的输出是: 0 C: D: E:=99.993340#0.000000#0.035810#0.000000#0.000179#0.000358#0.000000#0.000000#1.999614#3071.407671_Total=99.993340#0.000000#0.035810#
问题内容: 我正在使用elasticsearch 1.1.2。 我在可搜索字段上使用具有不同权重的多重匹配查询。 例: {“ multi_match”:{“ query”:“这是一个测试”,“ fields”:[“ title ^ 3”,“ description ^ 2”,“ body”]}} 因此,在我的示例中,标题的重要性是正文的三倍。 我想根据找到的匹配项为每个字段自定义权重。 假设我搜索
词库管理 用户可以自定义词库,自定义词也可以定义近义词。自定义词和近义词会用来优化分词、匹配算法等,可以提高问答精准度。 点击“添加词库”,为词库起一个名字,比如“课程学习”,如下图: 点击“确认”进入词库编辑页面,可以添加词库下的词汇,并配置每一个词的近义词。 也可进行词库的批量添加,在词库管理界面点击批量操作对词库进行批量导入、批量导出、批量删除等。
我有一个问题与搜索的特殊字符在solr。我的文档有一个字段标题,有时它可以像泰坦尼克号-1999(它有字符-)。当我试图搜索索尔与"-"我收到一个400错误。我试图逃避这个角色,所以我尝试了像“-”和“\-”这样的东西。有了这些变化,solr不会用错误来回应我,但它会返回0个结果。 如何在solr admin中搜索具有该特殊字符(如“-”或“”?)的内容??? 问候 在这里更新您可以看到我当前的s
问题内容: 我正在尝试索引包含连字符但不包含空格,句点或任何其他标点符号的字符串。我不想基于连字符对单词进行拆分,而是希望将连字符作为索引文本的一部分。 例如,我的6个文本字符串将是: 杂志播放 马杂志 在线杂志 最佳杂志 杂志之友 杂志玩游戏 我希望能够在这些字符串中搜索 包含“ play” 或 以“ magazine”开头 的 文本 。 我已经能够使用 ngram 使包含“播放”的文本正常工作
我的文件:syn.txt 一切都很好,除了同义词: 我做了一些研究,我发现了以下几点: 所以我试图改变我的配置文件,并在索引中添加过滤器,但它不起作用。 什么东西有什么想法吗?