在lucene中使用热门荧光笔

闻鹤龄

2023-03-14

问题内容：

关于apache lucene所提供的热门荧光笔，我有两个问题：

请参阅此功能，您能否解释令牌流参数的使用。
我有几个包含多个字段的大型lucene文档，每个字段中都有一些字符串。现在，我找到了与特定查询最相关的文档。现在找到该文档，因为查询中的几个单词可能与文档中的单词匹配。我想找出查询中的哪些词造成了这种情况。因此，我计划使用Lucene Hit Highlighter。示例：如果查询为“皮肤医生德里”，并且标题为“皮肤科医生”的文档包含单词“皮肤”和“医生”，则在突出显示突出显示后，我应该能够从查询中分离出“皮肤”和“医生”。我一直在尝试为此编写代码几周了。无法得到我想要的。请问你能帮帮我吗？

提前致谢。

更新：

当前方法：我创建一个包含文档中所有单词的查询。

Field[] field = doc.getFields("description");
String desc = "";
for (int j = 0; j < field.length; ++j) {
     desc += field[j].stringValue() + " ";
}

Query q = qp.parse(desc);
QueryScorer scorer = new QueryScorer(q, reader, "description");
Highlighter highlighter = new Highlighter(scorer);

String fragment = highlighter.getBestFragment(analyzer, "description", text);

它适用于小型文档，但不适用于大型文档。获得以下堆栈跟踪。

    org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024
    at org.apache.lucene.search.BooleanQuery.add(BooleanQuery.java:152)
    at org.apache.lucene.queryParser.QueryParser.getBooleanQuery(QueryParser.java:891)
    at org.apache.lucene.queryParser.QueryParser.getBooleanQuery(QueryParser.java:866)
    at org.apache.lucene.queryParser.QueryParser.Query(QueryParser.java:1213)
    at org.apache.lucene.queryParser.QueryParser.TopLevelQuery(QueryParser.java:1167)
    at org.apache.lucene.queryParser.QueryParser.parse(QueryParser.java:182)

显然，该方法对于大型文档是不合理的。应该怎么做才能纠正这个问题？

顺便说一句，我正在使用FuzzyQuery匹配。

问题答案：

编辑：添加了有关explain（）的一些详细信息。

一些常规介绍：Lucene荧光笔旨在从匹配文档中查找文本片段，并突出显示与查询匹配的标记。

因此，TokenStream参数用于将命中文本分解为标记。然后，荧光笔的评分者对每个令牌评分，以便对片段进行评分并选择要突出显示的片段和令牌。
我相信您做错了。如果您只想了解文档中匹配的查询词，则应使用explain（）方法。基本上，实例化搜索器后，请使用：

Explanation expl = searcher.explain(query, docId);

String asText = expl.toString();

String asHtml = expl.toHtml();

docId是来自搜索结果的原始文档ID。

仅当您确实需要摘录和/或突出显示时，才应使用荧光笔。如果仍要使用荧光笔，请遵循Nicholas
Hrychan的建议
。但是请当心，因为他描述了Lucene 2.4.1 API-如果使用更高级的版本，则应在他说“ SpanScorer”的地方使用“
QueryScorer”。

在lucene中使用热门荧光笔

相关阅读

相关文章

相关问答

相关工具

相关文档