问题：

使用标准分析仪擦洗Lucene搜索词

赵浩邈

2023-03-14

我们正在用搜索词字符串构建bool查询来搜索Lucene索引。我希望使用标准分析器分析这些字符串，我们使用的分析器用于索引。例如，foo-bar 1-2-3应该分解为foo，bar，1-2-3，因为Lucene文档声明连字符会导致数字保持在一起，但单词会被标记化。最好的方法是什么？

目前，我正在通过QueryParser运行我的搜索项字符串。

QueryParser parser = new QueryParser("", new StandardAnalyzer()); 
Query query = parser.parse(aSearchTermString);

这样做的问题是插入了引号。例如，foo-bar 1-2-3变为foo bar，1-2-3，不会返回任何内容，因为Lucene会将foo-bar标记为foo和bar.

我绝对不想通过删除带有replace的引号来解决这种情况，因为我觉得我可能遗漏了一些东西或做了一些不正确的事情。

共有1个答案

澹台啸

2023-03-14

我实际上得到了不同的结果Standard ardAnalyzer。考虑以下代码（使用Lucene v4）：

public class Tokens {

    private static void printTokens(String string, Analyzer analyzer) throws IOException {
        System.out.println("Using " + analyzer.getClass().getName());
        TokenStream ts = analyzer.tokenStream("default", new StringReader(string));
        OffsetAttribute offsetAttribute = ts.addAttribute(OffsetAttribute.class);
        CharTermAttribute charTermAttribute = ts.addAttribute(CharTermAttribute.class);

        while(ts.incrementToken()) {
            int startOffset = offsetAttribute.startOffset();
            int endOffset = offsetAttribute.endOffset();
            String term = charTermAttribute.toString();
            System.out.println(term + " (" + startOffset + " " + endOffset + ")");
        }
        System.out.println();
    }

    public static void main(String[] args) throws IOException {
        printTokens("foo-bar 1-2-3", new StandardAnalyzer(Version.LUCENE_40));
        printTokens("foo-bar 1-2-3", new ClassicAnalyzer(Version.LUCENE_40));

        QueryParser standardQP = new QueryParser(Version.LUCENE_40, "", new StandardAnalyzer(Version.LUCENE_40));
        BooleanQuery q1 = (BooleanQuery) standardQP.parse("someField:(foo\\-bar\\ 1\\-2\\-3)");
        System.out.println(q1.toString() + "     # of clauses:" + q1.getClauses().length);
    }
}

以上印刷品：

Using org.apache.lucene.analysis.standard.StandardAnalyzer
foo (0 3)
bar (4 7)
1 (8 9)
2 (10 11)
3 (12 13)

Using org.apache.lucene.analysis.standard.ClassicAnalyzer
foo (0 3)
bar (4 7)
1-2-3 (8 13)

someField:foo someField:bar someField:1 someField:2 someField:3     # of clauses:5

因此，上面的代码证明了StandardAnalyzer，与例如ClassicalAnalyzer不同，应该将1-2-3拆分为不同的标记-完全按照您的需要。对于查询，您需要转义每个关键字，包括空格，否则QP认为这有不同的含义。

如果您不想转义查询字符串，则始终可以手动将其标记化（如上面的printTokens方法），然后使用TermQuery包装每个标记，并将所有TermQuery堆叠到BooleanQuery中。

类似资料：

Lucene：用部分词搜索

我正在努力在我们的应用程序中集成Lucene。Lucene目前正在工作，例如当我搜索“上传”时，文档中有一些叫做“上传”的文本，那么它就工作了，但是当我搜索“上传”时，那么它就不工作了。有什么想法吗？代码：谢谢你。
使用Sitecore搜索解析lucene查询

我正在使用Sitecore搜索数据库中的项目。
Lucene 索引和搜索

bugu-mongo 2.x版本集成了Lucene的功能。当往MongoDB中新增一个Document时，能自动为该Document建立Lucene索引。相应的，当MongoDB中的Document被修改、删除时，对应的Lucene索引也会修改、删除。另外，bugu-mongo还提供了对Lucene搜索的支持。根据Lucene索引进行搜索的时候，搜索结果能自动转换成对应的Entity对象。在L
lucene查询搜索

我的任务是使用lucene在我们的产品表中搜索。我已经创建了一个索引，正在使用带有多个字段的QueryParser进行搜索，但结果不是我所需要的。我有一个存储为LM10的产品，但如果搜索词是LM 10，我希望能够找到它，但如果搜索词是Fred LM10或Fred LM 10，它也必须能够匹配。你知道我如何在Lucene做到这一点吗。提前谢谢
Lucene：使用单词搜索查找结果

我试图用一个词作为查询来查找匹配项，但它似乎找不到。我正在使用标准分析仪，但找不到准确的结果。我的索引文档是：如果使用通配符查询：它会返回内容：“敏捷的棕色狐狸跳过懒惰的狗” 如果使用术语查询：它会返回内容：“敏捷的棕色狐狸跳过懒惰的狗” 现在，我想用“狐狸”作为我的新名词但是我不知道哪个是正确的查询，或者如何做。我已经尝试了QueryParser、TermQuery和MultiPhra
在lucene索引中搜索

在测试此文本时，我在要在文本中搜索的列上创建了lucene（3.0.1）索引：如果我按关键字搜索，它会给出结果，但按我正在使用standardAnalyzer：因为已设置，它应创建令牌，并且应存在$GLD。Analyzer将从文本中删除停止字，因为word也将在该过程中删除。

使用标准分析仪擦洗Lucene搜索词

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档