当前位置: 首页 > 面试题库 >

将CharFilter与Lucene 4.3.0的StandardAnalyzer一起使用

金烨华
2023-03-14
问题内容

我想一个添加CharFilter到我的StandardAnalyzer。我的意图是从我索引的所有文本中删除标点符号;例如,我希望PrefixQuery“
pf”匹配“ PF Chang’s”或“ zaras”匹配“ Zara’s”。

看来,最简单的攻击方法是在分析之前过滤掉所有标点符号。根据Analyzer的文档包,这意味着我应该使用CharFilter

但是,实际上几乎不可能将a CharFilter插入分析仪!

JavaDoc for
Analyzer.initReader表示“如果要插入CharFilter,请覆盖此内容”。

如果我的代码扩展了Analyzer,则可以扩展initReader,但不能将抽象的createComponents委托给我的基础StandardAnalyzer,因为它受到保护。我不能将tokenStream委托给我的基本分析器,因为它是最终的。因此,分析器的子类似乎无法使用其他分析器来完成其肮脏的工作。

有一门AnalyzerWrapper课程似乎很适合我想要的!我可以提供基本分析器,并且仅覆盖我想要的部分。除了……
initReader已被覆盖以委托给基本分析器,并且此覆盖是“最终的”!mm!

我想我可以把Analyzer它放在org.apache.lucene.analyzers包中,然后可以访问受保护的createComponents方法,但这似乎是一种令人厌恶的hacky方式,可以绕过我本应使用的公共API。

我想念这里刺眼的东西吗?如何修改StandardAnalyzer自定义CharFilter


问题答案:

目的是让您覆盖Analyzer,而不是StandardAnalyzer。这种想法是,您永远不应将分析器实现子类化(此处有一些讨论)。但Analyzer的实现非常简单,将一个CharFilter添加到Analyzer中,实现与StandardAnalyzer相同的标记器/过滤器链,如下所示:

public final class MyAnalyzer {
    @Override
    protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
        final StandardTokenizer src = new StandardTokenizer(matchVersion, reader);
        TokenStream tok = new StandardFilter(matchVersion, src);
        tok = new LowerCaseFilter(matchVersion, tok);
        tok = new StopFilter(matchVersion, tok, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
        return new TokenStreamComponents(src, tok);
    }

    @Override
    protected Reader initReader(String fieldName, Reader reader) {
        //return your CharFilter-wrapped reader here
    }
}


 类似资料:
  • 问题内容: 因此,我一直在为这个(应该是)简单的练习而绞尽脑汁,以使该程序将日期字符串转换为对象,对其进行格式化,并在完成后将其作为字符串再次返回。 这是程序的最后一点,它从文件中获取一小段文本,将其分解为单独的记录,然后将记录分解为单独的数据并将它们分配给个人对象。 我已经在多个位置检查了该代码,并且该代码完全执行了应该执行的操作,直到调用了format函数(该函数抛出)为止。为对象分配了应该分

  • 问题内容: 我想在目录中获取具有特定扩展名的文件列表。在中,我看到了可以做到这一点的方法。 由于我需要特定的扩展名,因此我创建了一个。但是,当我与此一起使用时,出现编译错误。我以为自以来,我应该能够做到这一点。代码如下: 最后一行显示编译错误: 类型的方法不适用于类型的参数 我正在尝试使用,不是。为何编译器无法识别这一点? 如果我编写自己的扩展筛选器,则此方法有效。我宁愿使用而不愿自己写。我究竟做

  • 问题内容: 我正在尝试在我的watchKit应用中使用firebase数据库。我已经在我的iPhone应用程序上开发了此功能,但是发现在我的Watch应用程序上很难做到这一点。当我尝试将firebase导入watch应用程序的VC类中时,它正在创建error 。 可以在Watch app中使用Firebase吗? 问题答案: 可悲的是,没有支持,并由于这样的事实,有没有支持在这些版本中,并高度依赖

  • 问题内容: 当请求来自Ajax.ActionLink(使用Http方法发布)时,是否可以在控制器操作上使用ValidateAntiForgeryToken属性。替代方法似乎是手动滚动JQuery Ajax请求,但我很好奇MVC Ajax框架中是否有办法。 问题答案: 我还没看过。您必须将令牌放入POST中记录的数据中。每次都使用相同的防伪令牌ID(或名称,我不记得了),但是您必须非常小心,并确保您

  • 问题内容: 最近,我开始与路由器一起使用来构建应用程序。 我通常将use 用于依赖项和代码管理。但是,当我尝试包含包含语法的文件时会出现问题。 这就是我目前所拥有的: 如何将IndexComponent放在其自己的文件中并在此文件中调用它?我尝试了通常的方法(与骨干和反应相同),但是由于语法错误。 问题答案: 所以我自己弄清楚了。 我从此仓库获得了必要的文件和说明:jsx- requirejs-p

  • 所以我一定是错过了什么,我希望执行一个语句块,如果可选的存在,否则抛出异常。 如果不是null,则打印hellow world。如果是,则抛出运行时异常。