问题：

向lucene tokenstream添加令牌

宇文航

2023-03-14

我编写了一个tokenfilter，它在流中添加标记。

private final LinkedList<String> extraTokens = new LinkedList<String>();
private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
private State savedState;

@Override
public boolean incrementToken() throws IOException {
    if (!extraTokens.isEmpty()) {
        // Do we not loose/overwrite the current termAtt token here? (*)
        restoreState(savedState);
        termAtt.setEmpty().append(extraTokens.remove());
        return true;
    }
    if (input.incrementToken()) {
        if (/* condition */) {
           extraTokens.add("fo");
           savedState = captureState();
        }
        return true;
    }
    return false;
}

 (a) -> (b) -> (c) -> ...

    (a)
   /   \
(b)    (bb)
   \   /
    (c)
     |
    ...

假定文本foo bar baz，其中fo是foo的词干，qux是bar baz的同义词，那么我是否构造了正确的属性表？

+--------+---------------+-----------+--------------+-----------+
|  Term  |  startOffset  | endOffset | posIncrement | posLenght |
+--------+---------------+-----------+--------------+-----------+
|  foo   |       0       |     3     |      1       |     1     |
|  fo    |       0       |     3     |      0       |     1     |
|  qux   |       4       |     11    |      0       |     2     |
|  bar   |       4       |     7     |      1       |     1     |
|  baz   |       8       |     11    |      1       |     1     |
+--------+---------------+-----------+--------------+-----------+

夹谷腾

2023-03-14

基于属性的API的工作原理是，在每次调用incrementToken()时，分析器链中的每个TokenStream都会以某种方式修改某个Attribute的状态。然后链中的最后一个元素产生最后的令牌。

每当分析器链的客户端调用incrementToken()时，最后一个TokenStream会将某个属性的状态设置为表示下一个令牌所需的任何状态。如果不能这样做，它可以在其输入上调用incrementToken()，让前面的TokenStream执行其工作。这一直持续到最后一个tokenstream返回false，这表明没有更多的标记可用。

这实际上不会产生您所显示的图形，而是在“b”之后插入“bb”，所以它实际上是

(a) -> (b) -> (bb) -> (c)

那么，你为什么首先要拯救国家呢？在生成令牌时，您要确保短语查询或高亮显示能够正确工作。当文本“a b c”且“bb”是“b”的同义词时，您会期望短语query“b c”以及“bb c”起作用。你必须告诉html" target="_blank">索引，“B”和“BB”都在相同的位置。Lucene为此使用了一个位置增量，默认情况下，位置增量为1，这意味着每个新的令牌（读取、调用incrementToken())都在前一个令牌之后1个位置。所以，对于最终的位置，产生的流是

(a:1) -> (b:2) -> (bb:3) -> (c:4)

当你真的想

(a:1) — -> (b:2)  -> — (c:3)
      \              /
        -> (bb:2) ->

private final PositionIncrementAttribute posIncAtt = addAttribute(PositionIncrementAttribute.class);
// later in incrementToken
restoreState(savedState);
posIncAtt.setPositionIncrement(0);
termAtt.setEmpty().append(extraTokens.remove());

一个stemmer只改变令牌，它通常不会产生新的令牌，也不会改变位置增量或偏移量。此外，由于位置增量意味着当前术语应该出现在PositionIncrement位置之后，因此QUX的增量应该为1，因为它是的之后的下一个标记，而Bar的增量应该为0，因为它与QUX位于相同的位置。桌子宁愿看起来像

+--------+---------------+-----------+--------------+-----------+
|  Term  |  startOffset  | endOffset | posIncrement | posLenght |
+--------+---------------+-----------+--------------+-----------+
|  fo    |       0       |     3     |      1       |     1     |
|  qux   |       4       |     11    |      1       |     2     |
|  bar   |       4       |     7     |      0       |     1     |
|  baz   |       8       |     11    |      1       |     1     |
+--------+---------------+-----------+--------------+-----------+

作为一个基本规则，对于多术语同义词，其中“ABC”是“a b C”的同义词，您应该看到，

 PositionIncrement（“ABC”）>0（第一个令牌的增量）
 PositionIncrement(*)>=0（位置不得后退）
 startOffset（“abc”）==startOffset（“a”）和endOffset（“abc”）==endOffset（“c”） 
    
    实际上，处于相同（starttend）位置的令牌必须具有相同（starttend）偏移量 
   
希望这有助于揭示一些线索。

向lucene tokenstream添加令牌

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档