当前位置: 首页 > 工具软件 > Bleve > 使用案例 >

bleve初探(一)bleve中一些全文术语

顾嘉良
2023-12-01

 

核心是Analyzer,一般翻译成分词器:

 

Analyzer 

分词器(Analyzer)是将输入文本(Text)最终转换成一个标记段流(Token Stream)的类似管道的结构,或者说处理流程。
由0个或者多个字符过滤器(Character Filter),1个标记段生成器(Tokenizer),0个或者多个标记段过滤器(Token Filter)组成

 

流程很清晰,下面依次解释涉及的术语:

 

Term

词条(Term)就是一串unicode编码的字符

Text

文本(Text)就是一个常规的词条(Term),即一串unicode编码的字符,但一般表示未处理数据

Token

标记段(Token)是在文档或字段中特定位置出现的词条(Term)

Token Stream

标记段流(Token Stream)就是一堆标记段(Token)

Character Filter

字符过滤器(Character Filter),处理输入文本,一般用来过滤掉没有价值的字符,做点其他的处理也不是不可以

Tokenizer

标记段生成器(Tokenizer)将输入文本(Text) 分割成一个或者多个标记段(Token),经典的场景,比如把一句话分割成好多词

Token Filter

标记段过滤器(Token Filter)处理标记段流(Token Stream)中每个标记段(Token)产出另外一个标记段流(Token Stream)
结果可能是原来的标记段流(Token Stream),也可能多了、少了或者改变了某些标记段(Token)

 

Analyzer 构成:

Text  ->  Character Filter[0,n]  ->  Term  ->  Tokenizer  ->  Token Stream  ->  Token Filter[0,n]  ->  Token Stream

转载于:https://www.cnblogs.com/adarking/p/9176481.html

 类似资料: