分析(Analysis)
优质
小牛编辑
131浏览
2023-12-01
在前面的一章中,我们已经看到Lucene使用IndexWriter使用Analyzer分析Document(s) ,然后根据需要创建/打开/编辑索引。 在本章中,我们将讨论分析过程中使用的各种类型的Analyzer对象和其他相关对象。 了解Analysis过程以及分析器的工作原理可以让您深入了解Lucene如何为文档编制索引。
以下是我们将在适当时候讨论的对象列表。
S.No. | 类和描述 |
---|---|
1 | Token 令牌表示文档中的文本或单词,其中包含相关的详细信息,如元数据(位置,起始偏移,结束偏移,标记类型及其位置增量)。 |
2 | TokenStream TokenStream是分析过程的输出,它包含一系列标记。 这是一个抽象类。 |
3 | Analyzer 这是每种类型的Analyzer的抽象基类。 |
4 | WhitespaceAnalyzer 该分析器基于空格分割文档中的文本。 |
5 | SimpleAnalyzer 此分析器基于非字母字符拆分文档中的文本,并将文本放在小写中。 |
6 | StopAnalyzer 该分析器与SimpleAnalyzer一样工作,并删除常用词,如'a', 'an', 'the',等。 |
7 | StandardAnalyzer 这是最复杂的分析器,能够处理名称,电子邮件地址等。它会降低每个令牌的大小,并删除常用的单词和标点符号(如果有的话)。 |