当前位置: 首页 > 工具软件 > Lucene4c > 使用案例 >

Lucene之索引建立

督烨赫
2023-12-01
[b]Lucene[/b]可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.

[color=blue]Index的建立大致步骤:[/color]

[color=gray]1.源数据文本化[/color]
由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到[url=http://lucene.apache.org/tika/]Tika[/url]框架.

[color=gray]2.当源数据文本化后,需要对其做处理—[b]analysis[/b][/color]
这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.

[color=gray]3.文件的存储[/color]
分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.

例如:
Xxx – abcd cde x
索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.

[img]http://dl.iteye.com/upload/attachment/210189/d59b617a-5e4c-38d7-9db4-3256aa4516b2.jpg[/img]
每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.
每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.

块文件命名更是 segments_<N>,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.

addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同.
addDocument(Document,Anayzer)


[b]添加索引[/b]
a.new Document
b.new Field->添加内容
c.document.add(field);
d.indexWriter.add(document);

Document doc = new Document();
doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES,
Field.Index.NOT_ANALYZED));
doc.add(new Field("city", text[i] /*array*/, Field.Store.YES,
Field.Index.ANALYZED));
writer.addDocument(doc);

[b]删除索引[/b]
在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.
a.Term/Query
b.indexWriter.deleteDocument(??)

deleteDocuments(Term)// deletes all documents containing the provided term.
deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array.
deleteDocuments(Query)// deletes all documents matching the provided query.
deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.


@Test
public void testDelete() throws Exception{
IndexWriter iw = new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
Term term = new Term("id", "1");
iw.deleteDocuments(term);
iw.optimize();
assertEquals(iw.numDocs(), 1);
iw.close();
}

通过各Term删除单个document.
IndexWriter,IndexReader中的maxDoc()与numDocs()
maxDoc()返回下一个可取得文档的内部编号.
numDocs()返回未被删除的document数目.

[b]更新索引[/b]

updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer.
updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.


@Test
public void testUpdate() throws Exception {
IndexWriter iw = new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
Term term = new Term("id", "1");
Document doc = new Document();
doc.add(new Field("id", "3", Field.Store.YES,
Field.Index.NOT_ANALYZED));
iw.updateDocument(term, doc);
iw.optimize();
assertEquals(iw.maxDoc(),2);
iw.close();
}


从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型
Index,Store,TermVector

Index:

Index.ANALYZED
Index.NOT_ANALYZED
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO

查询会用到Field,会关系到Field的存储类型
Store

Store.YES //保存,可以被IndexReader说读取.
Store.NO //不保存.

介于Store与 Index之间的参数,用来提供向量机制的模糊查询
TermVector

TermVector.YES //保存term vectors
TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息)
TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息)
TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息)
TermVector.NO //不保存term vectors
 类似资料: