提高lucene建立索引的效率(大数据量时)

第一种方式:IndexWriter类中关系到索引创建效率的几个方法

一、SetMergeFactor(合并因子)

SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,

将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引的速度较快。

MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。

二、SetMaxBufferedDocs(最大缓存文档数)

SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目,

设置较大的数目可以加快建索引速度,默认为10。

三、SetMaxMergeDocs(最大合并文档数)

SetMaxMergeDocs是控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,

默认Integer.MAX_VALUE,无需修改。

在创建大量数据的索引时,我们会发现索引过程的瓶颈在于大量的磁盘操作,如果内存足够大的话,

我们应当尽量使用内存,而非硬盘。可以通过SetMaxBufferedDocs来调整,增大Lucene使用内存的次数。

如果内存足够大的话,我们也可以在索引过程中完全避免使用硬盘。Lucene支持使用文件系统和内存两种方式创建索引,

我们可以先把索引写入到RAMDirectory,达到一定数量时再批量写进FSDirectory,减少磁盘操作次数。相关的代码如下:

RAMDirectoryrmd=newRAMDirectory();

IndexWriterwriter=newIndexWriter(rmd,newStandardAnalyzer(),true);

while(noteof)//遍历

{

Documentdoc=newDocument();

doc.Add(…);//AddFields

writer.AddDocument(doc);

}

writer.SetUseCompoundFile(true);

writer.Optimize();

writer.Close();

另外,SetUseCompoundFile这个方法可以使Lucene在创建索引库时,会合并多个Segments文件到一个.cfs中。

此方式有助于减少索引文件数量,对于将来搜索的效率有较大影响。

相关推荐