LuceneContacts

packagecom.yulong.lucene.core;

importnet.teamhot.lucene.ThesaurusAnalyzer;

importorg.apache.lucene.analysis.Analyzer;

importorg.apache.lucene.analysis.cjk.CJKAnalyzer;

importorg.apache.lucene.analysis.cn.ChineseAnalyzer;

importorg.wltea.analyzer.lucene.IKAnalyzer;

publicclassLuceneContacts{

//LUCENE跟文件路径

publicstaticStringlucene_root_path="X:/index";

//临时文件大小

publicstaticinttempsize=0;

//临时文件检查时间间隔(分钟)

publicstaticinttimesize=5;

//优先提取的文档数

publicstaticinttopsszie=100;

//索引读写池子

//publicstaticLucenePooliwpool=null;

publicstaticLucenePooliwpool=newLucenePool();

//系统支持的分词系统

publicstaticAnalyzeranalyzers[]=newAnalyzer[4];

static{

analyzers[0]=newCJKAnalyzer();

analyzers[1]=newThesaurusAnalyzer();//自定义词库包

analyzers[2]=newChineseAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件,一行一词

analyzers[3]=newIKAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件,一行一词

}

//WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文

//SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文http://www.itonghui.com

//StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文

//StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分.http://www.chinakdd.com

//ChineseAnalyzer:来自于Lucene的sandbox.性能类似于StandardAnalyzer,缺点是不支持中英文混和分词.

//CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同但是在汉语的分词上,不能过滤掉标点符号,即使用二元切分

//当前使用的分词

publicstaticAnalyzeranalyzer=analyzers[1];

//==============================各类文件的路径组成======================

//新闻系统的索引跟路径

publicstaticStringlucene_cms_root_path="cmsLucene/";

//文章操作记录备份

publicstaticStringlucene_cms_logs_path="cmsLogs/cmshistory";

}

相关推荐