LuceneContacts
packagecom.yulong.lucene.core;
importnet.teamhot.lucene.ThesaurusAnalyzer;
importorg.apache.lucene.analysis.Analyzer;
importorg.apache.lucene.analysis.cjk.CJKAnalyzer;
importorg.apache.lucene.analysis.cn.ChineseAnalyzer;
importorg.wltea.analyzer.lucene.IKAnalyzer;
publicclassLuceneContacts{
//LUCENE跟文件路径
publicstaticStringlucene_root_path="X:/index";
//临时文件大小
publicstaticinttempsize=0;
//临时文件检查时间间隔(分钟)
publicstaticinttimesize=5;
//优先提取的文档数
publicstaticinttopsszie=100;
//索引读写池子
//publicstaticLucenePooliwpool=null;
publicstaticLucenePooliwpool=newLucenePool();
//系统支持的分词系统
publicstaticAnalyzeranalyzers[]=newAnalyzer[4];
static{
analyzers[0]=newCJKAnalyzer();
analyzers[1]=newThesaurusAnalyzer();//自定义词库包
analyzers[2]=newChineseAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件,一行一词
analyzers[3]=newIKAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件,一行一词
}
//WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文
//SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文http://www.itonghui.com
//StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文
//StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分.http://www.chinakdd.com
//ChineseAnalyzer:来自于Lucene的sandbox.性能类似于StandardAnalyzer,缺点是不支持中英文混和分词.
//CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同但是在汉语的分词上,不能过滤掉标点符号,即使用二元切分
//当前使用的分词
publicstaticAnalyzeranalyzer=analyzers[1];
//==============================各类文件的路径组成======================
//新闻系统的索引跟路径
publicstaticStringlucene_cms_root_path="cmsLucene/";
//文章操作记录备份
publicstaticStringlucene_cms_logs_path="cmsLogs/cmshistory";
}