lucene的Similarity类
在优化搜索引擎结果时候,经常会重载Similarity类,或者重载的他/她的子类。
在处理长文档时候,lucene自带的评分机制对长文挡打分比较低,这个时候往往要重载Similarity的子类SweetSpotSimilarity类,在生成索引库时候,通过它的对象制定甜区的min/max范围和减少的系数。
这样子长文挡也可能得到一个高分数,排在靠前位置,否则长文挡往往排在后面
这是重载甜区类的代码
class SimilarityOne extends SweetSpotSimilarity { /** * */ private static final long serialVersionUID = 1L; //覆盖了父类的lengthNorm方法自己定义了排序的规则 @Override public float idf(int docFreq, int numDocs) { return (float)6; } }
这是生成索引库时候调用上面的similarityone类:
IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true); //在制作索引的时候使用自定义的一个Similarity SimilarityOne sm = new SimilarityOne(); sm.setLengthNormFactors(1, 50, 0.1f); index.setSimilarity(sm); ////用index生成所引 ......................省略了