lucene的Similarity类

在优化搜索引擎结果时候,经常会重载Similarity类,或者重载的他/她的子类。

在处理长文档时候,lucene自带的评分机制对长文挡打分比较低,这个时候往往要重载Similarity的子类SweetSpotSimilarity类,在生成索引库时候,通过它的对象制定甜区的min/max范围和减少的系数。

这样子长文挡也可能得到一个高分数,排在靠前位置,否则长文挡往往排在后面

这是重载甜区类的代码

class SimilarityOne extends SweetSpotSimilarity {
    /**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//覆盖了父类的lengthNorm方法自己定义了排序的规则
	@Override
	 public float idf(int docFreq, int numDocs) {
	    return (float)6;
	  }

}

这是生成索引库时候调用上面的similarityone类:

IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
		//在制作索引的时候使用自定义的一个Similarity
		SimilarityOne sm = new SimilarityOne();
		sm.setLengthNormFactors(1, 50, 0.1f);
		index.setSimilarity(sm); ////用index生成所引
......................省略了