lucene的Similarity类

繌子

2010-06-27

在优化搜索引擎结果时候，经常会重载Similarity类，或者重载的他/她的子类。

在处理长文档时候，lucene自带的评分机制对长文挡打分比较低，这个时候往往要重载Similarity的子类SweetSpotSimilarity类，在生成索引库时候，通过它的对象制定甜区的min/max范围和减少的系数。

这样子长文挡也可能得到一个高分数，排在靠前位置，否则长文挡往往排在后面

这是重载甜区类的代码

class SimilarityOne extends SweetSpotSimilarity {
    /**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//覆盖了父类的lengthNorm方法自己定义了排序的规则
	@Override
	 public float idf(int docFreq, int numDocs) {
	    return (float)6;
	  }

}

这是生成索引库时候调用上面的similarityone类：

IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
		//在制作索引的时候使用自定义的一个Similarity
		SimilarityOne sm = new SimilarityOne();
		sm.setLengthNormFactors(1, 50, 0.1f);
		index.setSimilarity(sm); ////用index生成所引
......................省略了

similarity lucene

繌子

0 关注 0 粉丝 0 动态

相关推荐

【60】什么是人脸识别；One-Shot学习；Similarity函数

对应的，如果某个人（编号7）不在数据库中，通过函数d dd将他们的照片两两进行比较最后希望d dd会对所有的比较都输出一个很大的值这就证明这个人并不是数据库中4个人的其中一个。要注意在这过程中是如何解决一次学习问题的只要能学习这个函数d dd，通过输入一对

URML 2020-02-29

计算两组标签相似度算法——levenshtein distance 编辑距离算法

　　标签在数据分析中起到很重要的作用，给用户打标签，给商品打标签，给新闻打标签，好的标签可以为我们后期分析数据时提供很大的便利。有时我们需要计算两个对象之间标签的相似度。目前学习的算法是levenshtein distance 编辑距离算法。Decimal

faiculty 2020-02-17

论文笔记：Cross-Domain Visual Matching via Generalized Similarity Mea

Cross-Domain Visual Matching，即跨域视觉匹配。所谓跨域，指的是数据的分布不一样，简单点说，就是两种数据「看起来」不像。这篇论文提出用一种通用的相似模型来匹配两个域之间的特征，并将其和特征提取流程融合在一起，统一成一个 end-t

BitTigerio 2018-01-10

繌子

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号