LuceneContacts

itfafa

2014-11-07

关注关注

packagecom.yulong.lucene.core;

importnet.teamhot.lucene.ThesaurusAnalyzer;

importorg.apache.lucene.analysis.Analyzer;

importorg.apache.lucene.analysis.cjk.CJKAnalyzer;

importorg.apache.lucene.analysis.cn.ChineseAnalyzer;

importorg.wltea.analyzer.lucene.IKAnalyzer;

publicclassLuceneContacts{

//LUCENE跟文件路径

publicstaticStringlucene_root_path="X:/index";

//临时文件大小

publicstaticinttempsize=0;

//临时文件检查时间间隔(分钟)

publicstaticinttimesize=5;

//优先提取的文档数

publicstaticinttopsszie=100;

//索引读写池子

//publicstaticLucenePooliwpool=null;

publicstaticLucenePooliwpool=newLucenePool();

//系统支持的分词系统

publicstaticAnalyzeranalyzers[]=newAnalyzer[4];

static{

analyzers[0]=newCJKAnalyzer();

analyzers[1]=newThesaurusAnalyzer();//自定义词库包

analyzers[2]=newChineseAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件，一行一词

analyzers[3]=newIKAnalyzer();//data/chars.dic是单字与语料中的频率data/units.dic是单字的单位data/words.dic是词库文件，一行一词

}

//WhitespaceAnalyzer:仅仅是去除空格，对字符没有lowcase化,不支持中文

//SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文http://www.itonghui.com

//StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer，在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文

//StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分.http://www.chinakdd.com

//ChineseAnalyzer:来自于Lucene的sandbox.性能类似于StandardAnalyzer,缺点是不支持中英文混和分词.

//CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同但是在汉语的分词上，不能过滤掉标点符号，即使用二元切分

//当前使用的分词

publicstaticAnalyzeranalyzer=analyzers[1];

//==============================各类文件的路径组成======================

//新闻系统的索引跟路径

publicstaticStringlucene_cms_root_path="cmsLucene/";

//文章操作记录备份

publicstaticStringlucene_cms_logs_path="cmsLogs/cmshistory";

}

lucene

itfafa

0 关注 0 粉丝 0 动态

关注关注

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

MAC OS 10.15 Lucene 源码分析环境搭建

lucene-solr 的github 项目中的 README 其实已经讲得很清楚了，但搭一个大项目的环境还是耗时耗力的。如果出现下载失败的问题，不用担心，重试就好。3，安装ant，我这里安装的是：Apache Ant version 1.10.8 com

Jacry 2020-07-04

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

Spring Boot 教程 - Elasticsearch

它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，

mengyue 2020-06-09

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 2020-05-16

Elasticsearch用得好，下班下得早！

入行 Elastic-Stack 技术栈很久了，为了免于知识匮乏眼光局限，有必要到外面的世界看看，丰富自己的世界观。哪些应用场景下使用 Elasticsearch 最佳?Elasticseach 从做搜索引擎开始，到现在主攻大数据分析领域，逐步进化成了一个

mameng 2020-05-12

Elasticsearch对垒8大竞品技术，孰优孰劣？

李猛，Elastic-stack产品深度用户，ES认证工程师，2012年接触Elasticsearch，对Elastic-Stack开发、架构、运维等方面有深入体验，实践过多种Elasticsearch项目，最暴力的大数据分析应用，最复杂的业务系统应用;业

心丨悦 2020-05-06

1.elasticsearch单节点部署

就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包含各种算法，我们就用java开发的时候，引入lucene jar，然后基于lucene的api去进行开发就可以了，我们就可以将已有的数据数据建立索引，lucene会在本地磁盘上面，

编码之路 2020-05-03

lucene和Elasticsearch

归结为一句话倒排指的是把的关系颠倒为。nohup npm run start > /dev/null 2>&1 & 启动elasticsearch-head，访问9100端口

mengyue 2020-05-02

ES索引的一些长度限制

一个ES索引最大可以支持多少个shard？理论上无限扩展，我推测最大应该是java array的最大长度：Integer.MAX_VALUE。一个ES shard最多可以索引2,147,483,519个document。可以看到一个document创建多个

qiuzhuoxian 2020-02-23

Lucene

我们生活中的数据总体分为两类：结构化数据和非结构化数据。将非结构化数据的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的母的。这部分从非结构化数据中提取的然后重新组织的信息，我们称之为索引。Lu

编码之路 2020-02-20

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

ElasticSearch

ES=elaticsearch简写， Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。Elasticsearch也使用Java开发并使用Lucen

某某某 2020-01-30

《从Lucene到Elasticsearch全文检索实战》的P184页

其次，他说使用了books.json,在P183页说保存为books.json这个文件是直接放在curl解压缩后的文件夹的bin目录下的。汗，我第一次，关于这个问题搞了半天，之前我一直使用Kibana的，坑。后来百度看到有人说这个都出现localhost:

PinkBean 2020-01-29

es lucene搜索及聚合流程源码分析

SearchContext包含Query，Aggregator等重要信息。索引结构为倒排。Aggregator此时仅根据request创建AggregatorFactory，用于后续创建Aggregator。当shard下数据发生变化时，应当清空cache

某某某 2020-01-12

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 2020-01-01

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

itmale 2020-01-01

全文检索Lucene

索引一次创建可以多次使用，表现为每次查询速度都很快。把非结构化数据进行字符串拆分，得到一个单词的列表，基于单词列表创建一个索引，然后查询索引，根据单词和文档的对应关系找到文档列表，这个过程就叫做全文索引

PasserbyX 2020-01-01

安科网

LuceneContacts

itfafa

itfafa

相关推荐

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

Spring Boot 教程 - Elasticsearch

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

1.elasticsearch单节点部署

lucene和Elasticsearch

ES索引的一些长度限制

Lucene

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

ElasticSearch

《从Lucene到Elasticsearch全文检索实战》的P184页

es lucene搜索及聚合流程源码分析

Net Core使用Lucene.Net和盘古分词器实现全文检索

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

全文检索Lucene

itfafa