关于lucene的分词（三）

hankesi000

2010-04-02

关注关注

到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器.

如何DIY一个功能更加强大Analyzer

譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单

你只要把他们包装成Lucene的TokenStream就好了.下边我以调用中科院写的ICTCLAS接口为例,进行演示.你去中科院

网站可以拿到此接口的free版本,谁叫你没钱呢,有钱,你就可以购买了.哈哈

好,由于ICTCLAS进行分词之后,在Java中,中间会以两个空格隔开!too easy,我们直接使用继承Lucene的

WhiteSpaceTokenizer就好了.

所以TjuChineseTokenizer 看起来像是这样.

public class TjuChineseTokenizer extends WhitespaceTokenizer

{

public TjuChineseTokenizer(Reader readerInput)

{

super(readerInput);

}

而TjuChineseAnalyzer看起来象是这样

public final class TjuChineseAnalyzer

extends Analyzer

{

private Set stopWords;

/** An array containing some common English words that are not usually useful

for searching. */

public static final String[] CHINESE_ENGLISH_STOP_WORDS =

{

"a", "an", "and", "are", "as", "at", "be", "but", "by",

"for", "if", "in", "into", "is", "it",

"no", "not", "of", "on", "or", "s", "such",

"t", "that", "the", "their", "then", "there", "these",

"they", "this", "to", "was", "will", "with",

"我", "我们"

};

/** Builds an analyzer which removes words in ENGLISH_STOP_WORDS. */

public TjuChineseAnalyzer()

{

stopWords = StopFilter.makeStopSet(StopWords.SMART_CHINESE_ENGLISH_STOP_WORDS);

}

/** Builds an analyzer which removes words in the provided array. */

//提供独自的stopwords

public TjuChineseAnalyzer(String[] stopWords)

{

this.stopWords = StopFilter.makeStopSet(stopWords);

}

/** Filters LowerCaseTokenizer with StopFilter. */

public TokenStream tokenStream(String fieldName, Reader reader)

{

try

{

ICTCLAS splitWord = new ICTCLAS();

String inputString = FileIO.readerToString(reader);

//分词中间加入了空格

String resultString = splitWord.paragraphProcess(inputString);

System.out.println(resultString);

TokenStream result = new TjuChineseTokenizer(new StringReader(resultString));

result = new LowerCaseFilter(result);

//使用stopWords进行过滤

result = new StopFilter(result, stopWords);

//使用p-stemming算法进行过滤

result = new PorterStemFilter(result);

return result;

}

catch (IOException e)

{

System.out.println("转换出错");

return null;

}

public static void main(String[] args)

{

String string = "我爱中国人民";

Analyzer analyzer = new TjuChineseAnalyzer();

TokenStream ts = analyzer.tokenStream("dummy", new StringReader(string));

Token token;

System.out.println("Tokens:");

try

{

int n=0;

while ( (token = ts.next()) != null)

{

System.out.println((n++)+"->"+token.toString());

}

catch (IOException ioe)

{

ioe.printStackTrace();

}

对于此程序的输出接口可以看一下

0->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(爱,3,4,word,1)

1->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(中国,6,8,word,1)

2->Token's (termText,startOffset,endOffset,type,positionIncrement) is:(人民,10,12,word,1)

OK,经过这样一番讲解,你已经对Lucene的Analysis包认识的比较好了,当然如果你想更加了解,还是认真读读源码才好,

呵呵,源码说明一切!

lucene 分词 string

hankesi000

0 关注 0 粉丝 0 动态

关注关注

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 2020-01-01

Net Core使用Lucene.Net和盘古分词器实现全文检索

qiuzhuoxian 2019-12-31

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

某某某 2016-08-02

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

MAC OS 10.15 Lucene 源码分析环境搭建

lucene-solr 的github 项目中的 README 其实已经讲得很清楚了，但搭一个大项目的环境还是耗时耗力的。如果出现下载失败的问题，不用担心，重试就好。3，安装ant，我这里安装的是：Apache Ant version 1.10.8 com

Jacry 2020-07-04

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

Spring Boot 教程 - Elasticsearch

它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，

mengyue 2020-06-09

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 2020-05-16

Elasticsearch用得好，下班下得早！

入行 Elastic-Stack 技术栈很久了，为了免于知识匮乏眼光局限，有必要到外面的世界看看，丰富自己的世界观。哪些应用场景下使用 Elasticsearch 最佳?Elasticseach 从做搜索引擎开始，到现在主攻大数据分析领域，逐步进化成了一个

mameng 2020-05-12

Elasticsearch对垒8大竞品技术，孰优孰劣？

李猛，Elastic-stack产品深度用户，ES认证工程师，2012年接触Elasticsearch，对Elastic-Stack开发、架构、运维等方面有深入体验，实践过多种Elasticsearch项目，最暴力的大数据分析应用，最复杂的业务系统应用;业

心丨悦 2020-05-06

1.elasticsearch单节点部署

就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包含各种算法，我们就用java开发的时候，引入lucene jar，然后基于lucene的api去进行开发就可以了，我们就可以将已有的数据数据建立索引，lucene会在本地磁盘上面，

编码之路 2020-05-03

lucene和Elasticsearch

归结为一句话倒排指的是把的关系颠倒为。nohup npm run start > /dev/null 2>&1 & 启动elasticsearch-head，访问9100端口

mengyue 2020-05-02

ES索引的一些长度限制

一个ES索引最大可以支持多少个shard？理论上无限扩展，我推测最大应该是java array的最大长度：Integer.MAX_VALUE。一个ES shard最多可以索引2,147,483,519个document。可以看到一个document创建多个

qiuzhuoxian 2020-02-23

Lucene

我们生活中的数据总体分为两类：结构化数据和非结构化数据。将非结构化数据的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的母的。这部分从非结构化数据中提取的然后重新组织的信息，我们称之为索引。Lu

编码之路 2020-02-20

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

ElasticSearch

ES=elaticsearch简写， Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。Elasticsearch也使用Java开发并使用Lucen

某某某 2020-01-30

《从Lucene到Elasticsearch全文检索实战》的P184页

其次，他说使用了books.json,在P183页说保存为books.json这个文件是直接放在curl解压缩后的文件夹的bin目录下的。汗，我第一次，关于这个问题搞了半天，之前我一直使用Kibana的，坑。后来百度看到有人说这个都出现localhost:

PinkBean 2020-01-29

es lucene搜索及聚合流程源码分析

SearchContext包含Query，Aggregator等重要信息。索引结构为倒排。Aggregator此时仅根据request创建AggregatorFactory，用于后续创建Aggregator。当shard下数据发生变化时，应当清空cache

某某某 2020-01-12

安科网

关于lucene的分词（三）

hankesi000

hankesi000

相关推荐

Net Core使用Lucene.Net和盘古分词器实现全文检索

Net Core使用Lucene.Net和盘古分词器实现全文检索

分词器之IK Analyzer

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

Spring Boot 教程 - Elasticsearch

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

1.elasticsearch单节点部署

lucene和Elasticsearch

ES索引的一些长度限制

Lucene

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

ElasticSearch

《从Lucene到Elasticsearch全文检索实战》的P184页

es lucene搜索及聚合流程源码分析

hankesi000