lucene3.1.0 简单分词实例

繌子

2011-05-01

环境说明lucene版本3.1.0

分词工具英文版的是用标准版的，即StandardAnalyzer

中文分词是用SmartChineseAnalyzer，lucene包中有

使用的junit4.0测试的

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class Analyzertest {

	//Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_31);
	Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_31);
	
	//String text = "我是中国人";
	String text = "IndexWriter javadoc a apach2.0.txt";
	
	@Test
	public void test ()
	{
		try {
			analyzer(analyzer,text);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	public void analyzer(Analyzer al, String text) throws Exception
	{
		TokenStream tokeStream = al.tokenStream("content", new StringReader(text));
         //TermAttribute 已过时，文档中推荐使用CharTermAttribute
		tokeStream.addAttribute(CharTermAttribute.class);
		while(tokeStream.incrementToken())
		{
   
			CharTermAttribute ta = tokeStream.getAttribute(CharTermAttribute.class);
			System.out.println(ta.toString());
             //System.out.println(tokeStream.toString());
		}
	}
}

分词 apache lucene

繌子

0 关注 0 粉丝 0 动态

相关推荐

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 2020-01-01

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

qiuzhuoxian 2019-12-31

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

某某某 2016-08-02

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 2020-09-11

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

Elasticsearch实战 | match_phrase搜不出来，怎么办？

title=公路局正在治理解放大道路面积水问题。实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。标准分析仪是默认分析仪，如果没有指定，则默认使用该分词器。但，会出现冗余数据非常多。针对要求2），排除matc

AFei00 2020-08-03

ElasticSearch的下载、安装使用

下载ik中文分词器。浏览器访问是否启动成功。安装ik中文分词插件。解压分词插件包—->放到es的plugins目录下—->重新启动es即可

sifeimeng 2020-08-01

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 2020-07-29

Python常用功能函数系列总结（二）

return ‘ ‘.join([i for i in jieba.cut(sentence) if. i.strip() and i not in self.stopwords and len > 1 and i in self.word_list

kikaylee 2020-07-05

jieba.lcut方法

cut_all参数为真表示采用全模式分词，为假表示采用精确模式分词，默认值为假；

ustbclearwang 2020-07-05

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。

troysps 2020-07-04

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

利用pandas读取csv文件中的酒店客户评论，并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果。columns_name=[‘mysql_id‘,‘hotelname‘,‘customername‘,‘reviewtime‘,‘check

zooozx 2020-06-27

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 2020-05-31

es中中文分词器的使用

　　es整体都整理好了，进行补充没有实现的一些es知识点。　　本文终止在线安装，从第5开始线下安装。

IceStreamLab 2020-05-03

DJANGO-天天生鲜项目从0到1-009-搜索功能实现(django-haystack+whoosh+jieba)

django-haystack：是django的开源搜索框架，该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎，不用更改代码，直接切换引擎，减少代码量。安装完djang-haystack之后，启动项目又报了另外一个错

谢育政 2020-05-03

理解Babel是如何编译JS代码的及理解抽象语法树(AST）

很多浏览器目前还不支持ES6的代码，但是我们可以通过Babel将ES6的代码转译成ES5代码，让所有的浏览器都能理解的代码，这就是Babel的作用。Babel的编译过程和大多数其他语言的编译器大致相同，可以分为三个阶段。比如我们在 .babelrc里配置的

zhongweinan 2020-04-24

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 2020-04-20

【solr】添加分词器ik-analyzer-solr

项目在此基础上：solr7.2.1+tomcat8.5.37+jdk8安装配置。下载的jar包复制到。添加分词字段类型

lionelf 2020-04-20

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

官网版本 Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载

winxcoder 2020-04-19

繌子

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号