分布式搜索elasticsearch中文分词集成
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:
- plugin -install medcl/elasticsearch-analysis-ik/1.1.0
下载ik相关配置词典文件到config目录
- cd config
- wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
- unzip ik.zip
- rm ik.zip
安装mmseg插件:
- bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0
下载相关配置词典文件到config目录
- cd config
- wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
- unzip mmseg.zip
- rm mmseg.zip
分词配置
ik分词配置,在elasticsearch.yml文件中加上
- index:
- analysis:
- analyzer:
- ik:
- alias: [ik_analyzer]
- type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或
- index.analysis.analyzer.ik.type : “ik”
mmseg分词配置,也是在在elasticsearch.yml文件中
- index:
- analysis:
- analyzer:
- mmseg:
- alias: [news_analyzer, mmseg_analyzer]
- type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
或
- index.analysis.analyzer.default.type : "mmseg"
mmseg分词还有些更加个性化的参数设置如下
- index:
- analysis:
- tokenizer:
- mmseg_maxword:
- type: mmseg
- seg_type: "max_word"
- mmseg_complex:
- type: mmseg
- seg_type: "complex"
- mmseg_simple:
- type: mmseg
- seg_type: "simple"
这样配置完后插件安装完成,启动es就会加载插件。
定义mapping
在添加索引的mapping时就可以这样定义分词器
- {
- "page":{
- "properties":{
- "title":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- },
- "content":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- }
- }
- }
- }
java mapping代码如下:
- XContentBuilder content = XContentFactory.jsonBuilder().startObject()
- .startObject("page")
- .startObject("properties")
- .startObject("title")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .startObject("code")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .endObject()
- .endObject()
- .endObject()
附:
ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分词插件项目��址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf
相关推荐
vtnews 2020-07-29
AFei00 2020-08-03
sifeimeng 2020-08-01
renjinlong 2020-09-03
newbornzhao 2020-09-14
做对一件事很重要 2020-09-07
明瞳 2020-08-19
李玉志 2020-08-19
mengyue 2020-08-07
molong0 2020-08-06
molong0 2020-08-03
wenwentana 2020-08-03
YYDU 2020-08-03
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。
sifeimeng 2020-08-03
心丨悦 2020-08-03
liangwenrong 2020-07-31
mengyue 2020-07-30
tigercn 2020-07-29