Solr /export 海量数据导出实现

lhc0

2016-11-29

Solr需要流式导出海量数据，导出数据是基于流式的，当服务端match到第一条数据之后就会向客户端flush出数据。

需要导出的列需要将schema中field元素的docvalue设置为true，并且在solrconfig.xml中配置

<requestHandler name="/export" class="solr.SearchHandler">
 <lst name="invariants">
   <str name="rq">{!xport}</str>
   <str name="wt">xsort</str>
   <str name="distrib">false</str>
 </lst>
 <arr name="components">
   <str>query</str>
 </arr>
</requestHandler>

客户端的查询代码如下：

final String[] fl = StringUtils.split(fields, ",");
		SolrClient client = new HttpSolrClient(url);

		query.setDistrib(false);
		query.setFields(fields);
		query.setRows(9999999);

		final PrintWriter writer = new PrintWriter(new OutputStreamWriter(
				FileUtils.openOutputStream(outfile), Charset.forName("utf8")));

		for (String f : fl) {
			writer.print(f);
			writer.print(",");
		}

		final AtomicInteger count = new AtomicInteger(0);
		QueryResponse result = client.queryAndStreamResponse(query,
				new StreamingResponseCallback() {
					@Override
		public void streamSolrDocument(SolrDocument doc) {
						// process doc
					}

		public void streamDocListInfo(long numFound, long start,
							Float maxScore) {
						// writer.println("numFound:" + numFound);
					}
				});
		writer.close();
		System.out.println("numFound:" + result.getResults().getNumFound());
		client.close();

solr服务端相关的代码：

QP：

ExportQParserPlugin 在export handler中使用QP

查询结果流式排序输出：

SortingResponseWriter

lhc0

0 关注 0 粉丝 0 动态

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 2020-09-11

Apache Solr velocity模板注入RCE漏洞

lionelf 2020-07-28

【solr】使用-取反时注意，-是表示排除，不能单独做条件用

1、solr的-表示取反、排除意思，比如说我要name不为a的数据，我们正常理解写法是-name:a，这是不对的，正确写法是

upxiaofeng 2020-06-11

solr与.net系列课程(五)solrnet的使用

最近因项目比较忙,所以这篇文章出的比较晚,离上一篇文章已经有半个月的时间了,这节课我们来学下一下solr的.net客户端solrnet. 上一篇文章讲述了C#是如何请求和接受solr的数据的,请求链接是自己拼接的,接受数据是使用数据契约,solrnet就是

TyCoding 2020-05-03

关于Solr服务搭建

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。Solr根据xml文档添加、删除、更新索引。So

upxiaofeng 2020-04-30

【solr】添加分词器ik-analyzer-solr

项目在此基础上：solr7.2.1+tomcat8.5.37+jdk8安装配置。下载的jar包复制到。添加分词字段类型

lionelf 2020-04-20

Solr7-4的学习与使用

17年的时候有学习使用过lucene和solr，但是后来也遗忘了，最近公司有个项目需要使用到全文检索，正好也顺便跟着学习一下，使用的版本是Solr7.4的，solr解压之后的目录结构:各文件夹里面的内容：。solr从5版本之后不再需要tomcat，使用内置

TyCoding 2020-04-08

01 CentOS7中安装和启动solr

solr是一个企业级搜索应用服务器，以lucence为基础。本文将讲解如何在centos7中安装solr。# 确保solr-4.10.3.tgz、apache-tomcat-8.5.38.zip是在当前目录下。稍等片刻，war包便会被解压。重启tomcat

TyCoding 2020-03-26

solr replication原理探究

无论是垂直搜索，还是通用搜索引擎，对外提供搜索服务其压力都比较大，经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况，一般的应对方法就是+。Solr提供了两种解决方案来对应访问压力。其一是Replication，其一是SolrCloud。Re

wenchanter 2020-03-26

ant编译solr源码生成eclipse项目，解决一直resolve，一直[ivy:retrieve]的问题

咋不说这个问题用相应方法解决即可/微笑？最终通过自己一通乱搞，终于“Build Successful”，具体哪一步起了作用实在不敢说，尝试的方法是在太多了，只把正确的记录下来好了，自己整理一下思路，能够帮到有同样问题的人更好啦~

roygbip 2020-02-16

2020.2.3学习进度总结

感受：重新安装了十多次android studio都没有成功，今天你在同学的远程桌面的帮助下，将android studio完全彻底删除之后又安装了看三次，最后还是没成功，有点崩溃了，但是不会放弃，明天要问一问老师，希望老师能帮我解决这个问题。

wsxsxz 2020-02-03

Solr请求概念和配置详解

　　Solr最常见的请求类型是在Solr索引中查找相关文档的查询。除此之外，Solr还可以处理许多不同类型的请求。所有的请求基本上都是通过请求处理器提交给Solr。例如，通过搜索组件执行主查询，其中分面、搜索结果高亮和拼写检查都有各自的搜索组件。要让查询请

lionelf 2020-02-03

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

lunrjs - A bit like Solr, but much smaller and not as bright.

Lunr.js is a small, full-text search library for use in the browser. It indexes JSON documents and provides a simple search inte

lionelf 2020-01-30

一、linux系统安装配置solr8

第五步：配家、配置apache-tomcat-8.0.47→webApp→solr→WEB_INF下的web.xml

wsxsxz 2020-01-17

详细solr集成搭建

numShards=2 ---------------------- 4个solr分成两个区name=collection1　 ---------------------- name为collection1shard=shard1　　　------

TyCoding 2020-01-10

solr 7.7.0 添加多个core（三）

复制new_core里的所有文件到new_core1中

TyCoding 2020-01-09

solr7.7.0 添加core （二）

1 接上篇 solr 环境搭建(一)，在schema.xml下面有一个感叹号！主要是修改contrib目录，dist目录的相对位置。instanceDir文件夹里会自动生成一个core.properties文件。以后再次需要创建solrCore核心的时候，

wsxsxz 2020-01-09

lhc0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号