elasticsearch获取大批量数据时深度分页(from&size) VS scroll游标查询

心丨悦

2020-02-10

在公司的操作es进行查询数据时，es默认分页且只返回十条数据，并且size最大只能传10000，这种查询方式称之为深度分页的方式也就是用 from 和 size 参数分页查询。由于我们当时开发任务紧急，所以在需要获取全量数据时就直接更改了这一限制，改为了10000000（一千万）条。但是这一方式可能在之后项目上线后随着数据量逐渐增多的情况下可能会对es服务造成一定隐患，因此需要改为官方推荐的scroll（游标）方式查询获取全量数据。

对于深度分页获取大量数据的劣势官方文档已给出了较为详细的解释，并且官方建议使用scroll的方式来进行全量数据的获取。具体如下：

摘自《Elasticsearch: 权威指南》→ 基础入门 → 搜索——最基本的工具 → 分页
摘自《Elasticsearch: 权威指南》→ 基础入门→ 执行分布式检索→ 取回阶段
附：《Elasticsearch: 权威指南》-> 链接

相对于from和size的分页来说，可以把scroll理解为关系型数据库里的 cursor（游标），不是查询所有数据然后剔除不要的部分，而是记录了当前读取的文档信息位置，保证下一次快速继续读取。也可以理解为维护了一份当前索引段的快照信息，这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据，都不会在这个快照中查询到。因此scroll 并不适合用来做实时搜索，而更适用于一次性查询大量的数据（甚至是全部的数据）。

摘自《Elasticsearch: 权威指南》→ 基础入门→ 执行分布式检索→ 游标查询Scroll

es的删除机制为根据条件查询出来再进行删除操作，在阅读spring-data-elasticsearch包中的elasticsearchTemplate源码时，发现该类中的删除方法也是使用的scroll方式获取了全量数据再进行删除，因此scroll游标的方式查询数据更适用于全量数据的获取。以下为elasticsearchTemplate源码：

@Override
    public <T> void delete(DeleteQuery deleteQuery, Class<T> clazz) {

        String indexName = !StringUtils.isEmpty(deleteQuery.getIndex()) ? deleteQuery.getIndex()
                : getPersistentEntityFor(clazz).getIndexName();
        String typeName = !StringUtils.isEmpty(deleteQuery.getType()) ? deleteQuery.getType()
                : getPersistentEntityFor(clazz).getIndexType();
        Integer pageSize = deleteQuery.getPageSize() != null ? deleteQuery.getPageSize() : 1000;
        Long scrollTimeInMillis = deleteQuery.getScrollTimeInMillis() != null ? deleteQuery.getScrollTimeInMillis()
                : 10000l;

        SearchQuery searchQuery = new NativeSearchQueryBuilder().withQuery(deleteQuery.getQuery()).withIndices(indexName)
                .withTypes(typeName).withPageable(PageRequest.of(0, pageSize)).build();

        SearchResultMapper onlyIdResultMapper = new SearchResultMapper() {
            @Override
            public <T> AggregatedPage<T> mapResults(SearchResponse response, Class<T> clazz, Pageable pageable) {
                List<String> result = new ArrayList<String>();
                for (SearchHit searchHit : response.getHits().getHits()) {
                    String id = searchHit.getId();
                    result.add(id);
                }
                if (result.size() > 0) {
                    return new AggregatedPageImpl<T>((List<T>) result, response.getScrollId());
                }
                return new AggregatedPageImpl<T>(Collections.EMPTY_LIST, response.getScrollId());
            }
        };

        Page<String> scrolledResult = startScroll(scrollTimeInMillis, searchQuery, String.class, onlyIdResultMapper);
        BulkRequestBuilder bulkRequestBuilder = client.prepareBulk();
        List<String> ids = new ArrayList<String>();

        do {
            ids.addAll(scrolledResult.getContent());
            scrolledResult = continueScroll(((ScrolledPage<T>)scrolledResult).getScrollId(), scrollTimeInMillis, String.class, onlyIdResultMapper);
        } while(scrolledResult.getContent().size() != 0);

        for (String id : ids) {
            bulkRequestBuilder.add(client.prepareDelete(indexName, typeName, id));
        }

        if (bulkRequestBuilder.numberOfActions() > 0) {
            bulkRequestBuilder.execute().actionGet();
        }

        clearScroll(((ScrolledPage<T>) scrolledResult).getScrollId());
    }

故此记录在查询全量数据时使用scroll游标方式查询数据更好。

elasticsearch 游标大数据分页 scroll

安科网

elasticsearch获取大批量数据时深度分页(from&size) VS scroll游标查询

心丨悦

心丨悦

相关推荐

Elasticsearch聚合后分页深入详解

Elasticsearch大文件检索性能提升20倍实践（干货）

Elasticsearch大文件检索性能提升20倍实践（干货）

Elasticsearch py客户端库安装及使用方法解析

ElasticSearch最全详细使用教程

十张图说清Elasticsearch原理！

ElasticSearch 交互使用

django 对接elasticsearch实现全文检索

Spring Boot 集成 Elasticsearch 实战

如何对 ElasticSearch 集群进行压力测试

操作ElasticSearch插件和可视化工具 Kibana

Elasticsearch实战 | match_phrase搜不出来，怎么办？

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

Elasticsearch实战 | 必要的时候，还得空间换时间!

Elasticsearch索引增量统计及定时邮件实现

如何在Linux下安装部署分布式全文搜索引擎

ElasticSearch的下载、安装使用

我也是才知道ElasticSearch条件更新是这么玩的

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

es快照备份到minio

心丨悦

elasticsearch获取大批量数据时 深度分页(from&amp;size) VS scroll游标查询

相关推荐

elasticsearch获取大批量数据时深度分页(from&size) VS scroll游标查询