Elasticsearch到底能玩多大的数据量

单独看ES能玩多大数据意义不大,具体实践中往往因为各种业务要求而无法继续增加数据量。目大的方面考虑有如下几点:

1、查询速度。ES可以支持的查询类型多种多样,单一的term匹配,复杂的historm agg,甚至父子文档模式下bool查询之后继续做文本高亮,数据量越大查询时间越长。如果只是简单的把数据写进去然后按照ID获取数据,那就尽管往里面写数据吧。

2、写入速度。数据量越大,写入速度受影响的可能性越大。业务要求1小时的数据1小时内必须写完,如果做不到就得考虑分索引或者分集群了。

3、更新速度。同上,更新比单纯的写入操作更多,先get再merge再overwrite到es。

4、其他因素。

目前我遇到的ES集群,有1.5T-2T索引量的情况下,需要支持平均查询在500ms以内的高并发高亮查询。在我们的场景下这个量级不算小了。

目前我们项目中用的32个节点,数据是目前只是TB级别的,偶尔会出现问题,一般是因为网络的原因,导致节点链接不正常,其他没有发现什么异常

Netflex 去年的公开数据 说 已经超过一共 超过 2000 个 nodes,当然是多个集群。 我个人很少听说公司 in production 真的用了很多nodes
补充公开的use case :
https://www.elastic.co/use-cases

相关推荐