京东大数据平台进化之路

dreaper

2019-04-09

京东大数据平台进化之路

本文内容来自由msup主办的第七届TOP100summit大会。分享者王哲涵，时任京东离线平台研发团队负责人。2015年加入京东，于大数据平台研发部工作, 负责京东大数据平台的架构与研发工作。

导读

时下大数据技术趋于成熟与稳定的今天, hadoop相关服务也不再高高在上, 已是作为如同数据库般的作为基础软件设施提供计算与存储服务, 京东大数据平台从无到有, 从量到质, 从微创到革新经历五年的时间, 集群规模一步步由数百到数万规模的演化过程, 此次分享主要涵盖面对业务多元化发展, 京东大数据平台持续进化过程中遇到的问题与我们的解决方案。

如果按规模划分，京东大数据平台演进的几个重要节点分别是单集群规模达到1200台、3000台、5000台再到2018年的8000台。在这个过程，京东大数据团队优化了Yarn的调度性能，集群稳定性，计算资源分配并逐步完成存储和计算分离等工作。

在平台搭建上，中小企业在不具备专业研发团队的情况下，选择云提供商和开源社区的可能性更大，短期来看这会节省大量成本。但是，当集群增长到一定规模，使用云平台的成本就会相应升高。京东的离线大数据平台全部在本地实现，使用了不少开源组件也加入了新技术，但京东更加倾向于自我实现而非拿来主义。

所谓拿来主义，更多时候是指借用开源产品和社区的力量，但京东在代码修改上下了很大功夫，毕竟一些很小的改动可能为京东节省大量成本。对于组件选用，京东同样选择了Flink，Spark、Storm、Yarn、HDFS和HBase等常用组件，但是京东在代码层面进行了很多改动。以Yarn为例，Yarn在集群规模达到某个范围后，其性能是有问题的，京东对该问题进行了修复并持续弥补了其与K8S的差距。

虽然自研往往更容易达到想要的结果，但这一点并不适用于所有体量的公司。对于中小企业而言，一段代码优化带来的成本节省或许比消耗的人力成本更高，同时，中小企业也很难聚拢一批可修改源码级别的研发工程师，而这些在大公司眼中又不是问题了。毕竟，大公司聚集了中国绝大部分的优质研发人才，其一点小改动都可能带来巨大的性能提升或成本降低。

对于易用性、性能和成本之间的平衡，稳定性是首要考量目标，其次是性能。关于稳定性方面，京东到底做了些什么呢？

大纲