京东云杨海明:随“虚”而变的高效运维深度思考

【51CTO.com原创稿件】2017年4月14日-15日,由51CTO主办的WOTA全球架构与运维技术峰会在北京富力万丽酒店隆重召开。本次WOTA设置了15大前沿热点技术论坛,60+来自Google、LinkedIn、Airbnb、百度、阿里巴巴、腾讯等海内外一线互联网公司的技术大咖将带来超过50个历经沉淀的架构实战心得与成功经验分享案例,携手打造历时2天的行业顶级技术盛会。

京东云杨海明:随“虚”而变的高效运维深度思考

京东云首席架构师 杨海明

4月14日上午WOTA2017主会场,京东云首席架构师杨海明进行了主题为《随“虚”而变的高效运维深度思考》的精彩演讲。以下是演讲实录,让企业先睹为快!

现在是企业云全面转型云服务的时代,在此之前的三十年左右,企业经历了IT信息发展的过程。企业要搭建一个IT需要购买很多物理服务器,甚至需要租一个机房来构建很多网络设施,一个数据中心就是IDC在前十年、二十年的时候比较热门的需求。现在在全国各地,企业在发生变化,企业希望云化。最后看到各地方的运维水平的差距导致企业不是在做云化,企业其实做的是IDC化,肯定需要比原来的传统方式效果好一些。因为之前可能每一个单位都要雇佣几个员工在那里做很基础的活动。但是现在企业把所有的工作都集中到一个地方来做,但是运维的效率还是很低的,因为企业还是在维护每一台机器,而且技术的含量很低,这是过去的样子。

现在和未来是什么样子呢?前十年虚拟化做的很多,企业IDC的厂商实际上是再虚拟化。但是未来什么是云化,大家可以看到业界提倡云化,企业在内部感觉前三五年企业在做应用的云化,但是现在来讲企业基本是在做原生云的应用。因为从京东的实践,大概可以感受到,企业最开始搭建了哪些。这是京东信息化发展的历程,因为京东本身算互联网零售行业做的很大的公司。京东也做了十三四年的样子,企业整个成长历程是什么,最早企业就是刘总刚起步的时候,可以理解就是一个网站,网站线上是搭建一个Web,然后再找几台很烂的机器和很便宜的机器,在自己的办公场所加一个ADSL就开网站了,他所雇佣的IT人员实际上是网站开发的人员。

第二个阶段是京东和当当PK的时候,企业有数据中心时代,企业使用世纪互联的机房,企业搭建企业的基础架构,企业在做商用的时候,这些都可以在京东的IT系统里面看到一些影子,比如说企业SQL Server的机器等等,企业管它叫商用套件时代,支撑的业务大概是亿元的规模。下一个时代企业构建的是资源池,资源池市面上企业已经找不到任何一款商用软件能支撑京东的规模,所以这个时候企业需要什么样的人才呢?到2015年、2016年左右的时候,那时候京东整个应用体系转向容器的体系,因为容器有它天然的状态、功能和数据分离的优势和弹性的优势,所以整个应用迁到这里,企业的工程师自己要做上线和运维。

IT的变化导致京东的业务也有变化,京东线上买东西物流很快,这是用户对京东的印象。但是内部企业在做什么事情呢?跟技术体系在改造企业整个业务流程,包含大数据、云计算以及机器人的技术、人工智能的技术,以及智能商品供应链的技术,说这个意思是什么呢?就是企业整个技术体系,业务模型推导出来一个技术体系,而技术体系反过来又会提升整个业务模型的变化,不是说企业做运维只是云主机,IT运维的主体发生变化,之前企业说你的机房是一堆物理器,现在企业的运营变成云资源和物理服务器的比较。从投入成本、资产负担、弹性服务、优化资源和可管理性来讲,这对运维工程师是不同的挑战。

互联网公司的优势在于运维和运营,这里面其实说了两个意思,运营是什么概念呢?就是推广,因为互联网是C端的服务,如果上线一款游戏,三个月以内不能爆款,这个游戏基本就没用了。在京东上卖商品基本上就是这样,一天之内要解决这个问题,就是秒杀。运维要面对很多不可预测的形态,如何保证系统持续稳定。因为你从一个传统公司买一个系统的时候,他会告诉你这个系统的边界是什么,就是最低到什么程度,最高到什么程度。但是对于互联网公司而言他追求的是最高,因为像京东、阿里6.18、双11大促,谁也不知道企业到底有多大的冲击,没有任何一个厂商敢拍胸脯说能支撑,所以运维的价值非常大。下一步导致交互的流程发生了变化,之前是用户和产品之间直接交互。但是现在来讲用户跟运维其实也是一个直接的要求,而且运维和产品之间的互动,从原来的管道的作用变成了很强的需求方。所以这块其实反过来对产品的需求也是增强的,但是运维和用户之间的交互,在企业整个运维体系里面现在是非常重要的。

互联网的运维更加复杂,感觉有五个点让运维团队面临比较大的压力,一个是安全及合规。比如说企业经常做的是网信办的要求,企业可以保证系统是合规的,但是怎么保证运维以及运维人员的操作标准是合规的,其实这个还是挺复杂的。还有就是成本和时间,互联网运维像传统企业一般会有标准,比如说多长时间宕机或者说有正常的维护时间,这些在传统企业甚至是对银行来讲都有时间。因为有时候访问各种银行的网站,有时候是晚上。如果晚上登录京东,它出现不好意思,系统正在维护,这可能就是重大的事故,对运维成本和时间的挑战非常大。

企业现在推动的方向,对于整个云计算本身,可以认为已经进入下半场了,上半场大家拼的是什么呢?谁的IDC多,谁的IDC比较便宜,谁的IDC成本比较低,这是云计算PK第一个层面的内容,这是传统IDC最擅长的优势。

第二个状态是谁的设备便宜,一般跟IDC会有一些绑定,企业要买服务器,企业要买交换机和存储,这时候肯定是传统的设备生产厂商,比如说戴尔、浪潮、华为这些公司会有比较大的优势。因为他们不仅仅生产的是服务器,还有交换机以及整体的运维模式等等是非常清楚的。

第三个状态是谁的技术好,这里面阿里云走的比较靠前,因为它做的也比较久。这里面映射到企业谁的虚拟化效率更高,谁的网络连通性更好,谁的存储效率更高。所以这些是企业对于所谓的技术,谁做技术做的更好。

第四个状态是谁的产品做的好,其实这个很有意思,产品是卖给谁的,卖给用户的。这里面如果企业自己创业,企业需要选择一个云服务,谁的用户体验最好,能最快帮企业实现目标,就是谁的IT搭建的速率更快,这个时候企业会选择。所以这是产品,谁的云存储的功能最清楚,最容易让用户使用。

第五个状态是行业,云计算进入各种行业,金融行业会导致新的变化叫金融科技,基于云计算、大数据衍生出新金融行业。医疗基因分析这些都是新兴行业,现在来讲谁对于行业理解深刻,你是做运营商的,你对运营商吃的很透,它的运作规律,深层次和浅层次的,以及金融行业和医疗行业,游戏也是一个行业。现在游戏行业是互联网做的泛娱乐,做的也比较大。

第六个状态是场景化,其实这个词很陌生。但是大家可能听说过“互联网+”,互联网+的发展。现在有人反过来说什么属于+互联网,互联网+本身是一个场景性的东西。因为要改变一个传统行业,它有自身的规律。但是跟所谓互联网结合诞生了新兴场景,才是企业云计算最关注的点。不是说场景就是一个简单的呈现,而是说这个呈现有可能改变行业的变化。比如说之前企业最早用电报,但是现在谁还用电报呢?现在基本上都是电话,像即时通讯,大家在公司里面做。但是可以看到微信基本上都用它找人了。所以+互联网或者是互联网+也在改变场景,这样导致了一个变化,就是运维的场景化。通常就运维来讲就看这个机器,看日志是否出现各种各样的问题,这些是传统运维该做的。但是现在企业招很多运维,企业叫互联网的老运维,就是经常在互联网行业做或者是金融行业运维做很多年,因为他懂业务和场景。

企业上面还有一些OEM定制资源,以及企业高效容灾,这个容灾跟传统的灾备不太一样。因为企业承载很多客户不是传统企业的混合云的形态,企业说混合云的时候可能是企业有一个自己的机房,再有一个公有云一块做自己的业务。但是现在来讲企业承载的客户基本是跨云的状态,它自己研发API层面对接,它一面对应的是在这个云上商用的云,另一个对应的是官字头的云,既能保证高效的服务,又能保证所谓的政治正确。所以这些是企业观察到的互联网企业,基于这些业务形态,企业的运维工程师是什么样子的。

相关推荐