阿里云飞天技术总架构师唐洪:飞天技术与应用

一年一度的阿里技术论坛(Alibaba Technology Forum)已走进第7个年头,4月15日,阿里众多技术领军人走进清华校园。通过特设的三大技术论坛,参会人员近距离接触了阿里巴巴在云计算、大数据、金融、电商等方面的技术创新。

在云计算与大数据论坛上,来自阿里云飞天技术总架构师唐洪带来了以《飞天技术与应用》为主题的深度分享。下面是精彩内容内容整理。

阿里云飞天技术总架构师唐洪:飞天技术与应用

图:阿里云发展历程

飞天是阿里云自主研发的大规模分布式云操作系统

飞天设计原则

在开始介绍飞天技术前,唐洪和现场观众分享了当初判断要做云计算需要解决的三个本质问题,而这三个本质问题决定了飞天系统设计的基本原则。

第一个本质问题,大规模。云计算本质上是随着互联网诞生并且为了解决互联网的问题产生出来的。根据2012年10月份数据统计,互联网每天产升2.5EB的数据,并且这个数字每40个月就会翻一番,处理这样大的数据一定要解决大规模计算的问题。拿淘宝为例,淘宝上每天完成上百亿元规模交易,同时要在6小时内(早晨6点以前)完成所有交易数据的统计。当然规模是相对的,但规模增加了时间限制,绝对值本身不是很大数据量的计算在本质上也是大规模计算的问题。

第二个本质问题,低成本。也就是说我们不单要解决规模计算的问题,而且要想办法让大家算得起。低成本不单单是简单的降低价格,而是像电话一样改变人们的习惯。同时,也能够像“电网”做到对资源的调度。

第三个本质问题,服务运营。真正能够提供大规模廉价的计算,唯一的方式是卖计算而不是卖计算机,像公共服务一样做到按量付费,这对很多创业公司来说是非常有益的。服务运营也意味着弹性扩展,当用户需要使用更多资源的时候可以很快开动资源,而不是等着再跟供应商下单,等计算机运到机房里。最后,服务运营也要解决安全问题,大家在使用自然资源、在使用云计算的时候不用担心安全问题。

正是基于上述对云计算要解决的三个本质问题的理解,在飞天系统设计开始就定下了两个基本原则。第一个原则,以大规模通用计算平台为基础,用同一套系统支持离线和在线服务,能够做到资源共享。第二个原则,以Web API的方式提供服务,也就是说希望提供线上服务,而不是到门市部填申请单交银行卡才能提供服务,让用户感觉不到地域的边界。

图解飞天架构

阿里云飞天技术总架构师唐洪:飞天技术与应用

飞天开放平台架构

飞天最底层是全球部署的12个地区和几十个数据中心,这些数据中心里是安装了Linux操作系统的通用高端服务器。橙色组件组成了大规模通用计算平台,最底下四个橙色块(夸父远程过程调用、安全管理、女娲分布式协同和伏羲资源管理)代表构建分布式系统最基本的组件。唐洪着重指出,在整个飞天设计里面第一就把安全作为一个功能来设计。盘古分布式存储,简单来说,就是把所有集群中的硬盘组织成一个单个的文件系统。同时,两侧分别是天基的数据中心管理、分布式部署,以及神农分布式监控。唐洪说,大家觉得部署和监控是很简单的事,但做成7×24小时不间断就没有那么容易了,这时需要非常大的监控系统,秒级监控所有指标判断是否有问题并且实时修复。

中间蓝色一层是核心的资源型服务组件,大概分为三类:一是弹性计算,简单理解就是将物理机切分成虚拟服务器的概念。二是海量存储的数据库,其中OSS是存储无结构的数据比如视频、照片、音乐之类的,Table Store可以认为是半结构化存储,RDS则是关系型数据库服务。第三类是数据计算,它则分为多维度准实时数据的查询服务、实时流计算处理服务和大规模批量计算服务。

在上面还有一些端到端、基于云的应用所需要的核心服务,比如内容分发CDN、网络服务、安全服务、数据服务等。网络服务,包括VPC、域名服务和VPN。中间件服务,包括消息队列、工作流等。数据服务,则包括比如人工智能、语音识别、翻译、图象识别之类。

最上层则是生态支撑,容器服务可以支持那些基于容器的微服务架构,或者是编排服务帮助开发者在云上开展资源的编排。还有云市场,可以认为是云上的AppStore,开发者可以把他们的应用注册在云市场里面,使用者直接注册使用。还有开发者服务,开发者很容易监控诊断他们的应用并且发现问题和调试。

飞天技术特色

谈到飞天的技术特色,共六个方面。其中第一点,飞天同一个平台同时支持离线在线服务,这是飞天的通用性特色。如阿里巴巴集团子公司神马搜索就是建在飞天上,他们会进行千亿级别网页的离线处理,索引所有网页,大概每一两个月把整个索引翻一遍,此外拥有这么多网页的同时同样拥有整个网页之间关联的连接图,也是千亿级别的节点,并且有百亿级别的索引可以在线查询;在线方面,基于飞天平台的邮箱服务每天处理亿量级的邮件,日发送邮件达到千万量级,所有发送和接收在10毫秒级别完成。

其他几点包括:规模,飞天单集群达到了万台规模、百PB级别存储、10万级别的CPU合数;整个架构设计里面没有单点,确保了整个系统可用性达到99.95%;飞天应用设有默认等级,通过多副本冗余算法,数据可靠性达到10个9的可靠性;完全分布式的部署、监控和诊断。关于第六点安全方面,唐洪指出,飞天安全管理嵌入在飞天内核最底层,并且使用基于权能的安全管理框架,真正有效实施“最小化权限”原理。

阿里云飞天技术总架构师唐洪:飞天技术与应用

2013年8月15号,阿里巴巴集团已经拥有了中国范围最大的集群,达到五千台规模。现在,飞天已经成为阿里巴巴所有核心业务数据处理的平台,包括广告、搜索、个性化推荐、信用分析、风险管理等,并且飞天现在已有多个万台规模的集群,每天处理上百PB数据。

2014年7月1号MaxCompute(原ODPS服务)正式对外开放,这也标志着阿里巴巴成为世界上第一家对外公开提供5K处理能力的公司。很多公司可能有这样一个计算能力但从来没有把它当作公共服务开放给大家。在MaxCompute平台上线之前,组织了一场“天池大数据算法大赛”,当时有七千多个团队,主要是高校团队报名参加,在没有任何推广的情况下还有350多个来自海外的团队。

2015年10月,飞天打破了世界排序竞赛的记录,当时打破了4项,最有名的是用377秒完成100TB排序工作。之前这个成绩是1400多秒,也就提高了三倍还不止。

飞天之上

除了介绍飞天平台技术方面的内容,唐洪还分享了云计算如何实践技术拓展商业边界。

阿里云飞天技术总架构师唐洪:飞天技术与应用

阿里云帮助它们降低创业门槛

在降低互联网创业门槛方面,移动APP中的小咖秀就是一个典型。移动App天然就是长在云计算上的,移动设备本身的计算能力、存储能力非常有限,所以必须把大量计算和存储转换到云上去。并且很多移动创业公司面临着启动资金少、迭代周期快的问题,并且如果他们真正设计了一款非常流行的产品,业务增长非常快,所以要抵抗快速增长的压力,都对应到云计算的几个本质特征。小咖秀利用阿里云多媒体解决方案,开发第一版仅用了2天时间,2015年5月上线后两个月下载量位列App Store全榜前十,娱乐榜前五,日活跃用户超过5000万。然而,小咖秀后端服务团队仅有三个后台工程师,一个运维工程师。

在赋能业务创新方面,经典案例是天弘基金和《小门神》动画电影。天弘基金在10个月内管理资产从零增长到890亿美元,从一个无名小卒变成中国最大的货币基金。在产品发布后,天弘基金从IOE架构迁移到了阿里云,处理能力提升11倍、清算速度提升16倍。

《小门神》是追光动画打造的3D动画电影,其总渲染量达八千万核小时,超过《工夫熊猫2》、《超能陆战队》等好莱坞大片,《小门神》每秒钟影片渲染量超过一万核小时。阿里云提供了三万CPU核的弹性资源,缩短整体渲染周期几十倍。

在支持传统产业升级方面,经典案例比如12306。12306在2014年底上云,承接2015年春运高峰75%的余票查询流量,2014年12月19日达到春运火车票售卖高峰,PV297亿次,平均每秒PV 30万次,共发售火车票956.4万张,互联网售票占比59%。12306案例真正体现了云计算的优势——弹性扩容、秒级交付、按量付费。

最后在问答环节,唐洪再次强调了阿里云和其他开源系统和云计算公司的区别:“云计算的本质之一是服务运营。与开源相比,我们提供的是服务而不是软件。所以在提供服务的时候,我们想到的是怎么能够最高效、提供最好性能来完成用户的计算。在架构设计方面,阿里云不用虚拟机可以做到多租户,这和亚马逊提供的EMR之类的一个本质区别。”

相关推荐