谁顶住双11世界级流量洪峰?神龙架构9位大牛现场拆解阿里秘籍
阿里江湖中,很多资源和技术,如神龙服务器、OceanBase、POLARDB等等,在开源、自研、云这三架马车上形成协同效应,既是内功也是武器。
“不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其他云。”11月11日晚,阿里巴巴集团CTO行癫(张建锋)不久前表示。
除云之外,要深入了解阿里的武功路数,必须知道每个花名背后的武器与绝技。旭卿、观涛、鸣嵩、日照、褚霸、孤星、龙现、行易、镭铭,11月18日,在阿里举办的“双11 背后的技术力量”沙龙活动,这9位阿里技术大牛展示了路数,全面解读双十一背后的武功秘籍。
整个天猫的成交额是2684亿,零点订单峰值达到54.4万笔/秒。这是华山论剑的结果。
自研数据库POLARDB和OceanBase分别处理8700万、6100万笔/秒峰值请求、实时计算处理峰值每秒25.5亿笔、计算平台单日处理970PB数据、12亿笔物流智能化等……2019年双11期间,阿里巴巴打破了诸多技术纪录。
核心交易系统100%迁移到云,第三代神龙服务器定义IT行业新的计算范式
双11一个个闪亮的数字的背后有一个比较重要的事情,那就是今年阿里把核心交易系统100%迁移到阿里的公共云上,这是史无前例的、世界级的挑战。
要实现100%的迁移,必须提到阿里云的神龙服务器。神龙架构负责人的旭卿(张献涛)介绍,“神龙服务器是阿里云近三年来投入巨大的资源,研发的新一代适合云计算的计算架构的服务器,具备高弹性、高稳定和高性能的能力。”
阿里云从2016年开始投入相关研发,2017年10月发布了第一代神龙云服务器。三年内,阿里云从自研芯片开始、到自研设备+Hypervisor、最后成功自研神龙服务器,打通芯片、软件、服务器硬件之间的断层,首次实现了云计算行业性能、资源的零损耗。
阿里云智能基础产品事业部 张献涛(旭卿)
为什么阿里云要研发这样一个神龙服务器?
旭卿谈到,在过去十几年间,整个服务器的架构没有太大的变化。因此在云计算、甚至整个IT系统层面,业界都面临历史遗留问题,比如性能损失。
究其根本原因,就是做芯片、服务器、软件的厂商之间没有太多的协同,缺乏一个顶层的设计,每一个领域,每一个厂商都是希望把自己的东西做得很强,但做强之后对整体系统效率的提升不一定有帮助,这是我们可以感受到的。
从这个角度来看,我们需要对整个计算架构做一些改变、革新和提升,提升整体的计算效率,这是阿里做神龙最初的初衷。
为什么是阿里云做成了这件事?
“规模到达一定程度的时候,才会真切的感受到它是一个需要解决的问题,你可能将来只有10台、20台、甚至200台、2000台服务器的时候,资源还跑不满,在这种情况下没有太大的动力去投入上亿资金解决这样一个问题,而今天阿里云的整体规模已经让我们必须直面这个问题,并且解决这个问题。”旭卿解释道。
旭卿认为,今天神龙正在定义IT行业新的计算范式,它不仅仅能实现阿里云的核心系统100%上云,解决虚拟化的性能、资源的开销,并且也能够实现软件、硬件完美融合,它的综合表现在很多业务场景下都是超越物理机的性能表现。
说到物理机,旭卿还介绍了第三代神龙架构,它可以提供的性能非常高,“我们网络的性能可以做到每秒2500万PPS的转发,这个已经是业界标杆的5倍,存储性能其实也做到了100万IOPS,是业界标杆的3倍,所以有了这样一个东西之后,我们承载双11大促这种业务的话,其实已经比物理机的性能要高很多了。”
“当然最后我们还是认为云是IT的集大成者,真正的云计算厂商有责任也有义务引导今天软硬件方面的一些创新,回馈未来的IT技术变革打下基础。”旭卿表示。
AliNLP平台赋能700多个核心业务,客服AI搭载KAN-TTS技术处理70%问题
在语音和视觉方向,阿里也有所准备。达摩院实验室的雷鸣就介绍了阿里的客服AI和视觉AI。
这是基于阿里巴巴真实客服人员的声音定制的电话客服AI,基于今年发布的新一代语音合成技术——KAN-TTS技术,这个技术可以使语音合成的效果,和真人录音的接近程度达到97%。阿里通过技术可以把整个定制周期压缩到20天,录音周期就2天左右,这有效减轻了人工客服的负担。
这种AI会不会完全取代人工客服呢?其实,这种AI并不是完全替代人工,而是人工跟AI协同工作。AI可以解决常规问题,剩下30%的问题则需要人工客服来解决,这是一个比较好的人机协同模式。
从数据来看,阿里巴巴AI每天调用超过1万亿次,服务全球10亿人,日处理图像10亿张,日处理视频120万小时,日处理语音55万小时,日处理自然语言5千亿句。
达摩院在自然语言处理、智能语音、视觉计算等领域夺得40多项世界第一,同时自然语言处理在SQuAD机器阅读评比中精确阅读率首次超过人类,智能语音入选MIT Technology Review2019年全球十大突破性技术。这些技术在双十一的贡献有以下三个方面。
首先是自然语言处理方面,通过AliNLP平台,赋能淘宝、天猫、盒马、国际化等数十个BU的700多个核心业务。双十一重点支持23个业务方,包括阿里妈妈、阿里云、小蜜、菜鸟、新零售、天猫精灵等,在双十一当天,在线调用量超过11亿。
其次是客服AI,阿里小蜜承接了淘宝天猫平台97%的在线服务需求,换算过来相当于8.5万名人工客服小二工作量,其次阿里小蜜今年推出了多项新功能,包括直播小蜜、基于图片的智能问答、多样性文本生成。另外阿里小蜜并不是一个单方向的能力,更多的是综合了语音、语言、视觉、翻译等能力,而且小蜜与用户的交互,已经朝着文本、图像、语音等多模态的方向发展。
在视觉方面,拍立淘日处理图片10亿张,今年双十一,视觉AI对拍立淘做了技术升级,从一图一物到一图多物的升级,比如之前只识别一个元素,到今天全身穿搭一次性识别,而且这个技术在计算机视觉领域顶级会议上ICCV 2019上赢得一个冠军。
飞天大数据平台和飞天AI,以技术实现商品和消费者最优匹配
AI不仅帮助商品识别、客服与顾客之间的沟通,同样,最重要的消费关系中也有大数据和AI的支撑。
阿里云智能计算平台事业部研究员关涛(观涛)表示,双十一的挑战从商务角度看是商品和消费者最优化匹配的问题,往下则是大数据和AI能力的挑战,
从数据来看,今年双11数据量达到970 PB,这大概是一个什么量级?央视网所有的电视剧和新闻节目的数据量是80 PB左右,对比来看,阿里巴巴通过大数据和AI技术分析出来大概是央视数据量的10倍以上。
这样的数据能力背后的平台是什么?就是阿里十年前开始做的飞天大数据平台。在双11中,阿里使用了全自研的一整套平台,平台包括超过10万台规模服务器集群,10+数据中心、10EB级别存储、每天千万级别的大数据和AI计算作业。
在AI方面,关涛介绍了后台的流计算系统,它是一个数据实时计算系统,通过实时计算的模式,能够给系统、商家和消费者非常实时的数据的能力。流计算系统可以通过实时计算和AI预测,支持商家的商业决策。据统计,去年2018年双十一的时候,这样的实时推荐给商家的智能决策,90%都会被商家采用。
实时计算的系统层面,能够支持TPS、每天有超过万级别的在线实时在跑,每天处理超过10 Trillions of Records,包括实时分析、实时预警、实时搜索、在线机器学习、广告实时推荐,这些都是大数据和AI在做的。
另外,还有飞天AI平台,通过处理音频和视频元素,不仅可以做到千人千面,对于同一件商品,还能提供上千种不同的视频封面。
20个工程师贷出3000亿贷款,网商银行融合算力、算料、算法形成核心竞争力
商家能够上新产品和作出商业决策的一大前提是资金到位,这就涉及到网商银行的业务了。
“网商银行其实大家不一定多么熟悉,我去之前都不清楚在做什么。”蚂蚁金服网商银行研究员褚霸说到。
网商银行成立于2009年,前身是阿里小贷。10年后的今天,网商银行总共贷出去3000亿的贷款,而这3000亿贷款就是20个算法工程师完成的。褚霸认为,“20个人就能很漂亮的把这件事完成,我觉得科技是最大的功臣。”
能够完成这样一个业绩的网商银行,褚霸却笑称其为“傻子银行”,“因为网商其实是一家银行,不是做技术的,我们是一个技术的整合者,前面几位介绍那些技术都是被我们很好的去整合到今天的系统里面去。”
但其实并不是“傻子”,在新的技术,比如说像云延伸的技术引入方面,网商银行其实还是走在前面的。
还有实时反欺诈技术,这样一整套的技术能够将不良率做到1%或者更低。从金融风险看,业界不良率是5%。“因为今天我们有各种各样的大数据,AI的计算能力,还有非常优秀的算法工程师能够把这些算力、算料、算法串联起来,形成一个比较核心的竞争力。”褚霸解释道。
在交易中,不可或缺的是记录交易的数据库,其中一大重点的POLARDB不容忽视。
阿里云智能数据库事业部资深技术专家曹伟(鸣嵩)介绍了阿里巴巴数据库发展的历史,经过三个阶段:第一个阶段是使用IOE,使用Oracle;到了2015、2016年开始自主研发POLARDB,再到今年100%上云,所有阿里的核心的交易还有库存等等业务都会使用POLARDB以及我们的生态,就是物流云都在POLARDB支持今年双十一。
鸣嵩介绍道,我们2010年做了去IOE这件事情,2013年开始起我们把所有的Oracle系统下掉,换成AliSQL,今年我们做了POLARDB,而POLARDB在今年双十一达到8700万次每秒的这么一个峰值TPS,在它的背后我们有在VLDB、SIGMOD、ICDE上发表的创新技术。
IOT技术、自动化技术和智能算法,实现数字化和智能化的仓储物流
而在物流领域,那些我们看的见的包裹中都蕴含着哪些看不见的技术。
双11的包裹量从1.52亿到今年的12.98亿,大概提升了8倍,然后双11包裹签售破亿时间点从原来的9天到今天我们只需2.4天就可以完成一个包裹的投递。
“今年我们双11整个备货量足可以塞满1000个鸟巢或者16000架A380飞机。菜鸟到现在为止成立了大概6年的时间,这6年其实菜鸟已经把科技塞到未来的每个毛细血管。”菜鸟北京技术中心资深技术专家陈罡(花名:行易)说道。
首先,在包裹产出也就是仓库上。“菜鸟”用三个技术来达成数字化,即IOT技术、自动化技术和智能算法,确保实现数字化和智能化的仓储能力。
例如,每年双十一,仓库会招收很多临时工,但因业务熟练度问题,临时工培训和熟练完成工作需要耗费大量时间,而今年IOT技术就包含了一个lemo设备,能够让一个临时工在几分钟之内学会怎么操作,通过这个设备,临时工可以在一天之内达到99%的熟练度。
11月12日,阿里巴巴的董事长兼CEO张勇就在仓库里,花了5分钟时间使用了Lemo,他亲自点选了一些订单,并且在10分钟之内就把整个工作流程做完了。
目前,菜鸟在全国的自动化流水线已经超过了5000公里,自动化设备比去年增加了50%以上。在无锡还有一个机器人的生产线,在驿站这边“秒取快递”技术,自助可以通过刷脸取快递等一系列的。另外,电子面单使用率超过99%,大幅度的减少了整个中国的物流成本。
绿色数据中心、开放式网络架构、RDMA高性能网络、弹性跨域访问和自研数据平台,5项绝技纵横江湖
以上大多技术,都需要基础设施去支撑。在基础设施的人眼中,双十一是什么?
阿里云智能基础设施事业部资深技术专家 唐陵波(花名:龙现)谈道,“我们认为双十一就是华山论剑,阿里毫无疑问是世界第一。但是我们认为,所有的武功都不是一天练的,创新的内功和赋能的武器才是我们在华山之巅拿到的利器、基石。”
阿里是怎么练内功的呢?这就要看阿里绿色数据中心里一个比较创新的技术,叫液冷服务器,这个技术在2016年上线了1.0版本,现在是2.0,已经在阿里做了大规模的部署。今年双十一,液冷技术能够把每万笔交易量的耗电量降到2度左右。如果所有的交易都放在液冷上实现的话,双11当天可以节约15万度左右的电。
目前,阿里巴巴数据中心已经遍布了200多个国家和地区。这样分布广泛的数据中心被看作是易筋经一样的肋骨,是驱动阿里一切商业行为和商业流量的基础,不仅能够支持双十一的峰值而且能够提供弹性的服务。另外,液冷技术近期将会开源。
练完内功再来看屠龙宝刀,也就是阿里的自研服务器,它能够优化阿里应用场景,促进产业生态研进。在存储场景中,龙现重点介绍了AliFlash,它已经广泛运用在存储场景里面,通过硬件的创新和软件技术的结合,阿里现在做到了软件一体化上下的协同设计,在性能和功能上都有突破性的创新。
在阿里百万级的服务器规模背后,怎么让资源能够充分利用?龙现说道,“我觉得极致弹性和自动化,是我们能够支撑这么大规模的服务器,放在我们自己的数据中心里面的一个最重要的原因。”
还有被龙现比作倚天剑的自研交换机,自研交换机就是阿里在网络领域的一个重大的技术创新,实际上是就是网络界的去IOE,它承担了大部分的核心流量、网络流量,能够让大家感知不到网络的减速或“晃动”,使双11平滑过去。
另外,RDMA网络也是一个重点技术,今年像存储计算分离之后的云盘和核心数据库的核心交易量,在去年的基础上发展了3倍,所有的这一切就是阿里在数据中心网络里面做的几个比较突出的工作。
供应链中也蕴含着太极拳。“大家都知道太极拳是以静制动的,放在企业层面它更多强调的是人的协同。从当初集团决定双11上云使用神龙,到最后上线只有两个月时间,供货、备货、测试都非常紧张,但是供应链的同事通过优化库存、优化流程,然后去帮助供应链厂商优化资源共享,极大的提高了供应链的交付情况,取得了较为满意的结果,有效的支持了双11上云这个目标。”龙现解释道。
总结来看,支持云上双十一的硬核基础设施,共有5项绝技纵横江湖,绿色数据中心、开放式的网络架构、RDMA高性能网络、弹性跨域访问和自研数据平台。
未来将持续拥抱开源,拥抱云原生技术,以技术效率提升商业效率
在过去十几年电商的发展的背后是技术力量的持续发展,电商的发展带给技术巨大的挑战,技术的突破和变革也支撑起电商业务规模的不断壮大和商业场景的拓宽。
阿里巴巴淘系技术部资深技术专家洪海(花名:孤星)谈道,我们经历了系统架构从集中式到分布式,从中心化到去中心化,从私有云到混合云,今天全面进入阿里云的公有云的过程。在这个业务的高速发展的过程中,一个个难题放在了技术人的面前,最大的挑战来自双十一,在这个巨大的商业盛况的背后是一层层技术的突破。
网络、服务器、存储这些基础设施多年来发生了翻天覆地的变化,微服务,容器化,数据库等一系列的底层技术和框架的持续演进,带动了电商技术今天在搜索,个性化推荐,视频互动,消息等各个应用领域支撑和连接着数亿消费者。
解决了业务规模增长的技术瓶颈之后成本的问题摆在了阿里人的眼前。为此,电商开始尝试混合云的架构,在大促时短时间内租用云的机器进行扩容,进而形成了云单元,另一方面又利用离线大数据集群和在线集群的错峰互补,形成了混布技术。在这个阶段我容器化技术飞速发展,Pouch容器和Sigma调度系统成为了整个资源管理调度的基石,支撑了数百万的容器的管理和运行。通过这一系列手段,应对双十一峰值的计算资源的成本得到了有效的控制。
在成本问题之后,阿里借助神龙服务器、云的弹性能力、秒级扩容技术、云端一体研发等实现了更有效率和更加开放。
最后,孤星表示,“未来我们将持续拥抱开源,拥抱云原生技术,全面上云。通过技术效率的提升推动商业更有效率,生态更加开放,让技术创造新商业。”
作者:温柔的养猫人
本文为云栖社区原创内容,未经允许不得转载。