通威股份CIO周勇:低成本、普适性的云容灾成为可能

回顾三年前,彼时的通威正在迈开IT转型的步伐,建设集中一体化运营的ERP系统,建立通心粉社区,打造全球水产人的网上家园,建立通威智能水产养殖系统实现智能养殖,以私有云为架构建立FBC融合业务云平台开启云化转型,这一系列的信息化建设举措为通威业务的快速发展夯实了基础。

通威股份CIO周勇:低成本、普适性的云容灾成为可能

通威股份有限公司CIO周勇

通威股份是较早一批采用统一通讯系统的企业,目前已更新至第三代云视频会议系统,企业内部跨地域、跨国之间的视频会议均免费,内部沟通与协作十分高效。此外,通威已完成SRM供应商&协同管理系统,HRM人力资源管理系统,决策分析BI系统等信息化建设工作,为助力集团业务发展,促进管理提升打下了良好基础。

借助先进的技术平台和管理思想,通威构建了面向未来的数字神经网络,这让通威更具竞争力,与此同时,业务对IT的重度依赖,也让周勇身上的负担越来越重。通威的私有云数据中心采用了双电源、三条互联网线路,通威大楼也配备发电机,周勇提到:“虽然我们的私有云数据中心非常先进,但是随着业务对IT的依赖度越来越高,一旦机房、网络出现问题,一个电话都打不出去,对业务造成的影响更是无法估量,IT团队时刻处于提心吊胆的状态。”

从隐患存在到事故发生只需要一根引线,有一年9月底,由于光纤被挖断,通威当天要进行月度结算,数据中心的运算量非常大,如果不能快速修复,对于已经上市的通威来说可能造成较高的收入结算影响。这样的后果显然不是IT团队能承担的,还好当天事故得以快速解决,没有造成严重的后果,但是这样玩心跳的状态显然不是周勇想要的。

公有云容灾方案初探

要想保证私有云上IT系统的稳定性和连续性,容灾模式是必然选择。对于像通威这样以农业为主的传统企业来说,99%以上的企业都没有做容灾,成本太高、技术难度大、建设周期长、管理维护复杂、扩展性差是主要原因。

传统容灾不可取,周勇很快想到用公有云环境做容灾的可行性,这是公有云的创新应用,可参考的案例非常少,合作伙伴的选择更需谨慎。另外,公有云容灾涉及到将传统核心系统向公有云迁移的问题,受传统IT架构的影响,数据上云容易,要想保证公有云和本地数据中心的数据同步却是一个很大的难题。

经过慎重的综合考察,通威选择与AWS及AWS高级咨询合作伙伴四川知行志成科技有限公司共同探索公有云容灾方案。提及选择AWS的原因,周勇认为主要有三个理由:一是AWS在全球云计算领域领军者的地位;二是AWS在中国拥有大量的实践案例,也有中国本地的数据中心,业务与支撑服务发展状态良好;三是AWS对创新项目的支持非常给力,双方在背后均付出了大量的努力。

云迁移的思路,一般都是从简单应用开始,通威则恰恰相反。在周勇看来,与其对HR等独立性较强、集成度较低的单个系统做容灾测试,不如直接做复杂核心系统的容灾,因为核心系统的容灾对企业来说更有价值,对企业业务的影响更大。

“坦率地说,AWS开始做我们的项目,也不一定非常有底。”周勇如是说:“基于IaaS环境做容灾,迁移到云上没有问题,但是我们选了FBC融合业务云平台这个复杂的核心系统来做,所以他们也不是很有底,但是他们做到了,而且做成了一个非常好的方案和服务。”

通威股份CIO周勇:低成本、普适性的云容灾成为可能

FBC融合业务云平台的复杂度在于它是一个应用集,包含了门户、BPM(流程管理)、身份管理、BI、SLA、EBS(企业服务总线)、知识管理等各类应用。FBC与三十余个系统集成,是通威当之无愧的核心系统,与之有关联的接口多达500余个。FBC一旦出现问题,所有的业务系统可能都会受其影响,对FBC进行云容灾,风险和难度可想而知。

周勇回忆,通威云容灾项目从2018年6月开始进行技术方案测试,到2018年10月,云上、云下迁移的技术方案已全部完成测试验证。在随后的一年里,通威一方面进行AWS技术认证,另一方面针对非云架构的自有系统,进行改造和解耦来适应云架构,解决数据传输速度和效率问题的同时,也攻克了多用户在云上运行效率的难关。

普适性、低成本的云容灾成为可能

值得一提的是,2019年6月份,通威遇到了云容灾项目中的一大瓶颈,那就是大量数据交互的问题。系统和接口的改造带来了集成方式和网络环境的变化,同时也会带来效率、集成和速度方面的问题。通威的本地数据中心用的是双路光纤、万兆光纤通信,系统和数据放在云上,传输效率是否会大打折扣是周勇非常担心的问题。经过对比测试后发现,在云上用500 Mbps与本地的万兆光纤进行数据传输,足以满足业务的访问需求,随后项目团队又测试了200 Mbps的云上传出方案,也足以支撑实际生产环境中数据交换集成对网络环境的要求。至此,通威打通了私有云数据中心与AWS公有云之间的通路,其核心应用FBC系统成功在AWS云上实现容灾,形成了具有安全性、高可用、可扩展的混合云架构。

通威股份CIO周勇:低成本、普适性的云容灾成为可能

通威混合云容灾备份架构图

在笔者看来,周勇是一个怀揣梦想、勇于探索的实干家。以往容灾只有银行、证券等金融行业的大企业才做的起,通威云容灾项目的初衷是打造一个低成本的容灾项目,让中国企业不会在谈到容灾时因为技术和成本问题望而却步。通威FBC平台云容灾项目的顺利交付,不仅成就了通威、AWS以及知行志成三方,也给传统企业进行云容灾开辟出了一条通路。周勇强调:“200 Mbps意味着什么?意味着这是一款云上灾备的普适性、低成本的方案,这个项目做完了,中国企业的传统数据中心在云上做灾备,没有做不成的。”

为了降低项目的总体成本,实现云容灾的普适性,通威与AWS进行了多次尝试。一是更换了项目灾备软件中核心的VRP(通用路由平台),将VRP的成本降到很低的水平;二是考虑到云上资源的占用差异,将业务中断时间设置为30分钟,在节约成本的同时,30分钟内就可以切换到云上,快速恢复核心业务,解决了IT的核心问题。另外,云上的服务器无需开机,企业只需支付日常的存储费用,只有在异常事件发生需要启动云容灾时才会开机,因此可以将容灾费用降低至十分之一、百分之一甚至更低水平。

当前,中国的大部分企业都处于轻基础架构、重应用的状态,因此企业需要一个庞大的IT团队去维护基础架构。通威云容灾项目的另一个核心价值,在于能将IT团队从复杂、繁琐的运维管理工作中解放出来,有更多的时间和精力去关注业务和创新,为企业的IT转型提供更重要的支撑。

探索未来