SDDC规划建设与一体化云网解决方案
为了进一步推进金融科技发展应用,深化西南部地区金融机构间的协同,提升服务实体经济水平,助推西部地区金融业高质量发展,四川省计算机学会金融分会联合《金融电子化》杂志社、中国信息通信研究院共同主办,由成都银行承办,于2019年7月18、19日召开了2019中国「成都」金融科技发展论坛。
金融行业在稳步改进系统架构和云计算应用的过程中,中大型金融机构从传统IT基础架构逐渐向云基础架构演进时面临了诸多的问题与挑战。云杉网络CTO张天鹏在会上与来自西南地区国有银行分支机构、股份制银行、城商行农信社等信息科技部门的专家及领导共同探讨了企业IT如何构建混合云SDN网络,分享了云杉网络在金融、运营商、交通等行业的一体化云网解决方案。以下为演讲实录。
▌SDDC的现状
不同行业根据自身的业务特点对于云计算基础架构的要求有所差异。金融企业对网络的高可用、合规性等方面有很高的要求。SDDC即软件定义的数据中心所涵盖的范畴相对较大,包括计算虚拟化、存储虚拟化、网络虚拟化。在建设SDDC的时候不仅要考虑资源,更要以业务为核心去考虑如何构建IT基础架构,实现计算、存储、网络的按需软件化定义。SDDC构建之后整个数据中心的IT技术架构以服务的方式交付给业务系统,资源的管理编排实现高度的自动化控制,未来软件定义的数据中心趋势是智能化的运维与闭环控制,满足业务弹性扩展和平滑迁移。
在云计算核心技术中,网络是重要且复杂的部分,需要考虑的因素包括物理网络、虚拟网络、业务网络、安全、合规、运维等诸多因素。SDN是实现SDDC网络规划的核心技术,主要体现在:
- 解决网络自动化配置,让网络具有可编程性,从而获得很大的灵活性;
- 网络可视化,云网络本身很复杂,需要有强大可视化能力;
- 云网一体化,通过与云平台对接提供网络编排能力。
目前绝大多数的公有云、私有云都采用了SDN技术。这是一个逐步演进的过程。从传统的数据中心物理资源来看,计算资源、网络设备、存储资源这三者虽然相关但融合度并不高。许多云平台把计算、存储、网络虚拟化以后,以相互之间隔离的逻辑将资源交付给租户,在网络层面对应的就是VPC「Virtual Private Cloud」。VPC是交付给租户的逻辑隔离网络空间,与数据中心运行的传统网络相似,托管在VPC内的是在私有云上的服务资源,如云主机、负载均衡、云数据库等。可以自定义网段、IP地址和路由策略等,并通过安全组和网络ACL等实现多层安全防护。同时也可以通过VPN或专线连通VPC与原有的数据中心,灵活部署混合云。
在公有云和私有云实现了VPC是不是就满足了用户的所有需求呢?在实践中可以看到,对于全新的业务系统VPC很好解决了问题,但对于需要兼容既有复杂IT环境的企业,VPC并不能完美解决问题。公有云的VPC,目的是提供多租户和资源隔离,强调的是业务的垂直性。比如很多企业可以在公有云上部署自身业务,这些业务之间一般没有特别的关联关系。特殊情况下,某些公有云实现了VPC和VPC之间的网络通道,但这对于直接承载企业业务来讲是远远不够的。
资源的规划要以业务为核心,业务的稳定性和技术风险可控是技术选型的重要因素。很多情况下内部业务之间的相互访问非常频繁。某金融客户的借贷业务,南北向的流量只有不到10M,但在内部产生了超过1G的流量,业务区域之间东西向的流量有很多交互,某些场景中东西向流量可能是几十甚至上百倍的大于南北向的流量。
另外,安全策略管控也是技术选型参考的重要因素,所有的业务之间都应该具备安全隔离的机制,很多金融企业的IT环境中划分了不同的安全域,跨区域的访问一般而言是需要经过安全策略的。所以很多企业在实施云之后,因为业务太复杂,按照传统VPC的逻辑很难梳理清楚,采用的是业务域VPC的实施方案。即VPC对应的业务上的功能区,这样可以很容易和原有IT资源区域对应起来,降低业务迁移的复杂度。
▌SDDC建设目标
当用户建设SDDC时,会面临多种困难。首先是很多企业客户不止一个数据中心或一套资源池,而数据中心整体IT架构不是一天建成的,历史上有不同厂商的设备、有不同类型资源池,混合资源池是常态。另一个是服务化的交付,原来纯靠手工配置网络、安全策略的时代过去了,必须实现高度自动化的方式给业务部分实现自服务能力,不需要每天开端口、配策略,需要把人力解放出来。再次是合规性,包括业务合规性、监管要求、等保合规是必须满足的。最后是可用性,从业务高可用方面必须达到高可用和容灾的要求,达到服务SLA的要求。
在云杉网络和企业客户的诸多实践中,混合云架构是相对灵活并能让企业业务逐步从传统IT演进至云计算架构的方式。这里介绍的方案包含了云杉NSP混合云网络服务和DeepFlow®云网分析的方案,这个混合云方案包括几个层面的含义:
企业的业务可能部署在多个数据中心,每个数据中心因为构建的时期不同,可能有裸机、虚拟化、容器等类型的资源池,还有些业务部署在了不同的公有云上。在这些基础资源之上可以构建混合云的云管平台,SDN能把上述的资源网络打通,以服务化、按需定义的方式交付给业务。
混合云网络分成两个部分,第一部分是资源网络管控,这里有公有云、私有云资源,可以在其上构建一个统一的Overlay网络,这个网络是以VPC为基础,可以将传统网络统一纳管和连接。从资源属性上看网络管控包括两个部分,一是资源池内部,或者是云内部的管控,这里重点是对资源池网络怎么做网络虚拟化,怎么提高性能、扩展性和高可用。二是云间互联,即资源池与资源池之间的互访管理,基于这个网络我们提供了多种用于业务隔离的服务,如边界网关、DC边界的防火墙及负载均衡等多项满足网络隔离、安全可控、等保合规等类型的服务。
第二部分是混合云网络的可视化监控,目前比较流行的架构是通过在云里部署各种各样的数据探针,把数据采集出来发送到大数据分析平台,基于这个平台做网络全景展示、业务故障分析、网络诊断分析和回溯分析等功能。
从整体混合云管平台来讲,我们可以从网络层面提供面向异构资源的网络虚拟化方案、跨数据中心网络边界服务和混合云网络编排解决方案。从虚拟网络运维的层面为多租户业务提供虚拟网络流量采集、虚拟网络性能监控、虚拟网络策略管理和虚拟网络路径诊断解决方案。
▌NSP网络服务平台
从软件架构来看,混合云的SDN控制器逻辑不仅是设计一套最优的架构,还要考虑既有网络架构,比如既有当前流行的Fabric架构,也需要支持传统的接入-汇聚-核心的网络架构;既要考虑物理网络,也要考虑虚拟网络的实现逻辑。从资源池来讲,因为业务的要求需要支持例如裸机、容器、OpenStack、VMware等类型资源池,同时支持公有云的对接。控制器的核心有两层,一个是编排层,一个是控制器层,编排层主要面向云管提供统一的网络的编排和服务,控制器层主要是控制下层的云资源。
▌网络虚拟化要解决的核心问题
网络虚拟化解决方案场景在需要支持较大规模的基础设施时,主要解决的问题包括以下四个方面:
- 如何支持弹性扩展,目前流行的网络架构是VxLAN进行组网,EVPN完善了控制平面,解决了大规模的问题。
- 如何支持高性能的东西向流量,在很多业务系统里面东西向的流量远大于南北向的流量,随着网络规模的扩大这个问题会更突出。
- 分层解耦,云平台运维管理不仅有技术问题,团队职责边界的划分也成了经常遇到的问题。比如如何界定网络团队和系统团队在云网络中的管理边界,网络团队原来是管设备居多,在云资源池上线以后,虚拟网络到底归谁管。为了厘清这个逻辑,我们需要把网络和系统解耦,将网络作为标准服务用于多资源池。
- 如何支持多厂商设备,因为没有人愿意被厂商绑定,如果技术方案能支持多厂商,就意味着未来的业务扩展会有更大的灵活性,不会受制于人。
上图是一个比较流行的数据中心的网络架构,从业务层面来讲,采用这个架构可以分为三种不同的网络区(Border Leaf、Service Leaf、Server Leaf)。另外资源池的规模很大,有几十或上百个Rack,而且可能会包括不同类型的资源池。对于网络虚拟化而言,有一个核心的机制是Super Plugin,通过这个机制,可以支持多种资源池、支持多厂商的设备。设备API类型丰富、功能强大,如果每个功能都支持,基本上很难实现,并且这不是SDN的目标。Super Plugin机制是从云管逻辑出发,梳理了业界标准的架构,通过这种开放性标准实现跟厂商或者是云平台的对接。
▌混合云网络编排
作为核心功能的网络编排面临几个挑战,首先对于现有的业务迁到云的时候如何满足既定业务上线要求?云网络部署架构很多场景是按照VPC设计的,规划VPC是首要考虑因素。其次是既有投资保护,不可能上了云以后将原来的设备全都废弃,需要考虑利旧问题。第三就是弹性扩展,如何在多数据中心之间实现资源弹性扩展,实现业务高可用。最后是业务的隔离,如何保证不同的业务之间有足够的安全防控手段。
这是一个逻辑图,它是基于VPC概念的扩展,即在一个VPC中可以包括多个Region「数据中心」、多类型资源池,包括网络、安全服务,且通过SDN技术,实现了网络的扁平化,将上述资源、服务融合到了一个网络之中。最下面是云的资源区,比如说OpenStack或VMware资源池,提供资源访问的方式。倒数第二层是资源访问的网络接入层,包括二层、三层网络连接能力。倒数第三层我们称之为虚拟路由交换,vRouter是核心,它南向连接资源池,中间可以连接DCI,可以基于DCI构建Overlay网络。这个VPC不再局限于某一个地域的某一个资源池,而是可以跨数据中心,可以把南北的防火墙和网络的功能加进来。
这种扩展VPC给客户带来了很大的弹性,举个秒杀的业务场景。很多企业数据中心的资源是有限的,在赶上促销活动时一个Region的资源满足不了要求就要弹性扩展到其他Region,业务是要求有跨数据中心的。为了实现这个需求我们提供了跨数据中心混合云网络编排方案,实现的效果是将两个不同地域的数据中心里面,不同厂商的网络设备、网络防火墙、负载均衡等用NSP网络编排方案将资源打通,满足秒杀业务弹性扩容的要求。
▌网络服务交付
站在混合云数据中心管理和运营的角度来看,如何在保护原有设备资产投入的前提下兼容硬件设备和NFV、统一纳管多厂商多品类的网络和安全服务、化解硬件设备厂商绑定的问题的同时,给租户提供差异化的网络服务,即满足性能需求和服务交付的效率又能给用户带来更多的灵活性。
上图左侧是一个云管,右侧建立一个逻辑上的资源池,一般是放在Service Leaf中。这个资源池里面能够把数据中心南北向的安全服务放到一个池子里面,包括为DCI和ISP的接入提供网络和安全服务。
▌DeepFlow®网络可视化分析平台
从整个软件定义的数据中心的部署来看,根据业务需求把网络以软件的方式配置好后,接下来所要面临的就是虚拟网络运维监控的问题。DeepFlow®从虚拟网络流量的采集、分发、分析三个层面出发,将遥测类数据、日志数据和网包数据采集并发送到大数据引擎中,在与云平台信息关联后进行多维度分析和可视化的展示。
可视化平台流量采集有两个技术难点:
- 精准采集,传统网络流量采集方案是从交换机做分光、镜像,东西向的流量非常大,成本非常高,如何通过SDN做更细粒度访问的控制,实现精准数据采集是关键因素。
- 虚拟网络流量分发,如果想分析南北向的流量相对简单,但对于虚拟网络目前的技术还不是特别的成熟,业界缺乏统一的规范。DeepFlow®提供整体虚拟网络流量采集和分发能力,包括OpenStack、VMware和正在支持的容器,能把各种网络不同资源池的流量采集出来,送到后端的安全分析、审计等工具,满足合规性的要求。
前面说到的流量数据采集,分发后的目标还是为了解决业务的问题。从业务来讲DeepFlow®和云管做了对接,以云租户、云资源和云网络三个视角分析云端业务的流量特性从而可以将网络的拓扑、网络的流量与其承载的业务进行有机的关联分析。通过DeepFlow®的全景图功能,可以看到是哪个VPC、子网、虚拟机产生的流量,性能分析是面向业务的流量分析,包括南北向和东西向流量,分析的KPI指标包括RTT、重传、延迟等,给用户提供了快速故障定位和诊断的能力,并以可视化的方式将问题根因呈现出来,作为团队之间责任定位的依据。端到端的诊断是另外一个重要的功能,支持从逻辑网络到虚拟网络最后到物理网络的虚拟网络节点、物理网络组件、VLAN/VxLAN的转换、安全组规则、流表表项等配置的展示与分析,这里可以把网络延迟、流量的变化还有丢包率和流速放到一个维度分析,基于这些分析结果,提供事件驱动的告警信息,并可以统一纳管平台各应用创建的告警策略。
▌总结
最后总结一下SDDC规划的思路,混合云的架构是企业数据中心建设的未来趋势,在这个基础上构建新的资源池形成IT基础架构的统一规范,通过SDN技术实现业务平滑迁移、利旧、控制风险,再通过网络自动化、服务化的能力来提高运营效率并满足一体化的运维监控体系。