下一代超大规模软件定义网络技术实践
云计算的 IT 架构已经在企业应用中表现出明显优势,但网络设计理念却必须是一种推倒重来的思想。为了适应云计算的灵活、弹性扩展、高效和低成本,网络设计要进化为集中式软件管理,可编程化,控制转发层面分离等。本次陈海泉分享了关于下一代超大规模软件定义网络技术实践。
以下是本次分享的内容整理。
大家好,我是 QingCloud 的工程师陈海泉,今天给大家分享一些 SDN/NFV 2.0 架构的网络技术。我解释一下什么是 SDN,SDN 就是软件定义网络。当然也不是所有网络定制一定要软件来实现,因为有很多硬件方案也可以做到 SDN 的效果。
青云QingCloud 用软件定义来实现虚拟网络,我们 2013 年的时候,在公有云上线了第一代产品。当时 SDN 还是一个比较新鲜的事情,用户用的还比较少。到了今天,SDN已经开始普及,连私有云用户也在使用基于SDN的VPC。
随着用户量越来越大,第一版的 SDN 提供的私有网络里面的 VM 超过一定的数量的时候,我们发现性能就有一个比较大的损失,已经无法满足企业用户的需求。所以我们在去年下半年的时候,花了很大功夫去做 SDN/NFV 2.0 的事情。
考虑到很多人对计算机网络不熟悉,我先补充下网络基本原理:计算机网络分 7 层。 SDN 相关的主要是二层和三层网络。二层是数据链路层,使用 MAC 为地址通信,二层网络中的成员通过交换机连接起来。成员间的应用软件虽然以 IP 为地址通信,但是通信之前,操作系统会通过 ARP 协议,把目标 IP 转换成 MAC 地址,然后再发送数据包。交换机根据数据包的目标 MAC 地址,进行数据包的投递。二层网络中,会用到单播,广播和组播三种方式。
三层是网络层,使用 IP 为地址通信。三层网络就是用路由器将不同的二层网络连接在一起,形成一个可扩展的网络。通信方式可以是单播和组播,但不能是广播。路由器的作用就是根据路由表,找出目标 IP 对应的 MAC 地址。数据包往往通过多个路由器之间转发,才会送到目标地址。
基本知识介绍到这里,现在说一下为什么需要 SDN 。
首先,虚拟化技术带来的好处是用户的 VM 分布在物理机集群上面,出于负载均衡,和服务高可用的目的,需要在物理机之间迁移 VM ,并且迁移之后 IP 地址不变。
在早期的虚拟化方案中,物理机集群比较小,全部是一个二层网络, VM 使用物理设备分配的 IP 地址时,发生迁移之后, IP 本身就不会变化。但是随着云计算的发展,虚拟化的物理集群需要被部署在更大的三层网络上,这时候 VM 再使用物理 IP 地址,是不能够保证 IP 不变的,因为迁移到了别的二层网络,对应的路由器就不认识原来的地址了, VM 要继续工作,必须更换成当前网络的 IP 地址。
这个时候,就需要网络虚拟化技术,也就是通过 SDN 给 VM 定义虚拟的 IP 段,这个虚拟的网络可以分散在整个三层网络上,使得 VM 迁移后, IP 地址不变。这个IP地址跟物理的路由器,交换机没什么关系,可以随便定义。随着云计算的发展,单靠网络虚拟化技术,仍然满足不了用户大规模部署的需求,这时就需要有 VPC 。
VPC 是什么意思呢? VPC 是用户定义的一个专属的大型三层网络。在 VPC 网络内,用户可以自定义 IP 地址范围、创建子网,并在子网内创建主机/数据库/大数据等各种云资源。
简单的说,虚拟网络指的是虚拟二层网络, VPC 指的是虚拟三层网络。在 VPC 里面,还需要能做到不同 VPC 之间, IP 地址复用。因为私有 IP 段有限制,不同的用户,可以使用相同的 IP 地址,却不互相影响。
正是因为云计算需要虚拟网络,也需要 VPC 。所以需要一个 SDN 方案解决这两个需求,现有的 SDN 方案主要分成两个方向:
用软件来定义,但是用硬件来实现。比如某些带 SDN 功能的交换机,把它采购进来,部署到产品里,用硬件厂商提供的 API ,就能定义虚拟网络,实现 VPC 功能。
NFV,就是网络功能虚拟化,用软件的方式来实现虚拟的交换机和路由器,把他们组织,并管理起来,让上层应用能够定义虚拟网络。其代表有 VMware NSX 、 JuniperOpenContrail、OpenStackDVR 等等。
QingCloud 在 SDN 方案的选型上也做过讨论,用软件还是用硬件方案?其中考虑的问题主要是以下三个方面:
-
成本。在公有云上面大家拼的是成本,谁的硬件成本低,谁就能把价格降到最低。如果我们采用硬件方案,在网络设备上面需要增加了很多投资,要替换掉几乎所有的网络设备。
-
设备依赖。我们的私有云卖的是软件,客户可以按照偏好选择自己的硬件,假如 QingCloud 的 SDN 绑定了某款硬件产品,那我们在面对企业客户的时候,可能连招标的机会都没有,因为客户往往有自己的采购渠道,指定的硬件品牌。
-
情怀。对于工程师来说,自然是想把产品做得更优秀。参考下优秀的传统行业,就能明白这一点。 其实,计算机网络跟传统快递行业非常的接近,我在后面解释网络知识时,也会拿快递打比方。
为什么说快递跟计算机网络接近呢?因为网络中的交换机、路由器,其实跟快递行业里的快递员和包裹集散中心非常相似,用户发包裹给快递员以后,快递员会送到快递集散中心,这里可以查询包裹应该被送到哪个地方,然后再将包裹经过多个快递集散中心层层转运,才会送到收件人那里。
顺丰在中国应该是最好的快递公司之一,因为它把转运环节都做全了,只有方方面面都能够控制才能实现压倒性的优势。
上面的插图给了顺丰航空的一个截图。我是看到了这张图,才明白为什么他们能够比别家送得快。因为他们不仅有自营的快递转运点,连飞机都是自己买的。
因此,我们如果把数据包转发的每个流程都控制到,就有可能在整体系统上面做到最优,而采用硬件设备实现这些功能的话,最后带来的是同质化,跟竞争对手相比不会有任何的优势。
综合以上三方面的原因,我们决定开发一套新的 SDN/NFV2.0 方案,取代 1.0 。
开发一套新的SDN/NFV 2.0 方案, 也就是自营航空公司。既然定了要自己做一套新的方案,怎么去实现?我们做了一些总结,新的产品首先需要满足传统 SDN 的功能。需要做到三点:
-
数据封装。也就是实现一个虚拟网络;
-
实现控制平面。对二层、三层的网络数据进行转发和路由规则的同步,然后下发到虚拟的交换机和路由器里面去,同时需要做到 ARP 泛洪抑制;
-
实现数据平面。我们使用了叫做 DVR 的linux kernel模块实现的数据平面,同时还提供了虚拟边界路由器,提供vpn,隧道等高级功能。
下面分别解释这三点:
首先解释下虚拟网络。 虚拟网络直接说比较难以理解,但是类比到传统行业,就好解释了。
在一些大公司里会提供一种叫内部邮件的服务给员工,比如要给财务部门某同事发一个报销单,会查他的工位,比如 2pw067 。然后准备一个信封,把要填的单子放在里面, 收件人地址就填 2pw067 。我不需要知道这个人是在北京,还是在上海,直接用工位号就能发件。我把这个信封交给公司的收发室。收发室其实不具备邮递能力,但是他们也能做快递业务,方法就是对这个信封进行重新封装,收发室有个地址本,能查到 2pw067 这个工位对应的办公楼具体地址。
然后用一个大信封,把我原来的信封装进去,收件人填目标办公楼的收发室员工名字,收件地址是实际的街道地址,然后把具有新地址的信封交给真正的快递公司,比如顺丰。快递公司会把信封发送到对应的办公楼,然后那边的收发室把外层信封拆掉,将里面的信封交给具体的收件人。
拿计算机的术语来讲,内部邮件系统就是虚拟快递公司,真正派件的快递公司,叫做物理快递公司。虚拟网络非常类似,允许用户通过自己定义的地址,进行传输。这个地址用户随便定义,反正物理网络看不到这个地址,也就不受任何限制。
物理机收到 VM 发的包后,会对数据包做封装,再套一个信封,也就是加个包头,写上目标物理机的地址。物理网络设备,根据新的包头把这个数据包发送到对应的物理机,然后物理机那边的终端会把数据包拆开,将里面的数据包转发到目标 VM 。
这里的封包,拆包就是 Overlay 技术,也叫数据封装。听起来很高大上,其实传统行业几百年前就实现了。
下面就是具体的计算机技术细节:实现虚拟网络,比较流行的数据封装协议是 VXLAN ,因为 VXLAN 相比传统的 GRE 协议有一系列的优势。
-
隧道连接一组物理机。 VXLAN 发包时,可以任意指定目标物理 IP 地址和 ID ,不像 GRE 那样,要在两边配置点对点的连接;
-
使用 UDP 协议。 UDP 协议的特点是有端口。发包时每个连接都使用不同的源端口。当数据包交给目标服务器网卡的时候,网卡根据这个数据的包头的 IP/端口做 HASH 运算,用于选择不同的网卡队列。而每个网卡队列会绑定到一个 CPU 上面,这样把包会交给不同的 CPU 处理,提升总体性能;
-
使用基于组播的 Flood & Learn 模式自动管理虚拟网络。这个功能会大幅降低组件虚拟网络的复杂度,因为 VXLAN 的终端,会根据数据包包头的内容,自动建立,并维护一个转发表。回包的时候,根据转发包找到目的物理机的地址。 这里的转发表,拿之前的例子说明,就是企业内部邮件收发室的地址本,把虚拟地址和物理地址对应上。 VXLAN 的这个特殊功能,就是能够自动建立地址本。
基于以上几点,我们觉得 VXLAN 不错,但是仔细的去想,就发现它有两个非常大的不足:
-
发送广播包时,使用了组播协议,大规模部署会受硬件设备组播路由限制。它在二层网络中使用时,没什么问题,但是在三层网络中使用时,物理路由器上会建立大量的组播路由条目,影响路由器性能,并且增加了路由器运维的难度。
-
Flood& Learn 的机制,会把原来在二层广播的 ARP 包扩大到三层网络。 第二点解释起来比较复杂,先从 ARP 原理讲起。 ARP 的作用是把 IP 地址转换成 MAC 地址。在发包方,如果遇到不认识的 IP 地址,会发个广播包到当前的二层网络,内容大概是:谁的 IP 是 1.2.3.4 ,请告诉 1.2.3.5 。所有网络成员都会收到这个包,但是只有 1.2.3.4 会回包给 1.2.3.5 。这样, 1.2.3.5 就知道了 1.2.3.4 的 MAC 地址,接下来他们就能够通过 MAC 地址互相通信。 Flood & Learn 的原理就是学习 ARP 广播包的行为,建立转发表。
拿之前的企业内部邮件做例子,收发室收到目标地址是 2pw067 的邮件时,他一开始不知道这个地址在几楼的哪个办公室,他会群发 Email 到写字楼的全体员工,说有 2pw067 的包裹。这样收件人会到收发室取邮件,同时把自己的 Email 告诉收发室。
此时,收发室的这个人,会默默在自己的小本上加一行: 2pw067 的 Email 是 [email protected] 。这样下次在有到 2pw067 的邮件,他直接给 [email protected] 发邮件,通知他来取件,而不是群发所有人。这个方式最大的问题是,收发室老会群发邮件,而且他每隔一段时间,就要确认下 2pw067 的 Email 有没有发生变化。这样随着规模扩大,广播越来越多,会严重的浪费带宽资源。
虽然物理网络也会使用 ARP 广播,但是广播被限制在二层网络里面。而虚拟网络的载体,实际是三层的物理网络,广播实际上可能被发送到整个数据中心的所有物理机。在大规模部署虚拟网络时,ARP 浪费的带宽可能占网络流量的一半以上。
要解决这个问题,需要做到两点:
-
拦截 ARP 广播,避免发送到全局;
-
使用控制器同步地址本,代替 Flood & Learn 功能。 所以,需要有 SDN 控制器,通过同步规则,取代 VXLAN 自有的 Flood& Learn 功能。
也就是说,有个 HR ,每当有员工人入职,工位变动时,就把他的工位发到公司所有写字楼的收发室,不让他们用广播的方式学习地址。而且收发室收到群发邮件时,会主动回包,而不是把广播包转发到别的收发室。
那么这个控制器需要多少个呢?我之前曾经了解过一些 SDN 方案,通常只有一个。它负责同步整个集群中所有节点的规则,这么做带来一个问题,当 VM 创建、销毁、迁移的时候,控制器需要把新的规则同步到整个集群所有的节点中。
而优秀的云计算平台,能够让用户秒级创建资源。 VM 创建、销毁、迁移这种事情,在集群中无时无刻都存在,同步规则会变得相当频繁。所以我们做了一个分布式控制器,不仅把控制器分布到每个 VPC ,还分布到每个虚拟网络里。
刚才说了虚拟网络和控制器,第三点 SDN 需要做的就是控制数据平面,其作用就是把数据包从网卡拷贝到 VM 。
传统的数据平面,比如 OpenStack 通常会用 OVS 。 OVS 会有一个问题,它会把数据包传到 UserSpace ,因为有个应用程序,根据流表决定数据包如何转发,这样会带来性能的下降。
而我们的方案完全避免了这个问题,使用自己研发的 DVR 取代 OVS ,所有数据转发都在 LinuxKernel 中完成。 DVR 就是分布式虚拟路由器。它实际上是一个带路由器的交换机,同时具有二层交换,和三层路由的功能。
DVR 这个概念,几乎在所有先进的 NFV 方案的 SDN 中都有,比如 OpenStack 的 DVR , VMware NSX 的逻辑路由器,OpenContrail 的 vRouter 。
他们名字虽然不同,但是本质是相同的,也就是说,让每个计算节点都拥有虚拟的交换机和路由器。听起来很简单,但是实现它有很大困难,其中之一就是:同一个网络的 DVR, MAC,IP 地址都是相同的,这在物理网络里面是无法想象的,因为打破了网络的基本规律。
但是 DVR 却是 NFV 方案的一个关键。
如上图所示,我们解释一下为什么需要 DVR 。左边是这张是物理拓扑图,物理世界中 A 和 B 通信,需要把信息发送到 A 的交换机,然后到路由器,然后路由器转给 B 的交换机,B 的交换机再发送给 B ,A 和 B 通常需要 4 跳才能发一个数据包。
我们 1.0 的时候,也是用 NFV 实现的 SDN ,我们会模仿物理世界,发明出虚拟的路由器和交换机提供给用户。请看中间这张图,如果 A、B、C、D、E 这五个设备分别位于五个不同的物理机上,在逻辑上,A-> B 的包经过 C、E、D 才能到 B ,逻辑上是 4 跳。但是虚拟设备每一跳都要通过物理机去转发,而物理机之间发包都需要 4 跳,这样总得转发量实际上需要 16 跳。
这也就是为什么我们 SDN 1.0 的性能总是上不去。随着规模增加,逻辑上每增加 1 跳,物理上就增加 4 跳,性能随规模衰减得厉害。
为了解决这个问题,我们引入了 DVR 。请看右边这张图, A 和 B 的物理机都有 DVR ,从 A 到 B 只在两个 DVR 之间直接交换一下数据就可以了,这样在逻辑上只有一跳。所以物理层面上跟左边的图一样, 4 跳完成一个数据包的转换,这样就可以非常接近物理机的性能,在大规模部署时,保持高性能。
使用 DVR 的另外一个原因,就是虚拟网络设备性能弱于物理设备,在物理设备部署拓扑上,经常有汇聚节点,成为网络瓶颈。由于物理设备能力很强,很容易就能达到 40 G ,或更高带宽,汇聚几次没什么关系;而虚拟设备作为汇聚节点时,往往就限制了它管理的网络整体能力,因为虚拟汇聚设备会成为性能瓶颈。使用 DVR 同时意味着不再有汇聚节点,因为所有成员都是点对点直接通信。
这个在物理设备上无法实现,因为不可能把所有设备连成一个大网,而虚拟网络设备上,是可以实现的,因为他们相连,只是加几条转发规则而已,而不是真的需要去点对点地连接网线。
有了上面三个功能,就是通常意义上的 SDN 了。然而我们在做云计算平台时,通过长时间的积累,还发现了很多需求:
-
VPC,并且 VPC 主机直接绑定公网 IP 。
-
负载均衡器。可在公网网关上对入流量进行分流,转发到多个负载均衡器节点。
-
VM 使用基础网络时,也就是物理网络的 IP 地址在迁移后不变。
-
VPC 和物理网络高效连接。 下面分别解释。
首先是 VPC ,青云QingCloud VPC 功能是 1 月 6 号上线的,我们只上线了一周就卖掉了第一批上线的所有物理资源。因为我们公有云的大用户已经深深的认识到必须要有一个 VPC 才能支持自己的海量的资源。业务真的到了一千个 VM 以上的时候,就需要有一个高效的三层网络,取代二层网络。
我们 VPC 设计是支持 64000 台虚拟机,代表着我们控制器控制规则有可能是 6 万条,假如我们把跟 6 万条规则同步到每个 DVR 上去,这同步量非常大。
相信靠我写的代码完全不可能实现。所以设计一开始就给他设计了一个学习的能力。学习不是是基于泛洪的学习,而是根据用户的行为对他进行学习。
这个学习功能,还是拿快递打比方。
快递员通常收到邮件时,会把邮件发到邮件集散中心,那里有人去查地址本,决定邮件对应的下一个邮件集散中心是哪个。然后会交给邮递员经行投递。我们假设每个快递员都能够把包裹投递到任何一个地方,也就是拥有 DVR 的能力。
当发件邮递员投送发给oc的包裹到北辰购物中心 2 号楼时,他多做一件事情,给收件的快递员打个电话,告诉他说:哥们,你以后再收到发给 oc 的包,直接交给我,不用送到邮件集散中心。这样收件快递员更新自己的地址本,记上: oc 的包,给快递员老王,让他直接去派送。下次,再有包给 oc 时,他把包交给老王,老王直接派送给 oc ,不必去邮件集散中心绕路。
这就是 VPC 主动学习功能的基本原理,能够实现超大规模的三层网络,却不必同步大量的转发规则。
请看上面的图。有两个虚拟网络,都在同一个 VPC 之间,当他们建立之后,两个 VM 分别加入两个网络,它们没有任何的沟通。最开始通信的时候,左边 VM 跟右边的 VM 发包,通过默认路由线路(邮件集散中心),经过两个节点中转,当 DVR 发现这两个虚拟机真的要互相访问的时候,才会把规则同步过去。
虽然一开始的时候性能稍微差一点。但是用着用着就快了,因为 DVR 学习到了规则。这样,不需要真的同步 6 万条规则到 6 万个 DVR 节点,真正的用户即使有了 6 万台虚拟机,也不可能时时刻刻都进行着点对点互相访问,一定会按照自己的业务往下拓展,某些 VM 之间才需要互相访问,大部分 VM 之间其实不需要互相访问。这样看来,完全没必要同步所有 6 万条规则,只需要学到其中几千条有用的就行了。
DVR 除了实现 VPC 功能之外,还有许多别功能。请看上面这张图,除了 VPC ,还有其他四个方向。
第一个就是公网网关,为了提高公网访问性能,DVR 跟公网网关可以直连;
第二是 VPC 的虚拟机要能跟硬件设备进行高度的互访,因为我们私有云用户的机房里,不止有虚拟机,还有 Oracle 的数据库、F5 的路由器等等,假如我们让用户把这些业务放到虚拟网络里,虚拟网络就要跟硬件网络进行高速的互访,VPC 跟物理网络互访通过给 VM 绑定物理网络 IP 实现,也就是说一个 VPC 的虚机,除了有自定义的虚拟 IP 地址外,还能有一个对应的物理网络 IP , DVR 会做地址转换,把物理 IP 转换成私有 IP ,实现跟硬件网络高速互联。
第三是 VPC ,可以让用户定义 255 个 C 段,加起来可以有 60000 多个虚拟机。
第四,我们还提供了一个边界路由器,可以让用户虚拟资源跟远程的 IDC 之间做一个互通。 除了 VPC ,我们为私有云用户设计了 VBC 功能。 VBC 的特点是里面的 VM ,全部可以直接使用物理网络定义的 IP 地址,而且具备 VPC 的所有功能。 VBC 是一个私有网络和物理路由器的混合网络,能够做到使用物理IP地址的同时,能让 VM 在集群中任意迁移,有保持 IP 地址不变。
最后一个就是负载均衡器集群,设计是这样,我们有一个网关集群连着因特网。比如我有一个 IP 1.2.3.4 ,入流量发送到 VG 1 这里。VG 1 会做第一次的流量转发,把流量转发到用户自己私有的负载均衡器节点里(LB node1、2、3)。它的特点是,返回流量不需要经过进来的 VG 1,而是经过 LB node 对应的不同物理网关发送到因特网。
因为当 VG1 能力受到限制的时候,假如我们所有流量都从它回去的时候,它自己的网络带宽实际上就是整个集群的能力,而我们把它分散之后,就可以做到,出去的流量几乎是没有限制,只要我们的 VG 设备有多少,它的带宽就会有多少,因为流量不需要从默认的线路回去。同时随着用户拓展负载均衡器节点的数量,也扩展了 HTTPS 的卸载能力。
并且我们做到了 4 层/ 7 层的完全透明,也就是说用户通过因特网访问到他们业务的时候,我们在所有转发过程中,都会保留其原地址,用户这边得到的包是直接来自因特网用户的 IP 地址。
Q&A
1、问题:有的 SDN 必须更换新的物理服务器;有的 SDN 不需要。请帮忙分析一下。
必须更换新的物理服务器的这种 SDN ,属于硬件方案,软件定义网络,硬件实现网络。典型的产品是思科N9000 系列交换机。有的 SDN 不需要换设备,因为代码跑在 X86 服务器上,也就是 NFV 实现。
2、问题:据了解你们新的 SDN 里面 VM 迁移可以保持 IP 不变,你是怎么实现的?
因为 VM 的 IP 在二层网上,使用了虚拟网络,将分散在不同物理机上的 VM ,都连成了一个二层网,但是路由器使用的是物理路由器,做到了迁移后,IP 不变,也就是虚拟交换机+物理路由器。
3、问题:LB 能否直接连接后端服务器?
可以,不管是 VPC ,还是基础网络,都可以,而且 TCP/HTTP/HTTPS 全透明,后端直接获得客户端源地址。
4、提问:刚才提到 DVR ,能不能详细介绍一下。怎么实现?
具体实现比较复杂,我们改了 LinuxKernel ,让它能够适应 DVR、MAC、IP 重复的情况。因为同一个网段的 VM ,网关的 MAC、IP 都的是一样,而这些 VM 又需要有各自的 DVR 。我们改了很多虚拟交换机的逻辑,也发明了一些功能才做到,但是不太容易解释。而且虚拟网络还能让用户使用虚 IP ,这也是 DVR 的一个难点。我之后还看了下 AWS 的 VPC 功能,他们还不能允许用户定义随便 VIP 。
5、提问:计算机都是和本地 L3 出去,在两个网端,那你这个从本地的 L3 到外网那个 L3 这怎么算?
从本地的 L3 到外网那个 L3 ,在 DVR 层面就是两个虚拟路由器之间的转发,逻辑上也是一跳。
6、提问:SDN和NFV有啥区别?
SDN 只要求软件定义网络,可以是硬件实现, NFV 表示用软件实现虚拟网络,属于 SDN 的一种。
7、提问:一个 VPC 对应一个 VXLANID ?可以对应多个吗?
青云QingCloud 的 VPC 可以包含 253 个 VXNET ,就是虚拟网络,每个 VXNET 对应一个 VXLAN ID 。 VXLAN 网关是分布式,一个 VXLAN 有很多 DVR 。
8、提问:一个 VPC 内网关是不是分布式的,同一个 HOST 内的两台 VM ,不同网段互访可以本地 DVR 转发,还是要到专门的网关设备?
本地 DVR 转发,通过学习功能建立路由表。
9、提问:VXLAN 控制平面的自动学习是怎么实现的?
我们自己发明的一个学习方法,要求 DVR 之间能够互相沟通。之前有讲过,就是那个快递员之间打电话的例子。
10、提问:SDN Controller 是你们自己研发的,还是开源的?
是我们研发的
11、提问:DVR 的配置下发是怎么实现的,是由 SDN Controller 下发的嘛?南向用了什么协议?
Controller 下发部分规则,建立默认的路由表,更多是靠 DVR 的学习功能,里面学习机制的通信是我们定义的,路由同步是标准的 BGP/OSPF 这些。
文章转载自:青云·社区