青云的云计算和人工智能生意经
编辑|杨赛
AI前线出品| ID:ai-front
AI 前线导语:“按照这家公司自己的话来说,他们是一家交付底层 IT 资源的云计算公司,并不是一家交付 AI 服务能力的公司。但是一方面,这家公司有很多交付 AI 服务能力的合作伙伴与需要 AI 服务的客户;另一方面,AI 技术以计算、数据、算法为三大基础,若没有云计算产业的成熟,必然不可能发展到今天众人瞩目的格局,因此对于 AI 现状的研究,必然绕不开云计算产业。
本次的 AI50 人,我们采访了青云 QingCloud 的联合创始人林源先生,一谈在他们的角度所看到的 AI 产业在 2017 年的发展情况,以及支撑 AI 产业的云计算产业在 2017 年的发展情况”。
嘉宾简介
林源(Spencer Lin),青云 QingCloud 联合创始人,本科和硕士就读于清华大学,毕业之后一直从事分布式和底层系统的开发与研究工作。创建 QingCloud 之前,曾在 IBM 参与 Hadoop 相关的研究和优化项目;2010 年加入腾讯搜索的图片搜索项目组,参与图片搜索的相关性算法研究与开发、海量图片分析和挑选等工作。联合创建青云后,林源承担了数年首席架构师的工作,目前担任青云的产品总监兼运营副总裁。
InfoQ:首先,请您简单介绍一下你们在今年达成的主要目标?
林源:产品构成方面,我们在年底会发布三款新产品。基于这三款新产品的发布,我们在底层架构上已经相对比较完整了,因此我们提出了“全模云”的理念。
三个产品,一个是我们的物理主机,就是青云除了交付虚拟主机和容器主机之外也可以交付物理主机资源;第二个是 NeonSAN 共享块存储,它通过 Server 集群代替传统存储柜的功能,同时可以给到虚拟主机和物理主机去使用,非常适合 Oracle RAC 等需要偏传统架构来支撑的业务。这两个产品让我们可以更好的去支撑企业的稳态业务。
第三个产品 RadonDB 分布式数据库,它比较适合传统客户的传统业务向互联网业务转型的场景。比如我们一个保险行业客户,他们在感恩节这天提交的订单可能是平时的 double commission 或者 triple commission,比平时多很多。这个业务原本可能是基于 Oracle 做的,但是 Oracle 其实是不太支持这种抢购的场景,所以我们提供的 RadonDB 分布式数据库就是应对客户的这一类需求,就是传统客户的传统业务不用经过太大的变动就可以上云的这个需求。
InfoQ:你们现在营收的来源比例如何?
林源:从业务构成来说,青云当前有五块主要业务:公有云、私有云、混合云和托管云,以及骨干网。今年来说,骨干网的业务增长是比较快的。从骨干网客户的行业构成来看,互联网金融客户是占比最大的,包括泛金融领域如保险证券这些领域的客户,他们今年的互联需求比较多。
骨干网要解决的是端和云互联的问题,这个端可以是终端设备,也可以是机房。骨干网首先要解决的是资源的问题,但是目前资源是已经存在的,但是缺乏互联。在这种情况下,我们需要跟专线供应商打交道,比如做煤气管道的公司、做高速公路的公司,以及在每个城市的专线供应商,因为可能每个城市都有不同的公司在本地掌握比较多的资源。另外一个需要解决的问题是调度能力,这个是比较有技术含量的,所以这个需要我们来做,我们会加入我们的智能控制节点和控制逻辑,把这些网络资源调度起来。
2015 年,我们建成骨干网的北京节点;2016 年,我们建成上海节点;2017 年,我们建成广东节点以及小规模的亚太节点,所以现在我们自己在四个地区有自己的骨干网节点,在其他地区就用合作伙伴的节点。有了骨干网之后,客户的体验跟以前是很不一样的,我举两个例子。
一个是我们在西藏的一个客户,他们需要跟北京做互联,也需要跟在深圳有合作的银行做互联。传统做法是什么?西藏到北京、西藏到深圳分别拉光纤。现在的做法不一样了,西藏的客户可以连到我们在西藏的合作伙伴的节点,深圳的银行可以连到我们在深圳的骨干网的毛细血管节点,这两段连接我们找资源提供方让它做最后一公里的对接就行,其余的对接我们跟我们的合作伙伴都已经做好了。
第二个是银行要做掌上生活这样的互联网业务,在每个城市都要提供服务。以前他们也能做到,但是很痛苦,因为要跟运营商一个一个谈合作——谈好了线路、实际运营之后才发现带宽不足,例如做秒杀和推广的场景——这个时候还得和运营商提交申请,这完全不是一个技术问题,下单之后可能要有层层审批,要找关系,一家不够还要找多家,要做冗余,诸如此类种种问题。但是有了骨干网之后,用户可以自由灵活的对使用的资源进行细粒度的控制和调度,按需使用,按需交付,用户使用骨干网就会和现在使用云资源一样的方便。
骨干网,我们叫做连接资源,跟机房里的计算资源一样,需要用技术把它更好的抽象出来、交付出来。所以青云说白了就做两个事情:交付云、交付网。我们做的就是这些底层的脏活儿、累活儿。骨干网业务今年上涨得很快,因为客户的需求确实很高。
InfoQ:自建骨干网在成本方面会不会很高?
林源:其实也不一定需要投很多钱。虽然我们的确自建了几个点,投了很多钱,但更多的资源不需要我们去投,我们有合作伙伴。就好像我们不需要去投建 IDC 一样,因为中国遍地都是 IDC。现在 IDC 都在转型。专线供应商也是一样。
InfoQ:青云在 2012 年开始做的时候,那时候说做云计算,主要就是说计算、存储、网络、再加上安全四个大的组成部分。现在再看云平台的发展,产品种类更多了。您感觉这个过程中最大的变化是什么?最大的不变是什么?
林源:我们专注的事情是我们交付资源的能力,我们的核心是我们的资源调度的能力,在这个能力里面我们会不停的去深挖,去演进。
公有云上线的时候 SDS(软件定义存储)是 1.0 版本,到 2.0 版本有一个很大的变化,这是来自容器的兴起,要面对一个新型的场景。我们认为容器跟虚拟化是一个互补的关系,1.0 的架构只能去运行虚拟主机,2.0 的目的就是要同时支持虚拟主机与容器主机,所以它需要底层的变化作支撑。也不能说容器就一定是 Docker,或者一定是 Kubernetes,因为时代是要变化的,它现在火,可能哪天你看可能又不火了,但是你要看到这些不同的都有应用场景,就好像现在还有人在用物理主机,它们是互补的关系,所以我们就都得支持。
网络我们也有一个从 SDN 1.0 到 SDN 2.0 的变化。1.0 我们大量用了 OVS 的技术,你会发现用户规模上来之后性能就很差,这是圈内人都知道的事情。所以 2.0 我们就把 OVS 给摒弃了。
不变的事情是,我们还是去交付基础设施的能力。变化的事情是用户的需求,他对你底层的能力要求会越来越高,我们会不停随着用户的需求把青云变得更加丰富。
用户的视角也已经变了。两年前谈业务,用户会问你虚机什么价格、存储什么价格、带宽什么价格。现在谈业务,用户会说我想做一个风控业务,你能不能给我一个解决方案?你有没有什么 AI 的算法?这就到了业务层面。但你会发现越往上的业务层,每一个行业的语言都不一样,青云做不了这么多行业的东西。
所以 AppCenter 对我们来说是很重要的事情,非常重要,这是未来。在未来,青云的客户看不见青云,他们消费的是我们合作伙伴提供的服务。这些服务在青云的平台上会以 App 的形式去展示,但客户如果直接从合作伙伴那里得到服务,其实也不需要知道青云有个 AppCenter,甚至不需要知道有青云的存在。
InfoQ:能否介绍一个 AppCenter 比较成功的合作案例?比如有没有 AI 方向的?
林源:可以。我们有个客户是一个交通集团,他们其中一项业务是高速公路的收费业务。以前的收费模式很简单,就是一进一出一收费,这样每个收费站自己独立计费就好了。但是现在要改革,不能再这样粗粒度的计算费用,而是要精确按照每辆车的路径来收费,这就要求把收费站都串成一个系统,而且要有智能识别的能力。
他们从两年前开始用青云的公有云,我们帮它做了很多功能,比如图片存储,他们每天的流量有两百万的车辆,哪怕只算一进一出,每天也会有四百万张图片放在我们的 QingStor 对象存储里面。
但是这些图片我们只能存储,那些车牌识别、车辆外观识别、驾驶员人脸识别的能力,我们提供不了,或者说我们不愿意自己有这个能力。那在这个领域,商汤、Face++ 等都是我们的合作伙伴,所以我们会把他们的能力跟我们的存储对接起来,然后这个能力可以通过两个平台来提供给客户。一个是放到 AppCenter 里面,通过商汤、Face++ 的界面去使用;还有一个就是可以变成我们存储的开放框架里面的一个附加功能,把图片存进去,取出来的时候自动调用接口,就会在给我图片的同时给我一个结果。
这是一个三赢的结果。我们相信这个社会一定是多元的,每个人都有他的价值,每个公司都有他的价值、他的细分领域,每个人做事都要专注。
上回有个合作伙伴跟我说,说觉得我们的思路是有问题的,数据一定要抓在自己手上,他说一定要有数据,因为数据就是金矿。
我们知道数据是金矿,但是为什么我们作为一个工具的供应商要去碰客户的数据?我们要保持中立性。如果我们的合作伙伴是给客户提供数据挖掘服务的,那么他可以去碰这个数据;但我是提供计算和存储能力的,这个事情一定要分开,要不然说不清楚,我又当裁判又当运动员,就会让客户很没有安全感。所以这就是我们金融客户很多的原因。客户越信任你,才会把更多的业务放上来。做企业不要贪婪对不对?我觉得这是人最应该去控制的一个欲望。
算法,我们也不直接提供,我们提供算法平台。我们能做完所有的算法吗?不同的行业有不同的算法,我没有这么多的人去做。这是我们做 AI 的一个理念。
我们招 AI 的人才,除了更多的支持好合作伙伴的 AI 应用之外,更多是为我们自己内部服务,比如我大规模的数据中心,需要更好的优化自动化运维系统的稳定性。
InfoQ:介绍一下你们现在内部使用 AI 的情况?
林源:目前我们的 P2P 机器人更多的还是自动化运维,就是用相对固定的逻辑去处理那些已知的错误,基本上 90% 的常规故障都能覆盖。智能化是去解决那剩下的 10% 的事情,要能够去预测那些非常规的故障,也是目前比较热门的 AIOps 的概念。
这个目前我们也在做,我们线上的服务器也有一定的规模了,我们正在把这些服务器的日志收集起来做分析,并从这些日志分析中更快地发现和定位异常。在这个工作过程中,我们也会引入合适的合作伙伴来合作。这一套工具除了给我们自己使用之外,我们还会交付到我们应用中心中,给我们的客户使用,因为有一些比较大规模资源使用量的客户也遇到类似的需求。
InfoQ:你们对于现在市面上的各种机器学习框架是什么看法?会把哪个框架作为青云平台上的一等公民吗?
林源:我们对 TensorFlow、MXNet、Torch 这些都会去兼容,不会特别倾向于哪一个,因为我们不是要去帮客户做决策,我们要更通用,不同的用户需要的不一定是同一个框架。
InfoQ:那么在硬件芯片层面,你们现在已经推出了 GPU 集群。是否在考虑引入其他一些新的硬件?
林源:GPU 我们现在只能用 NVIDIA 的卡,因为 NVIDIA 的开发生态最好。但 Nvidia 家的卡确实贵。从我们的角度,GPU 业务的用量还是比较小的,没有看到很大的增长,当然这可能也跟价格有很大关系,毕竟 AI 的计算在 CPU 上也是可以跑的,GPU 主要是在一些特定的场景可以加速计算。
像 FPGA,我们未来也会提供,这里更多的是用户需求的考量,比较目前它没有 GPU 那么容易被大家接受。其实我们不会做太多的“跟着热门走”的事情,因为我们有盈利的压力。不是说技术能达到的事情我们都要去提供。
其实跟合作伙伴合作也是这么一个原则,比如 AppCenter,直观的想法可能是 App 越多越好,这样显得生态很大对吧?但其实不是的,你要换一个角度去考虑这个问题。你跟一个合作伙伴合作,最终的目的是要帮他赚钱,是要满足我们客户最急迫的需求。不能说客户火急火燎或者信心满满的上来,结果让他很灰心很失望。必须让他第一次就感到很满意,这个很重要。
InfoQ:抛开青云的立场不谈,您个人怎么看待今天整个 AI 业界的发展趋势?
林源:对于 AI 的整体趋势,我现在感觉好像更多是带着技术去找场景。我现在去参加 AI 的一些展会,感觉千篇一律都那么几个场景——做机器人的、智能音箱、智能手表,美国可能自动驾驶还多一些,然后图像识别、语音识别、金融反欺诈这些场景。总的来说,能落地的场景还不算特别多。
理论上,AI 是能照顾所有行业的,我觉得现在 AI 还没有被广泛使用是因为它的体验还太差。比如一个语音助手,应该可以任意的做断句,助手需要去理解我,而不是我在那里一个字一个字的说完之后它说它不理解。
现在 AI 在固定场景还是可以的,比如车辆识别的准确率还是很高的,但是像这种 to C 端的体验,我觉得 AI 可能不会这么快成熟。
但我觉得技术一定是在进步的,就跟我们在 2012 年做云计算一样,不是说 2012 年技术不成熟我们就不应该去做云计算,我们是应该去做的,但是我们没有办法让所有的人在 2012 年去接受云计算。这就是我的观点,就是很多时候它做得不够并不代表这个趋势不对。AI 现在的情况就是炒得很热,但是很多底层很多没有配套,你会觉得它上层强壮但是底层薄弱。现在大量的资本流入这个行业可能会催化很多的泡沫,毕竟投资人的投资都要有预期回报的,如果场景不是很多,无法支撑一个很好的现金流、很好的盈利点的话,可能很多的创业公司就坚持不下去。当然,有资本流进这个产业,总的来说是件好事,毕竟有资源才有可能做成一些事情。
InfoQ:您觉得你们现在的客户们面临的最主要的技术挑战有哪些?
林源:之前有一个很大的挑战就是传统业务上云的运行问题,因为传统业务跑在那样的传统硬件环境上,云都是分布式的架构,跑起来总觉得比较别扭。我们推出全模云,就是希望能解决这个问题。
另一个比较大的挑战是,上了云之后,IT 管理方式就跟传统的 IT 管理方式不一样了,需要新的 IT 管理方式。所以今年云管平台也挺火,就是把这些虚拟资源、硬件资源等异构资源统一的管理起来。第一件事是能在一个界面里面看到所有的东西,第二件事就是要联动不同角色的人,每类角色能看到不同的视图——比如可能业务部门进来可以看到业务运行的情况、落在哪些集群上面、底层某个故障影响到哪些业务,基础设施部门进来就能够看到网络流量监控、虚机监控、物理机监控等等。
另外就是,以前传统业务可能半年才迭代一次,现在可能一个月、一周就有一个迭代,这也是一个很大的挑战。
IT 管理的问题,其实公有云也面临一样的挑战,就是管理界面要更好用,管理账户的二级权限、三级权限的划分要更清晰,我怎么去支持客户作为一个账户购买服务、登陆进来,能够实现他的管理需求。就是说,现在的问题不是说我怎么去支撑客户的业务,而是我怎么去支撑客户的管理。
InfoQ:就青云自身而言,现在面临的主要挑战又是什么?
林源:现在的青云,产品很多,有几十个,而且都更新得很快。我主要思考的第一个挑战就是,我怎么在研发层面把控,确保每一个产品最终都能去满足客户的需求?第二个挑战就是,这些产品做出来了,怎么能够用客户能理解的语言去传递这些产品能够提供的价值?可能客户就提了一个很简单的业务需求,但这个需求可能就要用到我们的云管平台、骨干网、我们在某个城市的合作伙伴的资源等等,那我们就要有打包解决方案的能力给到客户,这对人的要求很高,既要了解每个产品的核心是什么、边界在哪里、跟哪些产品之间有怎样的关系,还能让客户明白这个事情是做什么的。应该说这是做 toB 业务都会面对的挑战吧。