基础软件+开源,为什么是现在?
2020 年以来,在全球经济羸弱的大环境下,也有一些赛道脱颖而出,为长线布局的资本和创业者带来结构性机遇。
一个动向是,此前在中国市场不被看好的开源以及数字基础设施层的项目,成为不少科技赛道投资人的关注焦点。
这里的数字基础设施,指云计算基础设施、基础层数据存储与处理、云原生代表技术,且这类公司和产品多以开发者为用户,即做的是 to D 市场,开源是常见模式。
尽管外部环境萧瑟,一些国内外“数字基础设施”类项目仍频频传出逆势融资的消息。
2020 年 4 月,物联网大数据平台涛思数据(Taos Data)宣布完成超过 1000 万美元的A轮融资,这是其今年完成的第二轮融资;云管理软件及服务提供商骞云科技,同样在 2020 年第一季度完成两轮融资。
AI、5G、IoT 等技术革新不仅带来应用层的创新,也会带来数据感知、传输、存储、处理等基础层技术变革。而数字基础设施领域更容易诞生通用机会。
算法的投资热潮正在过去,基础软件的投资热正在来临。
这背后,也是整个 AI、数据技术投资逻辑的变化。
今天的文章,我们会分析造成这种转向的各种因素。
1. 又一次跟风?
历来中国 VC 都有跟风美国的“习惯”。目前基础软件在国内火也有这个因素。
我们先来看看美国基础软件市场欣欣向荣的现状及其崛起环境。
美国市场经历了完整的信息化、云化、智能化浪潮,基础软件设施领域已经跑出了很多公司。
已上市的公司中,MongoDB 和 Elastic 两家明星开源公司股价一路飞涨。
数据库公司 MongoDB 在 2017 年 10 月上市,截止 2020 年 5 月 26 日市值已超 126 亿美金,2020 财年的收入超过 4.2 亿美金。即使在疫情期间美股遭受史诗级重创的情况下,MongoDB 依旧保持了 20 倍以上的 PS(市销率)。
在 2019 年 4 月,MongoDB 还斥资 3900 万美元收购了面向应用程序的开源数据库 Realm,扩充自己的移动解决方案工具库。
数据搜索公司 Elastic 2018 年 10 月在纽交所上市,市值已超 50 亿美金。Elastic 成立于 2012 年,因其开源搜索产品 Elasticsearch 而闻名。
未上市的公司同样表现不错。
2020 年 5 月,开源数据库 Cockroach Labs 收获D轮 8700 万美元融资,至此 CockroachLabs 已经累积了超过 1.951 亿美金的融资。
开源平台 Confluent 也在 2020 年 4 月完成了E轮 2.5 亿美元融资,至此 Confluent 累积融资额已突破 4.559 亿美元,是行业内未上市企业中累积融资额最高的企业。
成立于 2012 年的云计算自动化平台 HashiCorp 在 2020 年 3 月获 1.75 亿美元的E轮融资,估值达 51 亿美元。
HashiCorp 称其收入已经连续四年同比增长超 100%,每年的客户数量也在翻倍,有超过 100 个《财富》500 强公司在使用他们的产品。而 HashiCorp 有 85% 的员工分布在全球各地进行远程工作。
美国市场的蓬勃离不开大数据与云计算的背景。可以说,整个基础架构的增量和变革都在美国率先发生。
2003、2004 年 Google 发布的 GFS 和 MapReduce 论文,全面揭开了大数据的时代序幕。
亚马逊最先入局云计算,AWS 已上线 16 年。
云的普遍使用带来了程序运行环境的升级,技术创新潮流一波接一波,包括集群技术,流计算,数据库,容器技术和机器学习等。
最先的潮流是云计算基础设施,主要集中在容器和 kubernetes 技术。
容器好比 IT 世界里的“运输集装箱”。上云第一步就是要将物理资源虚拟化,在容器技术出现之前,虚拟化都是用虚拟机来完成,容器是轻量级的虚拟化,最常见的容器引擎就是 2013 年崛起的 Docker。
除了 Docker 对容器进行创建外,还需工具对容器进行编排, kubernetes 就是这个工具。Kubernetes 源于 Google 内部的 Borg 项目,Google 使用 Go 语言重写后将其命名为 Kubernetes,并在 2014 年 6 月开源。之后,Kubernetes 在众多厂商和开源爱好者的共同努力下迅速崛起。
与此同时,作为基础设施的数据处理框架也在完善。
Google 的论文催生了大数据计算框架 Hadoop,Spark 从 Berkeley 大学的 AMPLab 实验室诞生,Kafka 从 LinkedIn 诞生,Facebook 也把大数据查询引擎 Presto 开源出来。
此外是深度学习框架以及配套工具。研究热潮之下,开源深度学习框架层出不穷,如 Google 在 2015 年开源的深度学习框架 Tensorflow, Facebook 开发的 PyTorch、Caffe。中国互联网企业也推出了自己的框架,如百度的 PaddlePaddle、小米的 MACE、腾讯的 ncnn 等。
从资本层面看,一个重要的触发点则是近两年开源原厂和 IaaS 大厂之间的长期矛盾,甚至在近年发生了一些纠纷事件。
例如云服务商“一哥”亚马逊接连受到不少创业公司的质疑,并在去年发生了开源创企“六大门派围剿光明顶”事件——2019 年 4 月,7 家创业公司在硅谷召开会议,主题就是如何针对亚马逊提出反垄断诉讼。
原因是亚马逊复制其他科技公司开创的软件,并集成到 AWS,AWS 自己作为 IaaS 厂商收到了钱,但是费用并未分给原厂。
也是在这个长期矛盾之下,很多开源原厂修改了其开源许可证,从开源变为“源码可用”,不能集成到云等服务中,目的就是防止云服务商“薅羊毛”。
IaaS 厂商和开源原厂的博弈和上述游戏规则的变化,一方面导致大厂开始自研数字基础设施技术,但另一方面也出现了一个对创业公司的利好——开源基础软件的退出窗口豁然打开,因为大厂开始通过“买买买”补充生态。
一个有力的买方首先是 IaaS 大厂。例如微软以 75 亿美元收购 GitHub,IBM 在以 334 亿美元收购 Linux 巨头 RedHat(红帽)。
另一类买方是志在云转型的 to B 巨头,如 Salesforce 此前以 65 亿美元收购集成平台服务提供商 MuleSoft。
实际上,一直以来,开源软件做大之后对大公司来说都有很好的并购价值,最典型的案例就是 Android 之于 Google。
而今基础架构的革新,对创业公司和 VC 来说都是一轮基础软件的新机会。
2. 中国的机会
转眼看中国市场,基础软件创业热确实有跟风全球趋势的因素,但也存在本土逻辑。
和全球趋同的是,云计算普及和开发者数量的增加也是中国市场不可阻挡的趋势,且中国的发展速度和未来空间冠绝全球。
根据 IDC 发布的报告,2019-2023 年中国公有云 IaaS 年均复合增长率将达 46%,预计到 2023 年中国 IaaS 市场规模将达到 2087 亿元人民币。
到 2024 年,50% 的大型中国企业将在容器、开源和云原生应用开发方面依赖于第三方服务提供商。
此外,开源项目的商业价值正在逐渐被中国资本市场认可。
这一方面是因为欧美已跑出了成功的商业模式。
目前开源的收费方式大概包括以下 3 几种:
一是提供技术支持及咨询服务,如 Red Hat(红帽)。这家成立于 1993 年的公司主要出售基于开放源代码 Linux 操作系统的软件和服务,主要盈利方式为红帽免费提供开源软件,但向客户收取维护、支持和安装等服务费用。
不过这种商业模式是项目制,很难规模化,“红帽模式”并不容易复制。
更为常见的方式是是 Open-Core,即核心代码开源,商业版套件收费。
因为大部分企业客户在下载源代码后都需要购买额外功能才可规模化使用,这种方式相当于用免费的代码吸引开发者,来取代传统软件业的营销投入,再卖付费的其他功能。
最后一种是云服务的 Hosting(托管)模式——开源厂商将其服务托管在公有云平台上,开发者付费给 IaaS 厂商,IaaS 厂商再分一部分给开源原厂。
这种模式的问题是,实际上作为渠道的 IaaS 厂商最初过于强势,比如 AWS 改改源代码就说是“新产品”,自己收钱。但在经过原厂的强硬抵制后,云托管已逐渐规范,成为行业惯例。
数据公司 Databricks、开源软件服务公司 Acquia 都是这种模式。
开源项目被中国资本市场认可的另一原因是,国内 IaaS 大厂也有收购开源项目的意愿。
例如早在 2017 年阿里巴巴投资欧洲开源数据库 MariaDB,有分析称这是阿里巴巴“在海外领域最引人注目的云交易”。
而本土利好因素之一则是,中美贸易摩擦下的国产替代。
中国市场每年进口 3000 多亿美金的底层技术,自主可控和进口替代为底层技术投资带来机会。
例如数据库领域国产替代正如火如荼,一家独大的 Oracle 数据库的阵地正在被侵蚀。
在数据库技术社区墨天轮的国产数据库排行榜中,已有 PingCAP 研发的 TiDB、阿里体系下的 OceanBase 和 PolarDB 等国产数据库开始占据重要份额。
墨天轮国产数据库排行榜
关系型数据库之外,从新型的图数据库、到向量搜索引擎、深度学习框架等领域,也涌现了一批中国的基础软件团队。
其中有创始人刚刚当选 Linux AI 基金会新一届董事会主席的数据处理公司 Zilliz,他们目前主打的产品是向量搜索引擎 Milvus;即将发布开源深度学习框架 OneFlow 的一流科技;由 Apache 软件基金会项目 Apache Kylin 核心团队创建的 AI 增强数据仓库公司 Kyligence;今年三个月内完成两轮千万美元融资的物联网数据服务商涛思数据;新一代云数据仓库偶数科技;
处理和存储知识图谱的图数据库 Neo4j;容器 PaaS 服务商 DaoCloud 道客云、灵雀云、飞致云、时速云;
私有云服务商 EasyStack 和聚焦 IaaS 层的 ZStack。……
另外是“新基建”政策红利。
“新基建”概念 2018 年底首次被提出,并于 2020 年 4 月 20 日被明确范围。其中信息基础设施包含:以 5G 为代表的通信基础设施,以云计算、AI 为代表的新技术基础设施,以 IDC 为代表的算力基础设施。
各个互联网巨头开始摩拳擦掌。阿里云刚在今年 4 月 20 日宣布未来三年将投 2000 亿元,用于云操作系统、服务器、网络、芯片等核心技术研发和数据中心建设。
一个月后,腾讯云也在 5 月 26 日对外宣布,五年投 5000 亿元,剑指新基建。
在昨天(5 月 28 日)最新公布的腾讯 AI 新基建架构中,其包涵了全域安全、加速网络的“云基支撑”层和包涵了算法核心框架、深度学习工具组件等的“算法平台”层,就是对应着数字基础设施的建设。
腾讯云公布了 AI 新基建的整体布局,即“一云三平台”架构,一云是指腾讯云,三平台包括算法平台、服务平台以及开放平台。
5G 也是中国市场的变量——5G 可能会带来无人驾驶、VR/AR、远程医疗、工业物联等新应用,也会带来数据感知、传输、存储、处理等底层技术的变革。
开源在大数据时代曾在美国市场繁荣,如 AI、5G、IoT 的浪潮是中国的机会。
3. 昨日算法,今日基础软件
基础设施公司创业潮,也显示出近两年 AI 创投的动向:从应用层往基础层迁移。
CSDN 论坛,alice_tl:《AI 的架构与核心》
在起于 2016 年的这一波 AI 创业热潮中,中国市场最初最受追捧的是以算法为核心的公司。
它们多以通用算法起家,如以人脸识别起家的商汤、旷视,以语音技术起家的云知声、思必驰等。
不过从商业上看,在走向市场的过程中,算法本身面临很大挑战。
这首先是因为当前的深度学习仍是弱人工智能,其表现非常依赖数据环境,而 AI 的训练测试数据跟实际场景中的数据有很大落差,这就导致预训练的算法真的落地具体场景时,做不到“开箱即用”,需根据不同场景的数据特征做调参。
所以,做通用算法的公司,除了在一些个别场景——如安防领域大规模的人脸识别等——领域能有用武之地,很难再开拓新市场。
而当 AI 公司迫于生存和市场压力,从通用算法转向深入场景,踏实做行业产品和服务后,又面临难复制、难以规模化的瓶颈。
因为在核心的算法能力之外,AI 公司还不得不处理场景里纷乱的数据,开启“设置框架、喂数据训练、调参数、喂数据训练、再调参数”的循环,派驻工程师驻场,养起人数众多的实施、部署、服务部门。
这直接影响的是 AI 公司的毛利率。
硅谷顶级风投机构 Andreessen Horowitz(A16z)曾调查发现,毛利率低几乎是全球 AI 公司的共性——AI 企业毛利率通常在 50-60%,远低于 SaaS 企业 60-80% 以上的毛利率。
另一方面,如今算法能力已不再稀缺。
各大科技巨头和学术会议每年产生着大量的开源通用算法——自然语言处理(NLP)领域,Google 在 2018 年发布的 BERT 预训练模型已在多项任务上取得了优异效果;“科创板 AI 第一股”计算机视觉算法提供商虹软科技也在 2018 年推出虹软视觉开放平台时就宣布永久免费。
可以说,算法类的创业公司,确实偏离了资本最初对平台型、通用型发展机会的预期。这中间,是投资人被忽悠了,还是从业者自己也雾里看花?
相比而言,数据理解、数据处理等更基础的环节,理论上能诞生跨行业的通用型机会。这也是现在大家开始“跟风”看这个领域的原因之一。
但处于发展早期的中国基础软件市场,也面临很多不确定性。
不确定性首先在于,中国的 to D 市场很不成熟。
To D 其实可以算 to B 的一个子类,虽然使用者是开发人员,但付费方还是开发者所在的机构。
而中国市场付费能力最强的机构是政府和大型企业,其中还有不少国企,它们更偏好私有云或行业云,对公有云上的开源系统有安全性等顾虑。
另一方面,基础软件创业也受限于中国的低信息化水平。
从比例上看,较于美国,中国开发者数量仍然很低。波士顿咨询发布的报告数据显示,美国每万人 AI 人才密集度约为中国 72 倍。
此前我们在与一位阿里云业务负责人交流时,他就提到国内除互联网和金融之外,国内别的行业的信息化水平与国外“天差地别”。
比如中国某 Top3 的大型钢铁企业,一共没几个能做 IT 开发的人,这在国外成规模的制造业企业是不可想象的。
所以,“基础软件+开源”虽在国外已有先例,但国内能否复制还要打个问号。
其次,基础软件创业公司的成长周期长,非常考验公司持续融资能力。