大咖|第四范式蒋仁皓:什么才是构建企业AI的关键要素
大数据文摘作品
作者:亭八
或许在我们想象中人工智能已经如星火燎原般迅速蔓延到各种行业、场景里面取代或者帮助人提升一些业务价值了,但事实到底是否如此?在落地中,什么才是构建企业AI的关键要素?
11月30日,清数大数据产业联盟与清华校友总会AI大数据专委会(筹)共同主办的金融大数据行业思享会上,第四范式咨询副总监蒋仁皓分享了金融行业构建AI核心能力的实践。蒋仁皓重点介绍基于学习圈的金融业务的AI核心能力构建方法,来自中国银行、包商银行、电信公司、微软公司等相关业务领域近30余位业内人士参与交流和讨论。
AI到底是什么?我们为什么要帮助企业构建AI核心能力?
大数据文摘对本次分享的精彩内容进行了整理,在不改变原意的前提下有删改:
我们可以从两个数字讲起,一个是5598.82亿美元,一个是2914.61亿美元,前者是亚马逊,后者是沃尔玛,这代表了两个上市公司的最新市值。在今年四月份的时候亚马逊还在4400多亿,沃尔玛是2200多亿,当过了半年之后我们发现两家公司的市值从原来的一倍越拉越大。但我们要知道在2005年的时候亚马逊市值可能只有200多亿,沃尔玛的市值却接近了2000多亿,亚马逊只有其十分之一。在2005年到2016年期间,亚马逊的营业收入开始以10-20%的速度增长,甚至有些年份达到了40%。但反过来看沃尔玛的增长率,却维持在了个位数,有些年份更是零增长或者负增长。
这表明亚马逊正在迅速的扩张,虽然其与沃尔玛本质上都是零售行业,但因为亚马逊的业务线丰富,导致亚马逊逐渐蚕食沃尔玛的利润空间与客户,使得亚马逊市值一路走高,到2015年7月份终于超过沃尔玛,在2016年的时候,亚马逊市值飙升到全球第四。
另一个角度分析两家企业
这两家公司还有一个角度可以对比一下,即两家企业每一位员工给企业创造的价值,沃尔玛是22万美元,亚马逊是62万美元,是沃尔玛的三倍。但是,沃尔玛这个从营业规模上来看依然是世界500强排名第一的企业真的是一个菜鸟吗?我们都应该听过一个耳熟能详的例子:啤酒和尿布。无论这件事是真是假,都说明了一件事情,沃尔玛并不是一个菜鸟。其实沃尔玛一直在用数据驱动它的业务,它会基于不同的地方,根据数据分析周围的客户群行为模式、消费习惯、偏好,然后决定这家店里面的商品如何摆放,做到了每家店都不一样,成为了千店千面。但是这个问题十分复杂,沃尔玛到2015年的时候全球有一万家店,它要解决的问题是万级的复杂度。而亚马逊是完全基于客户的,即使这个客户在不同的时间点偏好都不一样,它依然会针对这个客户去分析客户最有可能感兴趣的商品,给客户一个定制化的面向客户的商品摆放,所以亚马逊在解决商品摆放这件事上是亿级别的复杂度。
《经济学人》有一句话:当沃尔玛还在研究怎么帮助客户省钱的时候,亚马逊在做的是怎么让客户更快地找到他想要的东西。亚马逊正是通过这样的方式不断提升客户的体验,从而去蚕食竞争对手的利润空间。
新的利润的增长点在哪里
在上世纪90年代,大家的竞争是静态的,但移动互联网的时代来了之后,资本的大量进入导致了人们发现可以通过快速的扩张,从而占领更多的市场和客户,这时候大家只需要做的一件事就是比谁跑得快。这时我们会发现另一个新的问题:当增长到一定程度之后,所有的客户都被圈完了,新的利润的增长点在哪里?无非两种情况罢了,第一是改变商业模式,从而找到新的商业增长点,但这件事情相对来讲是很难的,因为整个企业的业务会发生很大的变化。第二种是从竞争对手那边抢客户,依靠好的产品抢夺客户,这也叫做企业的竞争力。
企业竞争力从哪来?
最重要的一点是决策的能力。
决策的能力分成两方面,第一是决策的好坏,第二是决策的速度。
决策能力的差异体现在精细化、差异化,即针对每个人更精细化、差异化的做经营,这是体现经营能力的地方。而想要提升经营能力或者决策效率,背后有一个很重要的能力是人工智能,人工智能去做这件事情会更快、更细。
人工智能的发展
人工智能的概念并不新鲜,在上世纪五六十年代的时候就已经有人提出人工智能的概念了。在上世纪五六十年代大家都很乐观,觉得这件事情一定能够做成,二十年内机器一定能在所有领域超越人类,但后来这件事情并没有发生。到了七十年代,大家想通过一些专家系统的方式做人工智能,结果是失败了。当九十年代深蓝打败卡斯帕罗夫的时候,依然是失败了,因为深蓝并不是人工智能,它靠的是暴力搜索。一直到21世纪,我们又回到了模仿人类这条路上来。
AI模仿人类背后有几个条件。一个是大数据,大数据是现今人工智能能够做成非常重要的必要条件,现在全球的数据大概以每年50%的速度增长,这是一个数据爆炸的时代。第二个是计算资源价格的下降,计算资源变得越来越便宜。第三是计算的架构变得越来越成熟。第四是现在一些分布式计算技术的成熟。
机器学习与分析数据
分析数据这件事情并不新鲜,从上世纪90年代有了信息化系统、有了数据之后,就开始去做分析数据。但我们现在做的分析数据与以前的分析数据有很大的不同,这种不同是体现在传统的大数据分析会做一件叫抓大放小的事情。抓大放小的意思是如果有一亿条数据,我们会从里面抽出一些数据拿来做分析,另外则是找一些专家通过一些方法和工具分析,把我们认为最有用的特征抽出来,然后用这些特征让一些算法跑出一个最后的东西。
这使得传统大数据分析具备了两个特性:
一个是抽样,一个是降维。
但用机器学习方式做数据分析的时候,首先不会做抽样的事情,也不会做降维,甚至还会升维。
有人问,是不是有了VC维就代表我们有了一个AI的核心能力?VC维上升是否就代表企业AI能力上升从而提高了竞争力?
举个例子,VC维就像我们现在有了一个性能非常强劲的发动机,但有了发动机就不代表我们有了一辆跑车,我们还要给它配相适应的底盘、变速箱、车架以及排气管,有了这些才算是真正的跑车。
构建企业AI的关键要素
企业要具备什么样的东西才能被认为是具备了AI的核心能力?这里借鉴大卫·库伯提的理论:三岁以上的人学习东西是有一个过程的。第一件事情是有行动,去做一些事情,基于这些行动会得到一些经验,有了这些经验之后会去思考能学到什么,以及能够总结出什么样的经验,下次要如何去做,通过这些反思去得到一些理论,从而指导我们下一次的行动。
机器学习的过程与这个理论本质上是一样的,我们要做人工智能或者机器学习要具备一些要素。第一是大数据,首先大数据不是一个绝对的概念,大数据并没有一个严格的标准,它是一个相对概念,我们需要的是有一定量的数据帮助机器学习,在这个过程中最重要的是去积累这些数据,并加上反馈数据训练一个机器学习模型的过程,从而帮助我们总结经验。在这个过程中有一个很重要的叫算法,即实现这些算法或者面向一个海量数据用这些算法训练模型所需要的基础架构。
让机器实现学习圈。AI核心能力还要建设一个学习圈,让它变成一个可以像人一样去学习去决策并不断自我学习的一个应用,所以它要解决的不仅仅是一个算法的问题,我们还要把数据引进来,然后把这些数据结合反馈数据放到一个算法里面训练,训练完之后这个模型才可以上线、发布、应用。然后我们去收集反馈,不断迭代。
一个企业要构建AI能力,除了要覆盖端到端的机器学习或者人工智能从训练到应用到不断地自迭代、自反馈的过程之外,也要注意一些关键因素。
第一高维度,它决定了你和别人差异化的优势。
第二算法的丰富性,很多时候我们面对不同场景的时候需要用到的算法是不一样的,可能面对一些场景需要用逻辑回顾、一些场景需要用决策树、一些场景需要用深度神经网络等等。所以我们需要应用不同的算法解决不同的问题。
第三高性能,很多时候资源是有限的,比如计算资源,计算资源即是计算的成本,比如做一件事情要用1万台机器的集群才能把这件事情做出来,这件事情就会变得不可行。第二个是时间资源,如果一件事情需要算三个月才能行,但三个月后业务上的需求可能都已经过去了,所以这件事情都是有制约的,这就需要我们具备高性能的设备去计算那些海量的数据。
第四是时效性,在移动互联网的场景下,很多场景对时效性都有非常高的要求,要在非常有限的时间内算出结果进行反馈。
第五是持续演讲,一个成功的业务除了单个业务的学习环之外,还需要与其它业务之间相互促进相互融合,需要平台对这些业务的融合上有些持续演进。
第六,实现统一管理,即除了自己的算法、框架以外,还要能集成更多的开源的框架,最后做出一个统一的管理。
低门槛与成本问题
如今的人工智能非常火,大家都十分关注,或许我们想象中人工智能已经如星火燎原般迅速蔓延到各种行业、场景里面取代或者帮助人提升一些业务价值。但是我们看到这些事情无论是生活中还是新闻中,都没有那么多。
首先就是它的门槛高。回到刚才说的五个条件:大数据、反馈、算法、架构和需求,这涉及到了业务专家、建模专家、IT架构师,它的门槛是很高的,需要很多方面的专家配合在一起才能把这件事情做好。所以人工智能的一个核心能力在于要把这件事情的门槛降低,让更多的人一起来做这件事情,通过一些平台和工具让大家协作起来更好地做好这件事情。
最后是成本问题。对于企业来讲做任何事情都有一个成本问题,比如说很多时候一个企业构建一个AI团队的时候可能要去找很多专家,构建起一个10人、20人的团队去做产品、平台、应用等等。
这件事情有两个方面的成本,第一是这些大牛的成本是很高的,中国比较资深的数据科学家年薪达到了100万。第二是时间的代价很高,这件事情需要投入非常多的时间,在投入这些事情的过程中可能会错失非常多的商机,所以很重要的一点是怎么样用比较低的资金成本和时间成本构建这个能力,这些事情是构建一个企业AI核心能力最重要的问题。