安筱鹏:拥抱“数据+算法”定义的新世界
来源:阿里研究院
本文约5000字,建议阅读10分钟。
本文为你简要介绍安筱鹏博士在论坛上就数字+算法定义的世界进行了发言。
2018年11月28日,清华大学大数据研究中心举办“2018清华工业大数据技术论坛”,安筱鹏博士在论坛上就数字+算法定义的世界进行了发言。
安筱鹏认为,几千年来,人类社会一直面临的重大挑战是,如何在不确定性的环境中进行决策。2000多年前人们面临重大决策、面对不确定性常用的方式就是占卜。五百多年前,宗教是人类面在不确定性的环境中进行选择的依靠。一百年前,人类送上月球的每一个决策、飞机研发的每一次重大决策的背后是基于科学。今天,我们有了认识世界和进行决策的新方法:“数据+算法”。
以下是发言整理:
数据+算法定义的世界——面对不确定性人类如何选择各位院士、专家,大家上午好!
在清华这个最高学府讨论大数据这个前沿课题,对于我这个经济学背景的人而言,有着巨大的压力和挑战。我经常是在技术专家面前讲经济,在经济学专家面前讲技术,所以我今天不给大家讲具体技术,讲讲技术带来经济社会影响,看看信息通信技术究竟给我们带来了什么了。
几千年来,人类如何进行决策?
几千年来,人类社会一直面临的重大挑战是,如何在不确定性的环境中进行决策,从游牧社会、农业社会、工业社会到信息社会,这都是一个永恒的话题,而在过去几千年人类是如何进行决策?我们来思考一下过去的2000年、500年、100年和今天,在不确定性的世界中人类如何进行决策,什么东西在影响人类决策。
两千年前,夏商周的首领要开打一场战争(犹如当年的贸易战),他们怎么进行决策?《史记·龟策列传》中记载“自古圣王将建国受命,兴动事业,何尝不宝卜筮以助善!”,是通过占卜来进行决策。面对一触即发的部落战争,出征前面对战争结果的无常,部落首领、诸侯国王们,求助龟壳裂纹、星象占卜,以预测等各种重大事件的走向,指导重大决策。
那小国寡民如何进行决策?《诗经》记载“尔卜尔筮,体无咎言,以尔车来,以我贿迁”。年经的姑娘要出嫁了,不知道未来自己的婚姻是否幸福,那么就告诉他的新郎尔卜尔筮,通过占卜的方式看看这场婚姻是吉是凶,如果卦象没有什么不吉,那就选一个黄道吉日开着车然后把我和我的嫁妆带回去。
2000多年前人们面临重大决策、面对不确定性常用的方式就是占卜。
五百多年前,西欧封建制度开始解体,宗教改革步伐不断加快,新教在西北欧取得了主导地位,有专家认为这是造成欧洲经济发达水平北欧比南欧好、西欧比东欧好的重要原因。
马克斯·韦伯在《新教伦理与资本主义精神》指出,新教伦理与企业家精神是相通的。新教宣传什么理念呢?就是“拼命挣钱—拼命省钱—拼命捐钱”,而不像一部分人想的那样,拼命挣钱的目的是为了拼命花钱。因为企业家认为世俗经济行为的成功不是为了创造可供于享受和挥霍的财富,而是为了证明自己是上帝的一个选民。
在这一种情况下,当企业家们面对各种不确定性进行决策的时候,他们的依据是什么,是新教思想影响着他们的决策,宗教是人类面在不确定性的环境中进行选择的依靠。
一百年前,爱迪生经过几千次试验发明了电灯,1969年美国人把人类送到了月球,同年也研发出波音747并实现首飞。人类送上月球的每一个决策、飞机研发的每一次重大决策的背后是基于什么?是科学。要发射火箭怎么来决策?需要计算发射窗口期,要计算月球跟地球的距离,要预测未来天气的变化,所有的这些所有都是基于科学的决策。飞机的外形如何选择、材料如何选择,背后都是基于风洞试验等空气动力学规律去选择,背后是科学。
今天,我们有了认识世界和进行决策的新的方法论。
我们清华大学工业大数据中心在青海有一个风电功率预测项目,能够对未来(明天、后天)风机的风力发电量进行准确预测;美国Uptake公司,需要对卡特彼勒工程机械运行状态进行预估,实现产品全生命周期的服务;新零售企业盒马鲜生,它只卖当天新鲜的产品,今天没有卖完就扔掉,需要对当天卖什么样的产品,销售量是多少进行决策;我们的手机用户,每天浏览的今日头条、淘宝看到的首页都是千人千面。这是一种新的决策方式,这种决策方式叫做“数据+算法”。
“数据+算法”的决策机制,不是对已有决策机制的一种替代,是增加了一种新的决策方式。
并非因为有了宗教,我们就不去占卜(许多现代人仍在用占卜的方式进行决策),占卜的方法在今天仍然很适用。我们用科学方法、科技的规律指导人们决策,但是宗教在很多时候仍然在发挥很重要的作用。现在我们又有了一种新的应对不确定性的方式,就是“数据+算法”。
应对不确定性是人类永恒的挑战,关于如何理解和认识不确定性,我们有三个基本结论:
- 一是只有深刻认识不确定性,才能理解数字经济的本质;
- 二是对不确定性的恐惧是人类社会认知的动力;
- 三是不确定性源于信息约束条件下人们有限的认知能力。
化解不确定性需要经过“三部曲”
在过去上千年里,每一个个体、族群、部落、企业、国家等都要经历各种各样的事件发生,如战争、冲突、气候灾害、狩猎、农耕,以及企业的竞争和国家之间贸易,比如中美贸易战。
我们都面临着在不确定性的环境中如何进行决策的问题。这些决策正确与否会导致事情的成败、得失、利弊、对错、好坏、优劣等结果。而这些结果又会影响我们个人的幸福(我跟他结婚我是不是很幸福我不知道),部落的兴衰,企业的成长,国家的繁荣,历史的走向。
那么,如何来化解这些不确定性,需要经过“三部曲”。
- 第一,我们首先要理解这个世界,理解和认知这个规律,这是我们化解不确定性的逻辑起点;
- 第二,理解之后我们要预测将会发生什么,这是做出决策的基础和依据;
- 第三,我们要去控制,是将决策付诸行动的具体路径。
所以我们刚才讲的所有,无论是占卜也好,科学、宗教、哲学、科学也好,从本质上来说,都是来告诉我们如何化解在决策的时候面对的种种不确定性。
对不确定性认知的分野:从哲学到科学
对于不确定性的认知,也是从哲学到科学分化的一个重要的因素。
我们如何来认知不确定性,从哲学来看,在古希腊一开始就分成了两种不同的学派,到了近代形成了以笛卡尔为代表的确定性世界,认为这个世界是有序的、统一的、必然的、精确的及可预见的;而尼采、康德认为这个世界是无序的、差异的、随机的、模糊的不确定性世界。
从科学来看,由哥白尼“日心说”到伽利略再到牛顿三大定律,近现代科学成就不断强化人们基于确定性逻辑规律的认知,使得我们认为所有的世界,都可以用确定性据描述。然而,海森堡的“测不准”原理、哥德尔的不完全定理,阿罗社会选择理论不可能性定理,并称为二十世纪不确定性的三大发现。我们发现很多时候,这个世界并不是像牛顿定律所描述的那样是确定可预测的。
从经济学来看,对于不确定性的认知,始于芝加哥学派创始人奈特,将不确定性引入到经济学,打破了经济学研究中此前一般均衡分析为核心的对确定性环境的假设。对不确定性我们认为是信息经济学、行为经济学、制度经济学、演化经济学的一个基础理论。
最后我们大家熟悉的,从信息论来看,信息是干什么的,克劳德·香农定义“信息是用来减少随机不确定性的东西,信息的价值是确定性的增加”,信息最重要就是要减少不确定性而增加确定性。
什么是企业?企业的本质是什么?
我们今天讨论的是工业大数据,那么我们回到企业,什么是企业?企业的本质是什么?我认为在不确定性的世界中进行决策是企业最本质的属性。
企业是一种组织,这种组织跟市场、政府是一样的,它是一种配置资源效率的组织,政府可以配置资源,企业可以配置资源,市场也可以配置资源。企业竞争的本质是什么?企业竞争的本质就是资源配置效率的竞争,就是以数据自动流动化解复杂系统的不确定性,优化制造企业的配置效率。企业面临什么样的挑战?我们走进工厂、车间、研发室,会发现企业在思考什么问题:企业思考如何缩短一个产品的研发周期、如何提高一个班组产量、如何提高一个机床的使用精度、如何提高一组设备的使用效率,所有这些问题,都可以归结为一个问题,就是如何提高资源配置效率。
面临这些问题,企业有各种各样的决策,在信息不完备、不确定性的环境中决策,包括:新品开发是决策,客户定位是决策,营销策略是决策,研发组织是决策,供应链选择是决策,交付周期是决策,库存管理是决策,排产计划是决策,商业模式是决策,所有的都是决策。
那么企业如何进行决策,对于应用工业大数据来说,怎么支撑企业决策?就是要将正确的数据,在正确的时间,以正确的方式传递给正确的人和机器。这就是基于工业大数据,在不确定性的环境中如何形成决策。
谈一个红领的例子,青岛红领是一家个性化定制服装企业,是国家智能制造的试点示范企业,有些企业高管参观后感到非常失望,因为没有想象中一排排机器人、一条条先进生产线、忙乱而有序的AGV小车,而是一排排的工人在用手工的方式加工衣服,是一个典型的劳动密集型企业生产场景。
企业家们感到困惑的是,这样一个典型的劳动密集型企业为什么是智能制造的试点示范企业?有人说他跟富士康没有区别,不是没有区别,而是根本就比不上富士康,富士康的自动化生产线、切片机、机器人是非常先进,红领跟富士康有什么不同呢?
我认为自动化分为两种。一种自动化是生产装备自动化,叫做看得见自动化,机器换人,立体仓库,忙碌而有序的AGV小车。还有一种叫做看不见的自动化,就是数据融合在物理世界里面自动地去流动,把正确的数据在正确的时间传递给正确的人和机器。当你采集一个人上身的18个部位,22个指标之后,这一个指标首先自动生成一个适合这个人体型的一个版形,自动生成一个数控机床的加工指令,自动生成200个工序的加工工艺,定制化生产跟规模化生产相比,其复杂度、面临的不确定性远远地超出几个量级。
算法:将不确定性转化为确定性的最优路径
软件如何解决这一个问题,我想最基本的一个语言就是“if…then…”,将不确定性转化为确定性。“if:A”“if:B”是不确定性的,而“Then A1”“Then B1”就变成了一个确定性,这一转变过程就需要算法。那么把不确定性转变为确定性是否准确呢?这取决于你的数据及时性、准确性、完整性。
从规模化生产演进到个性化定制,这其中不确定性在逐渐增加。就像一场射击比赛,规模化生产是一个固定靶,大规模定制相当于移动靶,而个性化定制就像一个射击空中飞碟。要不断地感知它从哪飞起来,在哪拐弯,速度有多快,然后去分析、判断,进而决策执行。
在过去的一两百年已经完美地解决了产品的成本质量效率问题,而个性化定制出现的时候,过去已经解决了成本质量效率问题又重新冒出来的。不确定性又重新增加了,怎么解决?需要“数据+算法”。美国国家标准与技术研究院,对智能制造有一个定义,这个定义的核心词,我认为就是要对不确定性系统增加它的确定性。
做一个总结,如何能够把正确的数据在正确的时间,以正确的方式传递给正确的人和机器,需要具备两个条件:
- 一是隐性数据的显性化,实现数据的完整性、及时性、准确性,把大量蕴含在生产制造过程、经营管理、客户行为、全生命周期服务的隐性数据不断被采集、汇聚、加工。
- 二是隐性知识的显性化,就是对工业研发技术、生产工艺、业务流程、员工技能、管理理念等知识的逻辑化、数字化和模型化,使得大量隐性工业知识被固化在各类软件和信息系统中。
一方面,我们有及时、完整、准确的数据,另一方面,我们有大量的隐性知识显性化的软件,不断将这些数据输送到这些软件中间,进而将数据转化为信息、信息转化为知识、知识转化为决策,再用决策去优化我们所看到的物理世界。
在这一过程中软件是核心。那么,软件是什么?软件的本质是事物运行规律的代码化,构造了数据自动流动的一套规则体系,无论是爱因斯坦的质能方程,还是牛顿的三大规律,都是我们认识这个物理世界的方式。我们把规律模型化、模型算法化、算法代码化、代码软件化,再用软件化去优化,我们构建了三个世界,物理世界、意识世界、数字世界。
过去,人类直接面对这一个物理世界,而今天,我们找了一个代理人,这一个代理人是谁呢?就是赛博空间。就像无人驾驶,过去我们要自己开车,现在你不需要自己开,你找一个代理人,这一个人叫无人驾驶,帮助你去感知、决策、执行。
数字经济的本质:数据+模型=服务
两年多前,我曾去过达索公司,达索公司有一个科学家给我们讲心脏的构造,讲心脏中离子浓度梯度穿过心肌细胞的脉冲变化,讲心脏的某一块肌肉的拉力极限是多少。
这样一个我们认为的软件公司,跟很多医院一起研究心脏的构造、机理,他们要研究心脏的运动规律,物理的、化学的、生物的运动规律,他们把这一个运动规律模型化、模型算法化、算法代码化,最终是要构建一个数字心脏。
研发这一个数字心脏的科学家就是达索公司的部门高级总监(Steve Levine)史蒂夫·勒温博士,原因是他的女儿杰西(Jesse),一出生就被发现主动脉和心室存在异位的情况。在她两岁时,由于心脏生理系统发生故障,杰西便安装了心脏起搏器,并且每年需要做心脏手术。每次手术之前,医生都需要让史蒂夫签字,并告诉他你的女儿推进手术室之后有可能会失去生命,史蒂夫每一次都深受煎熬,他梦想有一天能研发这样一个数字心脏。
这一个数字心脏有什么价值呢?用我的话说,就是“数据+算法=服务”,构建了一个数字心脏,首先对心脏做了一个造影,造影是干什么?采集数据,建立了一个数字模型,实现四类功能:
- 一是描述,这一个物理世界发生了什么在虚拟世界去描述,心脏的血管哪一个地方堵了,堵了多少,可以360度去观察。
- 二是诊断,为什么会堵,是什么样的原因造成了心脏血管堵塞;
- 三是预测,如果没有人为去干预,半年之后、一年之后、两年之后,这一个血管从堵到30%发展到70%,另外一个旁支血管也会堵,它会告诉你将会发生什么;
- 四是决策,最后怎么办,是采取保守治疗,还是去做搭桥手术,给医生提供一个解决方案供参考。
在这一过程中,数字心脏可以帮助我们改进医疗设备的研发效率、预测器械植入心脏的功能、进行心脏复杂医学教学、加快科研创新转化为临床医学实践。
所以“数据+模型”,或者“数据+算法”构造了我们认识这一个世界新的方法。
如果说我们把过去人类社会认识客观世界的方法论做一个总结的话,可以有四个阶段。
- 一是理论推理,天才科学家通过“观察+抽象”去认识这个世界,比如牛顿的定律,爱因斯坦的相对论;
- 二是实验验证,爱迪生发明电灯泡,我们现在发明汽车做二三十次碰撞实验,飞机做风洞实验验证;
- 三是模拟择优,在虚拟世界里面去实验发现物理世界的规律,再反馈到现实世界指导人们的实践,高铁、飞机不用做几千几万小时的风洞试验,汽车不用做几十次碰撞实验,这些都可以在虚拟世界去完成,通过数字世界的模拟选择最优化的结果;
- 四是大数据分析,就是通过大数据发现物理世界新的规律。无论是模拟还是大数据分析,它背后的逻辑都在用“数据+算法”的模式。
2013年的诺贝尔化学奖,因发展了复杂化学体系中的多尺度模型,颁给了三位美国科学家马丁·卡普鲁斯、迈克尔·赖韦特和亚利耶·瓦谢尔因。这三位科学家的贡献就是构建了一个做实验的方法论,做化学实验的方法论,这一个方法论就是在计算机里边去做实验,它实际就是我们刚才说的“数据+算法”的另一种的表现形式。
过去你整天在实验室做实验,现在有一部分实验可以在计算机里面去做。对于制造业也是一样,过去架飞机从立项到交付需要二十多年的设计制造过程,现在只需要五六年的时间,因为人们构建了一个新的认识和改造世界方法论。高铁可以通过虚拟的高铁在虚拟的京沪线上跑起来,运行到两百公里、三百公里、五百公里时速,来测它的稳定性,通过快速迭代,构造了一个改造和认识世界的方法论即“数据+模型”这一新方法论。
数字化的逻辑殊途同归:数字孪生
可以设想一下,未来十年、二十年、三十年之后,或者我们思考一个问题:数字化的终极版图是什么?从未来看现在,我们今天所看到的物联网、大数据、云计算、人工智能、工业软件等技术,都是未来数字化终极版图的一个碎片,ICT技术发展及应用的过程,就是我们不断把这个碎片化的模块拼一个幅完整版图过程,我们都是拼图人。
那么形成的最终图景是什么呢?答案就是数字孪生,就是我们不断地把碎片化物理世界数字化后,在CYBER空间构造成一个碎片化的数字孪生体,然后把这个碎片化的孪生体拼成一个完整的数字孪生体,直至构造一个数字孪生的世界,从我刚才讲的数字孪生的心脏,数字孪生的飞机,数字孪生的建筑,到数字孪生的城市,我们都走在构造数字孪生世界的大道上。
我们在虚拟世界构造一个数字孪生,并且不断的与物理世界进行交互、优化,这样的一个过程将会经历三个阶段,即局部的数字的孪生阶段,静态的数字孪生阶段和动态的数字孪生阶段。
那么动态的数字卵生阶段需要什么时候实现,可能需要二十年或者更长的时间,现在我们仅仅处于一个局部的数字孪生阶段,而静态的数字孪生,就是在虚拟世界里构造一个物理世界,但数据不是实时的,需要一个周期。
我曾经与西门子技术专家交流过,如果从数字孪生的三个阶段来看,他们已经实现了实验室阶段的静态数字孪生,西门子做了一个咖啡壶数字孪生生产线,生产线当天的运行数据,在下班后输送给数字孪生体进行优化,指导优化第二天的产品生产。而真正实现动态数字孪生还需要很长的一段时间。所以构造一个数字孪生,其背后的逻辑就是“数据+算法=服务”,它可以缩短产品的研发周期,可以提高建筑物的资源优化效率,可以提供一种新的医学分析途径,可以构造一种城市的资源配置新模式。
最后做一个总结,数字经济的本质,就是“数据+算法=服务”。这数据来自于机器数据、业务数据、产品模型数据,需要物联网、传感器等不断获取。算法部署在云端,包括两种形式。一种是机理模型、一种是人工智能模型或者叫做大数据模型。“数据+”,“+”是什么?“+”就是网络,5G、NB-IoT、TSN、以太网等等,数据+算法带来了服务,这个服务包括四个层次:一是描述这个世界(发生了什么?),二是诊断这个世界(为什么发生),三是预测这个世界(将会发生什么?),四是进行决策(应该怎么办?),最后实现优化资源配置效率。这是一种全新的认识和改造这个世界的方法论。
谢谢大家。
— 完 —
关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。