CAAI特约专栏丨芮勇 遇见AI的芳华年代
转自 CAAI会员中心
来源:《中国人工智能学会通讯》2018年第1期特约专栏
从 1956 年“人工智能”(AI)这个词被发明出来, 人工智能技术在演化中,先后遭遇了三个夏天、两个冬天。现在“天时、地利、人和”,在各种因素的作用下,它终于迎来了发展的芳华年代。
PC³的时代洪流
AI 的芳华年代,契合了 PC³ 的时代洪流。
回望 IT 产业发展的 40 多年,PC 的定义一直在不断演进中。第一个 PC 的定义出现在上世纪 80 年代初期。在那个时代,如果你问任何一个人,什么是 PC ?大家都会毫不犹豫地回答: PC 就是 Personal Computer,即个人计算机。2005 年以后,我们逐渐进入了 PC² 时代。这个时候如果再问业界什么是 PC,更多人会回答是个人计算(Personal Computing),即不仅仅限于个人计算机,还包含各种可提供计算能力的设备,如手机、Pad、智能手表等等。
而就在最近,IT 产业终于迎来了一个崭新的时代——PC³ 时代。这第三个 PC,既不是个人计算机,也不是个人计算,而是个性化的计算(Personalized Computing)。个性化的计算和之前的两个 PC 大不相同,它让各种个人设备连接云端,这些设备能观察用户、学习用户,从而提供高度定制化、个性化的服务,因此整体而言,这些最终用户所接受到的服务,是千人千面的,并且服务模式也有本质的差别。之前两个阶段的 PC 最终提供的服务,基本都是用户主动请求发起的,而 PC³ 对应的个性化服务,则是设备和云端根据观察到的用户行为,经提炼后主动推送的服务。
个性化计算最核心的技术,就是人工智能技术。人工智能为 PC³提供了波澜壮阔的应用前景。事实上,不仅在个性化计算的场景里面,很多企业级应用也同样需要 AI 技术来赋能。那么,AI 怎样才能实现大发展,加速全行业?
AI 的 ABCD
我总结下来,人工智能要真正成功,离不开四大要素,它们的英文首字母正好是 ABCD。A 代表算法 Algorithm;B 代表行业 Business; C 就是计算力 Computing Power;D 即为数据 Data。其中行业很关键,这是因为算法再厉害,数据再多,计算模型再好,也只是工具层面,只有与行业相结合,才能真正改造行业,比如结合医疗领域的智慧医疗、结合 PC³的数字助理等。
事实上,这四个要素与人工智能的关系,如同关键部件和汽车的关系。如果我们把AI 比作一辆汽车,那么算法 A 相当于车的引擎,驱动车辆往前行驶;行业 B 就如同车的方向盘一样,决定了走向哪个垂直行业; 计算力 C 就像车轮一样承载整个车辆;而数据 D 就是车里的油,只有数据才能最终推动算法完成车辆行驶。
算法的重要程度不言而喻。从算法的沿革看,五大学派依次兴起,又独立发展。在上世纪 50 年代逻辑回归和感知器人工神经网络分别起源,一直发展到 90 年代初的Kernel Trick,把 SVM 推到一个非常高的高度。贝叶斯学派的典型代表 HMM 于 70 年代中期应用于语音识别,随后推广到生物信息学,中间还有专家系统在 80 年代末 90年代初的昙花一现。一直到了 2006 年前后,从神经网络又跨越到了深度学习。深度学习是今天打败人类机器算法中的杰出代表。过去十来年,出现了诸如 auto encoding 等非监督学习算法的改进方案。而针对初始化人工神经网络的问题,也有 drop outs 可以极大改善过拟合。Residual network 实现了深度多层的学习和跨层直接学习相结合。生成对抗网络又解决了怎么生成非常逼真数据的问题。整体而言,算法一直在发展中,而且其发展不是线性的,更多的是借助跃变,呈现一个台阶、一个台阶的上升。
接下去再说计算力 C,行业 B 的重要性留到文末呈现。如今运算力已经有了长足的发展。底层,我们支持不同的架构,包括 GPU,CPU 甚至包括 FPGA 和嵌入式设备中有着巨大前景的 ASIC。除了底层架构,上层的计算框架也在演化,从并行处理的MapReduce,到 Iterative MapReduce,再到现在的 Parameter Server,使得计算框架越来越灵活。而最新的计算框架开始基于各种 flow ,例如谷歌的 tensor flow。当然各种框架有着不同的优缺点,应用的场景也不完全一样,因此未来很有可能会长期并存、各自演化。此外,计算框架除了支持模型的并行,也开始逐渐支持数据并行,支持同一批数据在不同的模型上并行处理,甚至出现了 Hybrid 混合型,数据和模型都可以并行。运算力的提升和演化,使得原来不可能的计算变为现实,而且并行处理的方式越来越不同。
在数据方面,随着大数据技术的发展,数据本身的价值正逐渐为公众所认识。正如《福布斯》所预测的那样,2020 年全球每人每秒钟将产生 1.7 M 字节的数据,这一数据量将非常惊人。而数据的价值是什么?《福布斯》估算,财富排名前 1000 强的企业如果能提升 10% 的数据可获取性,那么每年就可以多收益 6500 万美元的纯利。在医疗产业也是如此。如果能更好地集成和利用数据,平均每人每年将节省约 1000 美元的开支。因此,如何汇集并利用数据将是AI 面临的主要问题之一。而且,数据也并非越多越好,尤其是针对深度学习的网络,数据的分布更为重要。例如训练数据是否能均匀覆盖问题的集合?当然,生成对抗网络 GAN 无疑是个非常有意思的尝试,尤其当数据量不够时。
最后我们讨论一下行业 B。如果回忆一下过去几十年 IT 产业的发展,我们会发现几次重大的变革,比如搜索引擎带来的变革,搜索引擎本身也是一种服务——信息检索服务。类似的例子还有电子商务,电子商务既是新的服务——在线销售服务,也是新的变革,因为它改变了零售物流行业。还有社交网络的兴起,如国外的 Facebook以及中国的微信。社交网络是一种新的社交服务,同时它又足以变革通讯社交行业。而人工智能则不一样。人工智能引起了全行业的变革,但其本身确非一种具象的服务,它必须和各个行业相结合才能真正落地。例如我们 2017 年 7 月份发布的联想“小乐”——一种人工智能和客服相结合的智能客服解决方案。客服呼叫中心目前大多以人力为主,但“小乐”这样的人工智能客服解决方案能够处理大部分的呼叫,从而改变了服务行业的面貌。又比如 AI 辅助诊断的智慧医疗是人工智能和医疗诊断结合后的新型服务,它能节约医生的人力成本、提升诊断效率,并进而改变医疗行业。结合了人工智能的信息产业变革,节约的不仅仅是人力和相关运维成本,更是对社会生产力的一次极大释放。
AI 的未来
在 AI 大发展的芳华年代,具备了上述的 ABCD,人工智能就能真正迎来百花齐放的壮年。虽然今年我们也看到在 AI 的未来发展方面,出现了一些争议,例如霍金(Stephen William Hawking) 和马斯克 (Elon Musk) 就表达了一定程度的 AI 威胁论,但是我个人对 AI 的未来抱着乐观的态度。
目前看来,人工智能在规则限定的情况下利用计算、记忆优势已经超过人类,而在真正开放的强人工智能领域,计算机距离人类智慧还有相当长的路要走。人工智能的优势在于模拟人的左脑,即记忆和推理;而人类的优势则在右脑,包括想象力和抽象思维能力,这些是人工智能暂时无法做到的。
因此,人工智能的未来,就是要发挥人和机器各自的所长,聚合人类智能和人工智能,打造人机融合、智能增强的新时代。
作者介绍:芮勇
博士,现任联想集团首席技术官、高级副总裁,ACM、IEEE、IAPR 和 SPIE 的会士 (Fellow),负责联想集团技术战略和研发方向的规划和制定,并领导联想研究院的工作。在此之前,曾在微软工作 18 年,任微软亚洲研究院常务副院长等职。