AI的发展:在金融行业的应用与机遇(附视频&PPT)
人工智能技术目前得到了全球范围内前所未有的瞩目,已在多个行业内落地,帮助企业构建了在大数据和人工智能时代下的核心竞争力与商业壁垒。那在新的机器革命时代,我们如何应对机遇和挑战?
本期我们很荣幸邀请到清华校友、清华数据创新基地首席金融大数据专家袁征女士,为大家展开题为《人工智能在金融领域的发展和展望》的分享。讲座通过对最新的人工智能发展动态,丰富的音频视频展示和企业实践案例解读,希望帮助大家了解人工智能给传统行业带来的新机遇。
讲座完整视频
▼
在公众号对话框回复关键词“AI金融”,下载完整版讲座PPT。
清华数据创新基地首席金融大数据专家袁征
以下是部分讲座内容整理:
今天和大家分享三个部分,一是另类视角的人工智能起源和发展历史;二是当前人工智能发展的条件、爆点和一些工业界的用例;三是其在金融领域的应用现状。这个课件来自于我和我的清华同学俞凯(上海交通大学人工智能方向教授、博士生导师)的合作。
2015年,国家发改委、科技部、工信部、中央网信办制定《“互联网+”人工智能三年行动实施方案》,计划到2018年,基本建立人工智能的产业、服务和标准化体系,实现核心技术突破,培育若干全球领先的人工智能骨干企业,形成千亿级的人工智能市场应用规模。结果如何,我们仍拭目以待。
涉及人工智能的历史,图灵是其中最早的开创性人物。接下来将从人物的八卦中复盘一下当时的历史脉络。图灵,生于1912年,他相当聪明,用自己的人脑实现了后来用电脑才能做的事。他小时候曾经在给母亲的一封信里写到,“我总想从最普通的物质创造出新的物质,并且是以最小的能量”。在很年轻的时候他就预测到计算机的产生,设计了一种名为“imitationgame”的游戏,其测试标准就跟计算机和人工智能最早的一些idea一致,所以特别聪明的人能够在相当早的时候看到未来几十年甚至上百年的社会发展脉络。
1936年,他的论文《论可计算数及其在判定问题上的应用》,开创了计算机时代。他不仅提出了可进行数字计算的电子计算机的最早理论设计,而且预言大约50年后将会出现会思维的机器,因此他被公认为计算机早期历史上最伟大的理论家之一。正是在这个时期他构思出所谓的理想计算机,即图灵机的原始模式。机器本身的智能难以准确地定义,怎么样去判断机器是智能的?首先要认为人类是智能的,机器如果像人类的行为模式差不多,就认为这个机器是智能的。但这个奇才与当时主流社会格格不入,年仅42岁就自杀结束了自己的生命,没能亲眼看到人工智能的诞生。
图灵
人工智能涉及的内容有视觉的,听觉的,还有触觉等各个维度的,其中最深的是像人一样思考,是最难的,也是研究最多的。
涉及人工智能的产生,它的代表人物为人工智能之父John McCarchy,他于1955年到1956年发表了相关论文。他在DartmouthCollege组织了名为“Dartmouth Conference”的会议,参加会议的几个人就被大家公认为人工智能之父。他们最早提出来人工智能这个idea实际上有七个维度,到今天,这些维度几乎是和我们所看到的已经发展的样子,或者和未来想要发展的方向完全一致。这也是为什么伟人之所以为伟人。
第一个是人工智能,智能就是所谓的脑,为什么大家管计算机叫电脑,就是它在一定程度上相当于人脑。
第二个是Programming a computer to use general language,在我小的时候,我的父亲是航天部的水下弹道设计工程师,他们已经可以用电脑做一些设计工作,感觉就像莫尔斯电码似的,机器打出来好多点,然后人工翻译出这些点的含义;在我们上学的时候,最早也学编译语言,都是相对比较原始的计算机语言;当时的人就笃信我们未来会慢慢的让计算机能够理解普通人说话的语言,随后就有了C++、Java;等我读研究生比较普遍的是Matlab、S-Plus、Python等等,这些languages叫做Scriptlanguage,就像写稿子一样,我们写出来人脑想的语言(很接近人和人交流的语言了),计算机就可以去执行;再往后发展,最普遍的日常生活的对话,计算机也可以听懂了,这就是语音识别、人机交互。
第三个是Arranging hypothetical neurons on a manner so that they can formconcepts,即早期的神经网络。现在的深度学习是基于深度的神经网络,那神经网络是怎么来的呢?电脑的神经网络是受人的神经网络启发而来的,既然人能够有这么复杂的语言、思考等各个方面的行为,电脑是不是也能够通过这样一种模式来实现它最终的功能?这就有了最早的神经网络的雏形。
第四个是A way to determine and measure problem complexity,要先识别问题,尤其是特别复杂的问题,才有可能去解决它。
第五个是Self-improvement。怎么实现呢?self learning。自己学习,自己挑战自己。这就是deep learning的核心驱动。
第六个是具备抽象的能力。从一些idea把它抽象出来,抽象成电脑可以理解的东西。
第七个是Randomness和creativity,人现在这个阶段的creativity创造力还是很难被机器获取的。如果有一天电脑也有了随机性和创造力,那真的就和人脑非常接近了。
说到深度学习,就要讲第三个人物的八卦:Geoffrey Hinton,他被公认是深度学习之父。人工智能里面核心的部分,或者说现在应用的最广泛和深入的部分就是深度学习的算法。在70年代左右,Hinton于卡内基梅陇大学开始执着研究深度的神经网络、深度学习。他当时的导师一开始还支持他,后来因为觉得他这个想法太疯狂,他的导师就不支持,不给经费,他之后去到加拿大多伦多大学,继续执迷于深度神经网络的研究。终于有一天他做出了“惊世骇俗”的成果,可惜当年反对他的导师已经去世了。最早期看到的DeepBlue,近期出现的AlphaGo涉及到的深度学习的算法,实际上都有他非常大的功劳,而他现在担任Google Brain的首席科学家,依然继续做着这个领域更加深入的研究和探索。
以下图展现了人工智能发展的主要脉络。大家普遍认为在人工智能发展的道路上,巅峰与谷底并存。
为什么在很早的时候人工智能的某些方面就比较成熟了,却到前几年才能有更加突破性的发展呢?原因就是有一些条件不够成熟,或者是历史的机缘未到,或者没有特别厉害的人物出现。就像我们经常说的“木桶原理”,水总是会从最短的那根木板处流出来,不能盛更多。
那为什么有些时候发展不下去了?其实需要有四个大方面的基础技术支撑,使得人工智能有更加深入和长足的发展。
第一个是数据的储存分析,即大数据。从05年到10年到2015年,大数据在呈级数增长,目前全球90%以上的数据是最近几年才产生的,但是不是真的是最近几年才产生的?不是,只不过之前我们没有把它给记录下来。移动互联网高速发展的这段时间,互联网上的数据每年增长50%,据IDC2012年发布的研究报告,接下来的八年中我们所产生的数据量将超过40ZB,1ZB相当于2的30次方TB,相当于地球上每个人产生5200GB的数据。
第二个是硬件的发展。与串型架构的CPU不同,后来发展的GPU有巨大的飞跃,从原来的静态的缓存发展到用动态的缓存,导致它会产生一个很大的计算速度上和储存能力上的差别。举一个例子,英伟达和寒武纪两家公司他们在短短三年内使得训练速度,神经网络的速度提升了50倍。寒武纪研究小组的结果显示,GPU能够提供平均58.82倍于CPU的速度,这两年又发展出了TPU,即Tensor Processing Unit。TPU产生以后,支持深度神经网络有了更大发展的前提。
第三个是云计算对计算资源的充分利用,使得计算成本和存储成本在过去二十年内逐渐下降。根据KPCD的统计报告显示,年均下降幅度高达33%,阿里云降价就是一个佐证,在2014年的时候阿里云的价格连续四次下调。由于这样一些廉价的算力提升,人工智能就得以在相对廉价的基础上发展。
第四个是深度学习。举一个图象识别的小例子,从最早的象素的特征,一点点上升到边缘,然后把它抽象成眼睛、嘴、鼻子等器官,这些器官长成不同的样子,它就是不同的动物,或者是不同的人。在现在人脸识别的很多项目中,最底层的框架实际上就是这样一步一步来做的。
深度学习怎么做呢?底层的象素可以想象为10亿甚至几十亿或者上百亿的数量级,实际上就是一张脸的数据。深度学习,大数据把它喂进去,它就会慢慢自己学习。这个边缘是什么样的,就会是什么样的输出,它可能是什么样的动物等等,这样一步一步去做人脑模拟。
在目前的应用中,大家可以看到人工智能在语音、图像、触感或手势、合成、运动、语言理解或生成、翻译、博弈、问答等方面已经有很好的发展,神奇得令人瞠目结舌。
人工智能发展史上有两件特别重要的事:一个是国际象棋手深蓝的事,一个是围棋手AlphaGo的事。1997年,IBM做电脑的棋手深蓝“DeepBlue”,击败了当时的世界冠军卡斯特罗夫。1996年卡斯特罗夫还打败了深蓝,但是经过算法不断的进化,仅仅一年时间它就击败了卡斯特罗夫,当时用的是C语言。算法是最重要的,它的算法根本思路是Exhaustive,即穷举,就是要把所有的可能性都列举出来。从97年之后为什么经过了二十年才会有新的发展,主要就是因为当时采用穷举法的局限。
当我们当时还在用深蓝去穷举的时候,我们发现我们再怎么去穷举,再大的计算机能力可能都没有办法把围棋的问题解决了,然后就需要一个全新的,完全不同的理论框架来解决这个问题。是什么呢?深度学习,或者说自主学习算法。它就会摒弃掉很多的可能性,可能是99.99%的可能性,但是那些可能性都是几乎不可能发生的,这样就可以实现它能赢,但是它怎么摒弃呢?它通过机器一开始跟人或者跟其他的机器去对弈,来让机器自己学习,做自主选择,然后慢慢去学会这些东西。
AlphaGo最早的叫AlphaGoMaster在2015年以5:0击败了职业围棋二段选手樊麾,16年3月4:1击败了李世石九段、17年以2:1击败了当时世界排名第一的柯杰。后来又出现了更神奇AlphaGoZero,AlphaGo Zero变成了AlphaGo Master的进化版。经过三天的训练,不是用人的棋谱,而是自己和自己对阵,三天训练之后它以100:0的成绩击败了AlphaGoMaster。
那么问题来了, AlphaGo Zero有没有可能输给人类呢?AlphaGo Master都打败了人类,AlphaGo Zero打败了Master,那我们的逻辑是AlphaGoZero一定应该能够打败人类。但是这个逻辑的前提条件是什么?所有其他条件因素的背景全都一样。理论上讲AlphaGo Zero是有可能反而输给人类的,尤其是它也许恰恰会偶尔输给一个半调子的棋手。为什么?因为这个半调子的棋手有可能特别不按常理出牌,突破了AlphaGoZero之前学到的所有套路。因为它不是穷举的,所以从统计学上来讲,这种可能性一定存在,虽然很小很小。所以我想和大家说的是,要想在一些技术或者领域有创新的话,一定要突破我们的边框,突破传统的逻辑思维,有一些很开放的想法,不要怕脑洞太大,不要怕别人说你异想天开,一定要敢想。
小结一下,人工智能发展从计算智能(存储、计算)到认知智能(听、说、看触、闻,理解、思考、反馈、适应等),再到抽象知识处理智能(分析、推理、演义、归纳)。
这几年的移动互联网和互联网的发展的迅速发展导致的智能手机和智能移动设备的发展也同样迅猛,为人工智能的发展提供了新的契机。
物联网为万物沟通提供了平台,涵盖了智能医疗、智能电网、智能教育多个热点行业的应用,还与云计算、大数据、移动互联网等息息相关,拥有广泛的市场前景。物联网被认为是继房地产、互联网之后下一个经济增长点。我们生活周边同样有诸多应用,如智能家具、车载设备、穿戴式设备,机器人也是一个比较典型的应用形态。
这里稍微提及Gartner技术发展曲线,如下图。在研究新技术的时候,这个曲线是非常重要的一个参考。Gartner网站每年都会去更新曲线,它的发展有一个起伏的过程,尤其在今后发展再更新更细的新技术的时候,都会遇到瓶颈,这些瓶颈都是类似的,所以这是为什么它会有特别大的凹陷,由于它是一个系统工程,在这个系统工程上有些地方是短板,它就在一个时期内很难得到长足的或者是迅速的发展。
接下来我们花一点时间稍微深入地讲一下人机交互。
人们把人工智能比喻成电能,有发电的,有用电的,也有输电环节。人机交互就像是输电环节。人机交互的历史变迁从80年代、90年代开始。从组织到90年代的浏览,00年代的搜索,到10年代的处理,互联网时代的需求正在向处理任务变迁。人机交互是人工智能的典型应用。
人机交互的本质属性-状态模型和决策模型。用户想干什么,曾经表达过什么,机器做了什么,是它的状态模型。而决策模型指机器应该回答什么。
还有其他的未来人工智能的方向,比如说情感。现在的机器人是没有感情的,可能慢慢的有些机器人比如在语音交互的过程中就可以把人们的语气、情绪解析出来,由此赋予了机器情感。
接下来讲一些AI在金融领域的应用案例。这个得益于几个会员单位如元素征信、法海风控、百融金服、银联智策等的提供,具体的底层技术不便于太多公开,以下列举几例。
我们的会员单位拥有各大部委,各个企业还有个人的数据,根据这些做了企业的风险关联分析,企业族群探索,对于分析一些大型的企业十分有益。
第二个应用案例是基于自然语言处理的舆情分析,用于对公业务的贷前贷中风险预警。自然语言处理是人工智能领域比较明确的分支。这个是来自于另外一个会员单位,他是专门做法院的文案分析,判决书非常冗长,他用自然语言处理,把它进行解析,包括一些法律相关的新闻。基于这样一些算法做的风险预警管理系统,涉及到反欺诈,舆情分析。
第三个是基于机器学习的企业画像,用于对公业务精准营销和风险监测。这个是各个维度的,工商数据、税务数据、海关数据,进出口,各种质监数据,包括公司的个人数据,一起来分析整个企业的全景画像。结果可以用于风险监测和精准营销。
此外,人工智能也在量化投资和智能投顾等方面有着全新的尝试。
现场提问精选:
问:在现阶段,每个人买金融产品的时候大部分是随机的。您刚刚提到智能投顾在银行里的推广,我们作为企业方推荐一个产品给小白用户,那么银行应该通过这个给用户最大收益,还是通过这个把银行的赢利作为出发点?
袁征:这是一个很好又很现实的问题。我到底是为了我的终端客户来服务,还是为了自身的赢利?这是大家都感觉非常矛盾的一件事,一方面银行都想卖自己的产品,我在美国的时候先接触资产配置,那个时候做财富管理的人都是独立机构,因为他们不能代表任何一个机构去卖产品,不然就会让人觉得不是对我个体的优化,而是对你公司的优化。我们现在想要让广大客户去接受,就是希望能够说服银行在两个利益上有一定的平衡,一方面我们会选择全市场可以投资的东西,放到库里面;另外一方面我们在比较类似的产品上,对银行自身的产品有一定的推荐,希望做成这样一种配置,能够最大化满足双方共同的利益,尽量做到能够在不影响个体投资人利益的情况下去卖银行的产品。是否能做到,这就是个体差异了,首先是不是愿意去做,还是动力全都来自于为银行购买产品,相信大家慢慢都会有感觉他这个产品是在专门推销理财和基金,还是在为我们终端客户提供更多的服务。
刚才提到了理想的配置,它其实有很多种,在前面我们需要做个性化的客户画像,包括风险偏好、资产水平以及各个维度的信息。你的配置模型可能跟我的模型跑出来的结果不一样,因为我们俩的风险偏好和其他的参数不一样,所以应该是根据每个人的不同而有一定的私人定制。
在公众号对话框回复关键词“AI金融”,下载完整版讲座PPT。
“应用·创新”系列讲座
清华-青岛数据科学研究院“应用·创新”系列讲座,分享大数据新应用与创新性商业模式;旨在介绍大数据在各行业的最新应用,激发校内利用大数据机遇进行创新的热情。更多精彩干货及线下活动,敬请关注THU数据派(ID:datapi)及姐妹号数据派THU(ID:DatapiTHU)。
整理:王志蒙
校对:龚力