独家|语义视角下的跨学科与跨界数据认知
在这个新技术、新商业、新城市、新环境等加速迭代的智能时代,不断涌现的革新挑战着人们传统的意识和粗浅的认知。本期由清华-青岛数据科学研究院主办,中国科促会清数大数据产业联盟、清华校友AI大数据专委会(筹)承办的清华大数据“应用·创新”系列讲座将从语义视角切入数据认知领域,试图寻找跨学科与跨界的共识机制,探寻学术与商业合作过程中所需要的能力。
嘉宾简介:清华-青岛数据科学研究院大数据基础设施研究中心副主任赵强老师,其本人为北京大学计算语言学博士,研究方向为语义学,2012年起转向高校和企业的多学科跨界融合产学研对接工作,提出社会化大规模实验的新概念,参与北大、清华、复旦等多项产业前沿项目,在知识图谱、语义网络、区块链应用、性格匹配、情感计算、文本语义分析等方向上有深入探索。
本期讲座将围绕大数据基础设施、社会化大数据试验和场景数据化三个方面展开。以下是演讲实录:
后台回复关键词“1107”,下载完整版PPT。
“大数据基础设施要解决的,是面向积累、面向需求形成标准或者共识的那一部分。”
随着各种各样的大数据项目的增加,我们开始关心它的数据可视化是不是够炫,政务项目是不是做得很好,或者是关心某一些特定的项目是不是能够赚钱。但是事实上绝大多数的项目都需要大数据基础设施的支撑,这个词不常见,但是它将慢慢地成为一个非常重要的事情。在某种意义上,大数据基础设施的互用性是非常大的,譬如说一个数据中心,或是SDN软件定义网络,或是数据的智能调度,或是数据安全以及在数据中心的日志维修等方面,都会有大量的知识。用我们中心主任徐葳老师的话来说,大数据基础设施基本上就是隐藏在整个光鲜的应用背后一系列的苦工作,平时大家看不到,但是一旦大家能感觉得到,这就一定是出了大问题。
我个人的学习经历是从89年进入北大之后,95年、96年开始做编词典的工作,做汉语语法信息词典和汉语语义词典,现在比较时髦叫语义网、知识图谱,这是一种能够让人和机器都读懂的、具有共性的、处于整个数据应用层底层的技术和资源,是大数据基础设施层的内容。那么,大数据基础设施都包括哪些内容呢?
可以看出,大数据基础设施包涵很多技术层面,但都是底层的非应用型的技术。大数据基础设施要解决的,是面向积累、面向需要可能形成的标准,或者共识这样的部分,需要长期的积累,假如说这些技术有面向应用的地方,可能就不是大数据基础设施需要去涉及的。下图中紫色的部分,就是我们认为大数据基础设施层要做的一些工作,它所涉及的层面也非常得多。
大数据基础设施的定位与认知:
大数据基础设施是面向数据采集、数据分析和数据应用的创新性系统工程。
一方面指支撑大数据应用和大数据产业的基础设施,即通过对云计算、SDN/NFV、分布式数据中心、可定制服务器以及人工智能等领域的技术整合创新、工程实践、标准发布、社区建设,创造一系列高效率、高可用性和智能化的数据产业云网一体支撑性平台。
另一方面指用大数据和人工智能的方法,解决基础设施运行过程中的问题,为数据产业的安全、运维、生产实验环境、服务和运营体系提供价值。
两方面互为促进,构成完整的大数据基础设施价值观、方法论和影响域,汇聚产业和科研人才,解决产业和科研问题。
我个人目前倾向于研究语义网或知识图谱,比如元数据和数据治理,在一个行业里边我们试图要为数据的数据做一些定义时,一个完整的数据集以及术语的标准化,还有术语相互之间的关系,就是知识图谱可以提供解决方案的。知识图谱在应用层的代表主要是谷歌、百度的语义搜索,它们的目标就是想把所有的不分门类的知识都能够统一地变成一个巨大的图谱。但知识和知识相互之间有可能会冲突,而且每一个知识的应用场景是有限的,因此我们现在做知识图谱仍是要面向行业,而不是全部。
最近一两年,随着金融科技的兴起,一些国内的新三板、A股要去分析和挖掘海量的文本,这个时候知识图谱技术开始被重视起来。知识图谱在金融科技领域的应用,就是把海量的文本累积起来,把里面的实体和关系、特征都放到数据库里面。比如说一个上市公司,或者是一个大的集团,它的背后可能会存在的一些关联性。经常炒股的人都听过“万象系”、“德隆系”,这些事情如果在知识图谱当中被发现,这就能够成为证券监测里边所谓的舆情监测的部分,帮助相关机构和政府部门去发现异常交易,去发现一些潜在的风险。
在金融行业里边所谈到的舆情监测,可能并不一定是简单的判断。它更多的是希望能够找到一种复杂的关系,可以对未来可能发生的事情作出一些预警,或者是预判。那么证监会的舆情监测,它的丰富程度远远超出我们过去所设想的在某些文本上做一些简单的情感计算就能够得到的。它背后存在大量的知识,而这些知识最好的表达方式肯定就是用知识图谱的方式。
“在逐渐进入智能时代的时候,在大数据的支撑下,社会化大数据试验使我们有了一套全新的评估方式。”
人工智能的人才缺口动辄500万,但是这里到底是缺少高端的数据科学家,还是缺少码农?经过一些走访我们了解到,人工智能的人才缺口是那些能够在传统职业取向上更新自己的技能的人才。比如过去我们要求完全掌握Office就可以做文员,现在还应该会用Excel做一些简单的数据分析,生成可视化报告,能够知道公司里面哪些数据是可以收集的,哪些数据可能对于公司的运营和决策是有价值的,这样我们就对办公室文秘这样的岗位进行了智能时代的数据认知升级。这种智能升级不是通过传统的教育方式能够培养出来的,而是需要借助职业教育或高校的大数据专业推进,这也是人才的大数据基础设施建设。
在如今这个智能时代,我们通过建立知识图谱数据库,构建双生子系统,模拟可能出现的一些反馈,并通过调整参数,任意放入很多虚拟的人格和环境当中可能遇到的种种变量。这个时候我们就有了一套新的评估方式,这个评估方式就是在没有引发实际的社会反应之前,我们就可以去评估任何一个事件,它一旦放到大数据的社会化当中去的时候,有可能会产生一些什么样的反应,这就是社会化大数据试验在逐渐进入智能时代的时候,在大数据的支撑下,它能够起到的一个作用。
在游戏《魔兽世界》里面曾经发生过一个比较著名的实验。2005年,《魔兽世界》哈卡之血带来了瘟疫,这个瘟疫是玩家利用一些BUG,把这个瘟疫带回主城,就有大量的玩家上线就死,没法继续游戏。发生“堕落之血”事件后,许多媒体以及流行病学家呼吁,此类的网络瘟疫传播事件,有助于研究病毒传播的模型,以及人们如何对抗环境中的疾病等现象。包括美国Tufts大学、以色列的Ben-Gurion大学皆表示,电子角色扮演游戏可提供高阶的研究平台、虚拟环境,让科学家进行相似的疾病传染研究。
这个事件之后,大家逐渐认识到了像大数据社会试验的另一种方式的可能性,我们可以很好地获取虚拟世界当中的数据映射到现实社会当中来,对现实社会中可能出现的一些不好的影响来作出一些预判,甚至作出一些调控。如果它的准确率能够达到80%,那么它就具有比较好的效率,同时它基本上没有负面的影响。
关于性格匹配也是一个比较有趣的研究课题。所谓的酒逢知己千杯少,国外的很多心理学家针对这个假设也做了一些实验室级别的研究,说明确实存在着这样一种类似于“相生相克”的关系。但是这种实验室研究一般样本很少,如果能够把这种性格匹配放到大数据的社会化实验当中去,就会获得更有力的证明。当时贝塔斯曼有一个全球最大的国际呼叫中心,他们主要服务宝马、奔驰等一些大的汽车服务商。
当时我们把性格收集的语音分析软件放到呼叫中心的生产线上去做一些基本的数据收集,并做一些初级匹配,然后再根据我们匹配的结果进行反复地迭代,最后找到这样一种性格匹配的最佳模式。虽然实验的过程中涉及隐私问题无疾而终,但性格确实和喜好有着比较密切的关系,根据这些语音来做一些性格方面的预测,提供所谓个性化的服务,这样的数据应用价值是非常巨大的。
社会化大数据试验包括在实验室里面会有一些假设,也会有一些初步的测试数据,能够构建一个非常简陋的模型,然后我们能够把这个模型植入到生产系统,或者是双生子系统当中,去反复地学习迭代模拟,直到它达到一个比较好的效果之后,然后就把它真正地应用到我们希望应用的场合。
我想我们要定义这种社会化大数据试验,是希望不管是通过真正的生产系统去做了脱敏(指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护)之后,还是我们在一个非生产、但是高度仿真的双生子系统当中,去把数据接入过来,来进行这种高强度的模拟,这两种方式希望达到的都是我们对于某一种科学假设的验证,或者说能够达到一些对我们整个科技发展都有价值的试错。所以,当科技发展到今天,我们很多的决策就不再应该是拍脑袋的决策,而是应该去追求比较高的成功概率,如此一来,社会化大规模试验在未来的学术研究和生产实践紧密结合当中会有着越来越重要的地位。
很多的传统行业并没有认识到自己的行业数据里面到底有什么价值,有什么意义,这是数据认知的短板。
业务和背后的技术之间常常有一些冲突,技术并不能够了解业务,业务也并不能够了解技术,这就是一个场景问题。很多时候我们的期望值是远远高于我们的技术发展,但是无论怎样,能够在传统行业的数据挖掘、数据收集及数据清洗到数据应用里面达成某一些数据认知,形成一定的共识,那么几乎所有技术都可以在某些地方对传统行业作出一些改变。
下面这些案例就有很多应用场景可以启发我们的想象力,正面的场景可以开启我们的想象力,负面的场景植入则会误导我们的想象力。
案例是谷歌试图在智慧城市做一些场景化的构建,在竞标书中,Sidewalk Labs(Google母公司Alphabet的子公司)提出了各种科技设想,例如不会增加空气中二氧化碳总量的热能电网、能分拣回收废物的传感器、由商用房改建的组合式住房、能跟踪噪声和污染情况的监控器、无人驾驶班车、共享出租车机器人、智能交通信号灯、送货机器人,以及能自动融化积雪的自行车道和人行道等。
案例是2017年7月,阿里旗下B2C电商平台天猫官微通过一段视频向世人展示了一种不一样的汽车新零售模式“无车售车”——天猫汽车自动贩卖机,没有传统4S店内的售前、售后、收银等配套服务人员,消费者全程仅通过对天猫手机客户端进行一系列操作,便可完成一辆新车从选购、预付款、分期付款业务办理等所有环节。
案例是亚马逊无人售货车,未来感十足的实体商店,消费者只需要走进商店并扫描手机上的Amazon App,挑选自己钟意的产品装进购物袋,然后直接走出商店就可以完成购买。无需排队,无需等待结账!超前体验的免结账购物商店正好将亚马逊很多可控技术做了拓展和普及应用,比如计算机视觉技术、传感器和深度学习技术。这些技术能自动监测商品从货架上取下或放回,并且在虚拟购物车中进行跟踪。亚马逊免结账购物商店场景也许就是一个技术自然而然地在自己的业务模式上的一种延伸。
案例是苹果教育的应用,这些并不是那么常见,但是它确实能够做到即便你没有需求,我也为你创造需求,这个就是乔布斯精英主义的验证。如果说在没有需求、强行创造需求的场景下,这种场景一定要满足大家的好奇心,要好玩,能够满足大家的想象力。
还有两个场景应用的成功案例,一个是电子纸,一个是谷歌眼镜。首先,谈一下通过场景转换获得新市场的电子纸。电子纸从实验室到落地使用虽然有20年的历史,但依然处于新生阶段,但是在物联网驱动的智能城市里面,电子纸技术变成了绝佳解决方案。例如kindle电子书运用了电子墨水技术,新零售实体店的电子标签,公交站牌的电子纸显示器等,这是需求驱动的自然而然的场景转换,它本来是to c,现在变成一些to b应用,广告业的需求引导了技术的方向。
第二个是场景转换让产品起死回生的谷歌眼镜。刚推出来的时候就是希望大家戴着它非常酷,同时还推了一款游戏,有点类似于后面非常火的皮卡丘抓小精灵的游戏,叫做抢夺资源点。在实景当中戴着谷歌眼镜,你就可以去争夺城市的资源点,但是在这个to c的场景下失败了,后来转向了to b,为波音公司提供AI服务,场景转换立刻让它成为了一个在精密操作现场的非常重要的辅助工具,戴着谷歌眼镜使工作效率提升了百分之四五十,做检修的时候有一种解放双手的感觉。其实场景并不是我们大脑当中非常理性的东西,更多的时候代表着我们人类的一种想象力。
场景的价值:
耗费大量资源研发的新技术,需迅速占领市场,找到需求方,或创造需求;
高科技公司通过场景,占领大众认知,(改为其他?)公司跟进,以此作为竞争策略;
消费级高科技产品的性能相对抽象,但单价较高,预想多种使用方式,影响消费者购买意图;
高科技产品的市场较为单一,拓展新背景下的新市场;
高科技产品的研发过程为技术导向,社会文化背景、消费者心理认知等超出开发预期,需不断试错,方能找到真实需求。
图为2015年“全球百大思想者”、 美国斯坦福大学计算机科学系副教授李飞飞提出来的场景识别的概念,更多的是物体、属性、关系就可以构成场景图。
卫哲跟李飞飞交流过,说大概90%的人工智能是伪人工智能。他认为伪人工智能就是指没有数据或者是算法迭代得不够快的人工智能。他这个说法其实就是只剩下来所谓的10%,甚至1%的人工智能是真的人工智能。对他来说,他认为这个就是一种场景化。
还有谷歌在做的AVA数据集,英特尔最近在人工智能方向投资的这些案例都可以后台回复关键词“1107”,下载完整版PPT进行了解。
事实上场景映射到影像,或者映射到意象,这个过程依赖的不是一个理性过程,而是充分依赖于我们的想象力。
我们做语音识别或者是图像识别的时候,在我们语言学的语境当中都叫做语码转化,只不过是跨符号平台的语码转化。因为用传统的分析方法,词、短语、句子、篇章,这个是我们用结构主义语言学给语言或大或小的单位给出的定义。一般来讲,词对应的是一个概念,句子对应的是一个命题,概念和命题当然是逻辑学里面的一些基本要素。现在随着语言学和脑科学的发展,可以认为词这个单位在大脑里面是以数据的方式来储存。
人工智能包括数据、算法和计算,对应到语言里面,我们可以认为数据是词,从词到句子这个过程肯定是通过句法这种算法来实现,完成计算的结果就是生成一个句子。在这个比喻过程中,我们会发现传统结构语言学的短语并不出现在语言表层,现在用基于统计的一套自然语言处理的方式,也完全可以不去处理短语这个层级。而短语在逻辑里面对应的到底是什么?篇章在逻辑里面又对应的是什么?或者说篇章在计算领域里面对应的又是什么?我们可以作出这样一种假设。
如果我们把一个短语,即一个非句子的片段,理解为在我们大脑里面起起伏伏的场景,那么篇章就可以理解为这些场景所构建出来的一个连续的影像,或者称之为动画。当脑子里面浮想联翩的时候,确实存在大量碎片化的意象,各种各样的场景在我们脑子里面飘来飘去,充满着不确定性。一旦我们希望把它组织成为一个有条理的句子,并且把它讲述出来的时候,就会依赖于句法理性。
针对语言存在两种不同的天赋,一种天赋可能就是理性的语言表达的天赋,这种天赋按乔姆斯基的说法来看是每一个人都有的,就是UG普遍语法(自20世纪50年代乔姆斯基发表《句法结构》一书以来,他所引领的转换生成语言学在语言学界掀起了轩然大波,而作为该语言学派之灵魂和核心的普遍语法理论更是受到了广泛的关注),另外一种天赋就是我们的创造天赋,有的人会写出大量的错别字,文不通,字不顺,但是他写的文章却会非常地有吸引力。这种时候我们认为在他的大脑里,他能够把他的经验场景化,并且能够把场景很好地连缀起来。
如果这种连缀的过程对应到计算机领域,我们需要的并不是严格的句法分析和逻辑推理,而是另外一种算法,这种算法我们把它命名为语义筛,用一个经验领域的知识图谱来充当语义筛子,让大量的场景从这个筛子过一遍,可以取两个结果,要么把留在筛子里面的作为有价值的内容,要么把从筛子里筛出去的东西作为有价值的内容,这块作为一个假设,我们正在试图去实现。
验证流程大致如下,针对场景这样一个对象,首先找到一个可能可行的、模糊的、粗糙的语义模型,然后用社会化大规模试验的方式,把这个模型推到某一个大规模的数据环境当中去,让它反复地跑完之后来验证是不是在语言当中存在着两种不同的层级,一个层级是基于理性的层级,纯粹接受逻辑,接受语法规则支配的这样一些表达式。而另外一个层级就是来自于我们的想象,来自于我们的体验,来自于我们对于这个现实世界经验的拼凑,来自于我们每个人对于世界的不同切分,来自于非常丰富的复杂主题。
当我们在实际的环境当中去收集、整理数据之后,如何让这些数据拼凑成为场景,让它们能够为我们进行一些愉悦身心的创作,这个问题可能是我们需要尝试解决的问题。现在人工智能比较关心的场景识别,并不能激发出创造的天赋,对创造和想像力本身的模拟,才是场景数据化的发展方向。
微信公众号后台回复关键词“1107”,下载完整版PPT。