清华唐杰教授:网络表示学习理论及应用
人工智能论坛如今浩如烟海,有硬货、有干货的却百里挑一。由中国科学院大学主办,百度公司提供支持,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第一期“数据挖掘”专场已于2019年1月19日下午在中科院学术会堂举行。来自清华的唐杰教授,为大家带来报告《网络表示学习理论及应用》。
唐杰教授全场报告视频
唐杰,清华大学计算机系长聘教授、计算机系副主任,清华-工程院知识智能联合实验室主任,国家杰出青年科学基金获得者。
唐杰教授的研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱。发表论文200余篇,引用10000多次(个人h-指数56)。主持研发了研究者社会网络挖掘系统AMiner,收录1.36亿科研人员、2.31亿科技文献,吸引了220个国家/地区1000多万独立IP访问。曾担任国际期刊ACM TKDD的执行主编和国际会议CIKM’16、WSDM’15的程序委员会主席、KDD’18大会副主席以及IEEE TKDE、ACM TIST、IEEE TBD等期刊编委编委。作为第1完成人获北京市科技进步一等奖、中国人工智能学会科技进步一等奖、KDD杰出贡献奖。
网络表示学习理论及应用
首先,唐教授分享了他对人工智能的整个范围的思考。
从AI概念的萌芽、提出,到用机器表示知识,通过知识库辅助决策,到现在AI系统和算法的发展,这是人工智能的总体趋势。说了很多人工智能的东西,但人工智能到底是什么?人工智能好像就是智慧教育、智慧交通、智慧医疗,这些是上层的应用和各个领域的交叉,但本质的东西到底是什么?可以小范围地说,人工智能的内核就是知识表示、推理加上一些计算引擎,如果再放大,就涉及到包括和各个学科的大范围交叉。
接着,唐教授分享了他在网络表示学习方面的工作。
人工智能需要把各种图片、文字信息映射到共同的低维数据空间做计算。怎么把大量的原始数据、数据产生的数据都映射到共同的低维空间,这是个难题。例如,把互联网的数据看成由点和线组成的图。因为数据多种多样,来源多种多样,影响范围多种多样,这个图就相当复杂。
网络中需要大量的计算,计算的目的是预测。如:在一个网络中,有若干互不认识的人发了红包,在另一个网络中,有若干互相认识的人发了红包,前者这群人的共同好友接着发红包的概率要更大。这在心理学中可以得到解释,唐教授介绍了一系列文章,进一步解释了如何用抽象的数学网络来表示。
机器学习应用在网络表示领域,与传统方法一道产生了一系列算法。研究发现,这些方法的本质是相同的,可以规约到同一个算法中,但使用不同的矩阵做参数。基于这个研究,唐教授设计了NetMF算法。该算法应用到王者荣耀等大型游戏的网络中,用户行为预测准确率大大提高。
在预测中,用户的反馈非常重要,但用户可能会在很久之后才会给出反馈,那么分析用户是在对哪个问题进行反馈,也是一大挑战。在学堂在线MOOC的平台上,根据观看视频的时长等信息判断用户是否感兴趣,获得了较好的效果。
最后,唐教授提到了未来的研究方向和网络表示领域的挑战。也提到了AI的未来到底是感知还是认知的思考,机器学习怎么结合用户的问题。