2019自然语言处理前沿论坛:聚焦机器“读、写、说、译”,探寻NLP未来之路

人工智能的本质是让机器像人一样感知世界、认知世界。以语言和知识为研究对象的自然语言处理(NLP)技术是人工智能的核心问题之一。5月26日,百度、中国计算机学会中文信息技术专委会和中国中文信息学会青工委联合举办“2019自然语言处理前沿论坛”。

百度高级副总裁、ACL Fellow王海峰博士为论坛做开场致辞。他表示,“语言是人类思维和交流的载体,同时也是人类知识凝练和传承的载体。自然语言处理技术不仅仅需要算法、算力和数据,同时也需要不断地凝练知识,需要语言处理跟我们认识世界、改造世界的过程相结合,所以仍然有很多创新突破的空间。”他希望通过本次论坛,青年学者们能够增进交流,碰撞新的火花,一起推动自然语言处理的发展及产业化的进程,在人工智能时代帮助我们的生活变得更加美好。

2019自然语言处理前沿论坛:聚焦机器“读、写、说、译”,探寻NLP未来之路

本届论坛主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”,包含语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告,以及围绕上述专题的嘉宾对话环节。本论坛汇集学术界和工业界的青年专家学者,共同探讨NLP领域的最新技术进展、产业应用及发展趋势,旨在促进产学研深度融合,推动自然语言处理技术进步。

“语义计算”研究如何利用计算机对自然语言的语义进行表示、分析和计算,使机器具备语义理解能力。哈工大车万翔教授介绍了动态词向量的技术进展,该技术可以根据上下文更好地处理一词多义现象,大幅提高自然语言处理多个任务的准确率;复旦大学邱锡鹏副教授介绍了表示学习的最新进展,分析和对比了当前主流模型的基本原理和优缺点,探讨了如何更好地融合局部和非局部的语义关系,如何更好地加入先验知识,以及针对目前复杂网络模型的简化和加速。北京大学孙栩研究员开展了关于稀疏化深度学习的研究,提出简单有效的算法来简化神经网络,仅用全梯度的子集来更新模型参数,大幅降低了训练和解码复杂度。百度主任架构师孙宇介绍了百度最近提出的知识增强语义表示模型ERNIE,基于实体、短语等知识进行建模,在语言推断、语义相似度等多个任务上取得了大幅提升。

“自动问答”专题探讨机器的“阅读”能力,让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解可以使机器具备从文本数据中获取知识并运用知识的能力,是问答领域的关键技术之一。中科院自动化所副研究员刘康介绍了文本阅读理解的基本框架和方法。他表示,构建合理的数据集对于阅读理解任务非常重要,而如何更好的融合知识是未来的重要研究方向。百度资深研发工程师刘Z介绍了深度融合文本表示与知识表示的模型KT-NET,以及百度发布的面向真实应用的中文阅读理解数据集DuReader 2.0。基于此数据集,百度、中国计算机学会和中文信息学会连续两年举办了机器阅读理解评测,共同推动中文阅读理解技术的进步。

“语言生成”专题聚焦如何让计算机像人一样使用自然语言进行表达和创作。北京大学万小军教授介绍了自然语言生成(NLG)技术和应用的最新进展,指出自然语言生成目前面临两大挑战,首先是对生成文本的质量评估,其次是平行数据的缺失。如果这些问题解决了,将极大地推动自然语言生成的发展。他同时也表示,目前的文本生成与人类还有较大差距,尤其是在综合利用知识的方面。百度主任架构师肖欣延介绍了百度在语言生成技术方面的创新和应用,提出了基于规划、基于信息选择、端到端等多种模型,在文章生成、摘要生成、诗歌生成等任务上取得良好效果。此外,百度还推出了智能写作平台,通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。

“人机对话”专题探讨如何让计算机和人类进行对话交流。清华大学副教授黄民烈回顾了人机对话的发展历程,经典的对话系统大多采用强语义方法,而现代神经网络方法则发展了弱语义方法,基于数据驱动和概率统计。语义理解始终是人机对话中需要攻克的难题,如何更好的结合数据和知识,是该领域需要共同努力的方向。百度主任研发架构师孙珂介绍了百度最新发布的智能对话系统训练与服务平台UNIT 3.0,从搭建技能、构建知识、整合技能与知识三方面着眼,发布了多个核心技术和工具,大幅降低了对话系统的定制成本。

“机器翻译”是指利用计算机进行不同语言之间的转换和生成,是自然语言处理领域中填补语言鸿沟的重要技术。清华大学副教授刘洋首先介绍了神经网络机器翻译的基本原理,并指出,尽管该方法取得了较大进步,但是仍然面临许多挑战。刘洋介绍了他们在知识驱动、可解释性、鲁棒性神经网络机器翻译方面的最新进展。百度人工智能技术委员会主席何中军介绍了机器同传的主要挑战和最新进展,指出目前机器同传面临技术、数据、评价三个方面的挑战。结合百度的研究成果,在现场使用了最新研发的百度翻译AI同传。现场听众使用手机扫描会议二维码,可以实时收听译文。

5大专题探讨结束后,车万翔、邱锡鹏、黄民烈、刘洋以及百度高级科学家吕雅娟、百度PaddlePaddle总架构师于佃海就“NLP的未来之路”展开高端对话。围绕“最近5年NLP的突破进展”、“NLP的发展趋势及未来5-10年的突破方向”等内容进行了精彩的分享。他们认为5年来,NLP在数据、模型、算法等多方面取得了突破性进展。中国NLP在学术界的研究及工业化应用处于国际前沿,近年来入选领域国际顶级会议的论文数量急剧增加,论文质量也在不断上升。同时,我们也需要进一步加强前瞻性和原创性的工作,中国NLP的发展潜力不可小觑。谈及未来发展趋势,嘉宾们表示未来进一步融合知识、多模态、探索更类人的学习机制等会带来NLP领域的进一步提升。

相关推荐