清华成立自然语言处理与社会人文计算研究中心,孙茂松任主任

Synced 机器之心 今天

机器之心报道

作者:李泽南

语言智能是AI皇冠上的明珠,如果语言智能实现突破,知识和推理就会得到发展,进而推动整个人工智能体系获得巨大进步。7月1日,清华大学在北京宣布成立自然语言处理与社会人文计算研究中心,人工智能研究院常务副院长孙茂松成为了这家重要机构的主管。

清华成立自然语言处理与社会人文计算研究中心,孙茂松任主任

孙茂松被聘为研究中心主任。

自然语言处理研究中心的成立正值清华大学人工智能研究院建院一周年之际,它也是人工智能院旗下的第八个研究中心。该机构的成立旨在整合校内优势研究力量、推动人工智能的原始创新。

在此之前,清华大学陆续成立了人工智能研究院基础理论研究中心、智能信息获取研究中心等研究机构。

探究人类智能本质

「人类语言是人类智能本质的表现,自然语言理解被誉为人工智能皇冠上的明珠,」清华大学副校长,中国工程院院士尤政在成立仪式上表示。「这一概念在 AI 产生之前就已经是顶级大学研究的重要方向,也是计算机学科经典的研究方向。是当下 AI 研究的制高点。」

自然语言处理(NLP)是计算机迈入智能化的必经之路,研究 NLP 不仅能够促进技术发展,对于信息安全等领域也有着重要意义。作为国内顶级学府,清华大学是国内最早开展研究 AI自然语言处理的高校,早在 1978 年就在黄昌宁教授的领导下开办了 AI 和智能控制教研组。

清华成立自然语言处理与社会人文计算研究中心,孙茂松任主任

清华大学自然语言处理研究方向开拓者黄昌宁教授(左)在成立仪式上。

在多年的发展中,清华大学一直瞄准国际前沿开展工作,经过不懈努力,已经发展成为国内外自然语言处理研究的一方重镇。

与其他大学的类似机构有所不同,清华大学成立的 NLP 研究中心致力于与社会科学及人文科学相结合,具有大跨度学科交叉的性质。

「从研究院的整体部署上,我们把自然语言处理作为人工智能基础研究的一部分,」清华大学人工智能研究院院长,中国科学院院士张钹说道。「自然语言处理应该与社会学、人文学深度融合。我们希望研究中心能够在领域交叉研究上形成特色,进而引领国内学界的发展。」

张钹院士表示,交叉领域研究并不是简单地在其他学科上使用 AI 或深度学习工具——重要的是以社会学、人文学等其他学科的方式思考 AI,寻找自然语言处理,以及人类智能的本质。

NLP 研究中心的成立不仅能够促进人工智能技术的发展,对于其他学科而言也具有重大意义。此前,清华大学已经开展了一些在交叉学科上的 AI 研究。「清华大学法学院正在发展有关计算法学、研究民间借贷、交通定则等方向的研究。」法学院院长申卫星教授表示。

中心成立后,清华大学希望以此对自然语言处理领域的研究提供持续稳定长期的支持,并在多个方向上实现从零到一的突破。

在成立仪式上,清华宣布研究中心聘请中国工程院院士,中国中文信息学会原理事长倪光南、加拿大皇家科学院院士李明、微软亚洲研究院副院长周明、英国皇家工程院院士郭毅可任中心学术顾问。孙茂松任中心主任,清华大学计算机科学与技术系,人工智能研究所所长刘洋任中心常务副主任。

开源前沿研究成果

在昨天研究中心成立的同时,清华大学还举行了自然语言处理前沿学术报告与开源成果发布会,中心研究团队发布了机器翻译、深度学习中文诗歌生成系统以及自然语言预训练模型等最新研究成果。

THUMT 是清华大学 2017 年 6 月发布的深度学习机器翻译系统。该系统使用了数据驱动的机器翻译技术,具备良好的语言无关性,在具备训练数据的条件下可以迅速为新语种部署系统。

昨天,刘洋教授公布了在 TensorFlow 平台上开发的新版 THUMT 系统,其采用了主流的 Transformer 模型,集成了目前最新的神经机器翻译技术,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、翻译性能高(与国际机器翻译开源软件相比位居前列)、易于可视化分析(支持层级相关反馈算法)等优点。

此外,清华大学还开放了包含 70 万句对的句级对齐汉英平行语料库,以及 4 万句对的词级对齐汉英平行语料库。

项目地址:thumt.thunlp.org

刘知远副教授在活动中发布了新工具 OpenCLaP(Open Chinese Language Pre-trained Model Zoo)。这是一个多领域中文预训练模型仓库。通过在多领域大规模中文文本的预训练,这些预训练模型可以在下游任务上进行微调以提高任务性能。本次开源成果公布了数个基于千万级文本的预训练模型,支持最大 512 长度的文本输入适配多种任务需求。

清华成立自然语言处理与社会人文计算研究中心,孙茂松任主任

刘知远副教授介绍了清华大学最新的开源成果 OpenCLaP。

OpenCLaP 采用 BERT 作为通用框架,目前已经完整支持民事文书、刑事文书、百度百科等领域的预训练模型。刘知远表示,清华大学 NLP 组未来还将在 OpenCLaP 中持续加入更多更强的预训练模型,如增加更多训练语料、引入大规模知识、使用全词覆盖策略等。

  • OpenCLaP GitHub 网址:github.com/thunlp/OpenCLaP
  • 项目网址:zoo.thunlp.org

相关推荐