第二期“AI未来说”带你领略“充满魅力与挑战难题”的NLP专场
2019 年 2 月 23 日下午,“AI 未来说·青年学术论坛”的第二期自然语言处理专场,在北京市中国科学院大学中关村校区 3 号教学楼 S101、S102 阶梯教室举行。
自然语言处理(NLP)是人工智能中最困难的子领域之一,是一个充满魅力与挑战的难题。随着理论和计算机硬件的发展,NLP 技术已经成为了我们日常生活中不可或缺的一部分,应用到我们常用的搜索引擎、机器翻译、淘宝推荐等场景中。
本次论坛共邀请到 6 位嘉宾,包括分别来自北京大学、中科院自动化所、北京邮电大学的 3 位老师,分别来自百度公司、阿里巴巴公司的 2 位高级工程师,来自哈尔滨工业大学的 1 位杰出博士生。
万小军教授做“自然语言生成”的报告分享
作为北京大学计算机科学技术研究所教授、博士生导师,北京大学语言计算与互联网挖掘研究室负责人,万小军教授报告的内容主要包括自然语言生成(NLG)的研究任务、主要方法和顶层应用,以及自己团队在该领域的相关工作。报告总结了不同的NLG任务的特性与数据集的模型,并指出了NLG领域中的一些有挑战性的问题,如在极小的平行面上做文本生成、NLG的评价模型、跨模态生成等问题。
张家俊副研究员做“面向自然语言生成的同步双向推断模型”的报告分享
作为中科院自动化所副研究员、中国中文信息学会机器翻译专委会副主任、青年工作委员会执委、中国计算机学会中文信息技术专委会委员、人工智能学会青年工作委员会常务委员,张家俊副研究员报告的内容主要包括自然语言理解(NLU)领域的最新进展 BERT 模型和他们团队在NLG 领域引入双向解码器构建的 BIFT 同步双向推断模型。报告对 BERT 模型的成功因素做了剖析,指出双向编码器是BERT模型成功的关键。
李蕾副教授做“关于自动文本摘要的分析与讨论”的报告分享
作为北京邮电大学计算机学院副教授、中国人工智能学会理事、中国人工智能学会自然语言理解专业委员会秘书长,李蕾副教授介绍了自动文本摘要是在知识过载的背景下产生的,给出了自动文本摘要的发展趋势、研究分支与难点问题,介绍了他们团队所做的一些研究成果,如单文档抽取式无监督新闻摘要系统和多话题多语言的摘要系统。
孙珂博士做“对话技术的产业化应用与问题讨论”的报告分享
作为百度 UNIT 负责人、百度自然语言处理部主任研发工程师,孙珂博士介绍了人机对话的核心技术、产业化探索以及问题和展望。介绍了三种经典的对话系统,即任务型、问答型和闲聊型。具体的方法讲到了基于语义匹配和深度注意力匹配的模型,同时介绍了主流对话系统的应用场景,比如消费产品(音箱、出行、APP、语音助手等)和企业客服(办公助手、在线客服等)。
谭继伟博士做“基于序列到序列模型的文本摘要及淘宝的实践”的报告分享
作为阿里巴巴高级算法工程师,谭继伟博士介绍了新闻标题自动生成、单文档摘要、多文档摘要和淘宝标题生成的工作。文档摘要的主要挑战包括大规模高质量训练数据依赖和端到端的学习模型不一定满足要求。对于前者可行的解决方案是模型迁移和无平行语料训练,对于后者可行的解决方案是控制原始内容的提取和可控解码算法。
刘一佳博士做“通过句法分析看上下文相关词向量”的报告分享
作为哈尔滨工业大学计算机在读博士生、百度奖学金得主,刘一佳博士介绍了从句法分析角度研究上下文词向量的工作。基于上下文词向量的模型能给句法分析带来性能提升,能给未登录词带来提升(对于未登录词的作用主要来自于对词的归纳能力),但缺点是训练的代价太大。对于一部分任务,简单一点,局部一点的上下文模型可以取得与复杂模型类似的性能。从通用性角度考虑,复杂的上下文建模更有意义。
本次论坛由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。自 2 月 17 日启动以来,共收到了1000 多份报名申请,报名群体遍布全国 30 多个地区,境内外 50 多所高校和科研院所,吸引了包括学生、领域从业人员、企业管理人员等在内的广泛关注。
“AI未来说·青年学术论坛”系列讲座以贯彻落实国家人工智能发展规划和推动我国人工智能技术水平进步为目标,通过业界专家、青年学者和优秀学生介绍领域前沿技术成果和分享教学、科研和产业化经验,促进产、学、研结合,助力我国人工智能行业的蓬勃发展。