北邮李蕾:关于自动文本摘要的分析与讨论
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,百度公司提供支持,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第二期“自然语言处理”专场已于2019年2月23日下午在中科院举行。李蕾老师为大家带来报告《关于自动文本摘要的分析与讨论》。
李蕾老师全场报告视频
李蕾老师是北京邮电大学计算机学院副教授,中国人工智能学会理事,中国人工智能学会自然语言理解专业委员会秘书长。
主要研究领域为自然语言处理、自动摘要、机器学习、知识图谱、数据挖掘、社交网络分析等,参加国内外相关评测10余次,在TAC、ACL/EACL Multiling、ACM SIGIR BIRNDL、SIGHAN、NLPCC等多个自动摘要与内容关联评测任务中多次获得好成绩。在相关领域已发表学术论文60余篇,主持和参与国家级、省部级科研项目10余项,企业合作项目10余项,获得国家授权专利5项。
关于自动文本摘要的分析与讨论
李老师首先介绍了自动文本摘要是什么,然后从多个角度分析与讨论了自动文本摘要任务的要点和问题,最后介绍了李老师团队与此相关的工作。
李老师提出了 Summarization 和 Summary 两个词的问题,指出前者侧重摘要这一过程,后者侧重摘要结果,而自动文摘的研究重点便是在摘要的过程。
自动文摘在现在愈发重要,因为现在知识过载的现象愈发明显。自动文摘的研究方面主要有文本特征和摘要模型。评测方面有很多,与具体领域的需要有关。应用方面有直接使用摘要和间接检索摘要等。
自动文摘领域的研究发展趋势总体是从单文档发展到多文档,从单一语种到多语种,也可以从多个角度分析,包括:抽取式和生成式,有监督和无监督,通用摘要与个性化摘要,传统文本与网络新文本等。
单文档摘要是基础。单文档具有形式和内容上的完整性与规律。
多文档摘要的核心在于多篇之间存在关联。人们对多文档的需求更多,其实用性也更强。但是多文档摘要存在很多难点:摘要的压缩比更大了,不同文档选取的主题侧面不同,不同文档的格式、用语和风格不同,不同文档的时序更加杂乱,不同文档的冗余问题更加复杂,摘要是侧重选取重要性还是全面性。
多语言摘要是国际化时面临的问题。语言间天然具有关联,但语言都有独特之处,研究方法各异,不同语言研究所积累的资源水平也不同。TAC 2011 MultiLing 较早启动了一个多语言文档摘要算法的系列评测任务,成为了该领域的里程碑。多语言摘要研究可划分为语言相关性研究和语言无关性研究。
抽取式摘要适用于长文本,易于实现、通用性强、语言和领域的依赖度低、能够保持原文风格。但是,抽取式摘要词源单一,无法突破断句限制,通常不够连贯灵活有逻辑。生成式摘要需要分析原文结构和语义,重新产生摘要文本,随着深度学习、端到端生成模型的发展,近年来 Seq2seq 成为生成式摘要的核心模型,但效果仍然不佳。
有监督、无监督、半监督主要是关于学习式模型的训练思路、评价指标的区别,而有监督学习又产生了可移植性的问题,即新数据产生后如何去适应。
通用摘要与个性化摘要体现了用户的不同需求,更多的是采用个性化需求改造和指导通用摘要的产生方法。
传统文本与网络新文本主要反映了待摘要文本对象的发展变化,网络新文体出现了传统文本所没有的特征,如文本之外的元数据,以及作者属性,作者间关系,内容互动,文章标签等。
最后,李老师介绍了他们团队做的单文档抽取式无监督新闻摘要系统,介绍了面向多语言用户的多话题多语言摘要系统以及参加评测效果等。