NLP领域文本摘要有哪些研究方法？

流浪天空

2019-01-17

NLP领域文本摘要有哪些研究方法？

不少人说，对人类语言文本的真正语义理解可能是自然语言处理（NLP）的圣杯——这句话并不夸张。遗憾的是，对人类语言直接的“理解”并不能简单地依赖文本摘要。

不过，我们的分析必须继续进行。目前有一系列实际的技术用于文本摘要，其中一些可以追溯到几十年。本文将介绍目前文本摘要使用的主要方法并讨论其特征。

NLP领域文本摘要有哪些研究方法？

自动文本摘要技术

明确地说，当提到“自动文本摘要”时，我们指的是通过使用机器，并以某种形式的启发式或统计方法来对一份或多份文档进行摘要。在这种情况下，摘要是一段简短的文本，它准确地捕获和传达我们想要摘要的文档中包含的最重要和最相关的信息。我们目前使用的各种不同的自动文本摘要技术，其效果有许多是经过实践检验的。

有一些可以对自动文本摘要技术进行分类的方法，如图1所示。本文将从摘要输出类型的角度探讨这些技术。在这方面主要有两类技术：抽取式和抽象式。

NLP领域文本摘要有哪些研究方法？

图一自动文本摘要方法

抽取式文本摘要方法：从语篇中识别出重要的句子或摘录，并逐字复制，作为摘要的一部分。不生成新文本，在摘要过程中只使用现有文本。

抽象式文本摘要方法：采用更强大的自然语言处理技术来解释文本并生成新的摘要文本，而不是选择最具代表性的现有摘录来进行摘要。

虽然这两种方法都是文本摘要的有效方法，但抽象技术更难实现。事实上，现在大多数摘要过程都基于抽取式方法。这并不意味着抽象式方法应该被忽视，相反，对该种方法进行研究——以及对人类语言的真正语义理解——是一项值得追求的事情。

因此，本文余下部分将重点介绍抽取式文本摘要的具体内容及其不同的实施技术。

抽取式文摘

抽取式文摘技术各不相同，但它们都有相同的基本任务：

1.建立输入文本的中间表示（待摘要的文本）

2.根据构建的中间表示对句子进行评分

3.选出按重要性排名前k个句子的摘要

任务2和任务3非常简单：在句子评分中，我们要确定每个句子在多大程度上传达了所摘要文本的重要方面，而句子选择则使用一些特定的优化方法来执行。这两个步骤的算法各不相同，但其概念简单易懂——根据某种度量标准为每个句子打分，然后通过一些定义明确的句子选择方法从得分最高的句子中进行选择。

第一项任务是中间表示，可以进一步阐述。

NLP领域文本摘要有哪些研究方法？

中间表示

在对句子进行评分和选择之前需要赋予自然语言某种意义，为了达到此目的，需要为每个句子建立一些中间表示。下面简要定义了两个主要类别的中间表示，即主题表示和指标表示，以及它们的子类别。

主题表示 - 以识别文本主题为重点的文本转换；此方法的主要子类别包括：

· 频率驱动方法

· 主题词方法

·潜在语义分析（LSA）（https://en.wikipedia.org/wiki/Latent_semantic_analysis）

· 贝叶斯主题模型 - 例如潜在狄利克雷分配（LDA）（https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation）

最流行的两种词频方法是词概率和TF-IDF（https://en.wikipedia.org/wiki/Tf%E2%80%93idf）。

在主题词方法中，有两种计算句子重要性的方法：通过其所包含的主题签名的数量（句子讨论的主题数量），或者通过句子包含的主题的比例与文本中包含的主题数量。因此，第一类倾向于用于较长的句子，而第二类则衡量主题词的密度。

对潜在语义分析和贝叶斯主题模型方法（如LDA）的解释不在本文讨论范围，但可以在上面的链接中查看。

NLP领域文本摘要有哪些研究方法？

图二构建词袋特征向量

指标表示 - 将文本中每个句子转换为重要特征列表，其功能可能包括：

· 句子长度

· 句子位置

· 句子是否包含特定单词（有关此类特征提取方法的示例，请参见图2，词袋（https://en.wikipedia.org/wiki/Bag-of-words_model））

· 句子是否包含特定短语

使用一组特征来表示文本数据和并对其进行排序，可以通过使用两种总体指示表示方法中的任一种来执行：图形方法和机器学习方法。

使用图形表示：

· 我们发现，子图最终代表了本文所涵盖的主题。

· 我们能够分离出文本中的重要句子，因为这些句子将与更多其他句子相连（如果你将句子视为顶点，并将句子相似性表示为边缘）。

· 我们不需要考虑特定语言的处理，该方法可应用于各种语言。

· 我们经常可以发现，通过图形化的句子相似性获得的语义信息比简单的频率方法更能提高摘要性能。

使用机器学习表示：

· 摘要问题被建模为分类问题

· 为了将句子分类为摘要句子或非摘要句子，我们需要标记训练数据并构建分类器

· 半监督学习等替代方案解决了部分标记数据难题

· 我们发现某些假定句子之间依赖关系的方法往往胜过其他技术

文本摘要是自然语言处理的一个振奋人心的子学科。虽然人们每天都在使用和研究各种摘要的方法，但是在理解上述概念的基础上，你应该能对这些方法的操作有所了解，至少是在一个很高的水平上。

nlp 文本分类摘要算法领域文本分析自然语言处理

流浪天空

0 关注 0 粉丝 0 动态

相关推荐

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 2020-09-22

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

NLP（二十二）利用ALBERT实现文本二分类

在文章NLP（二十）利用BERT实现文本二分类中，笔者介绍了如何使用BERT来实现文本二分类功能，以判别是否属于出访类事件为例子。但是呢，利用BERT在做模型预测的时候存在预测时间较长的问题。因此，我们考虑用新出来的预训练模型来加快模型预测速度。ALBER

小发猫 2020-03-04

广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)

摘要：上一篇广告中那些趣事系列1：广告统一兴趣建模流程，我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签，我们需要构建数据源和标签的关联，也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别，但是对于ne

mxs 2020-03-01

突破迁移学习局限！谷歌提出“T5”新NLP模型，多基准测试达SOTA

过去几年间，迁移学习给 NLP 领域带来了丰硕的成果，掀起了新一波的发展浪潮。迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒，之后又在2019年大显身手，推动了领域内多种新方法的发展，其中就包括XLNet、RoBER

yyhhlancelot 2020-02-25

使用NLP创建摘要

你有没有读过很多的报告，而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中，我将向你展示如何使用Python中的自然语言处理创建个人文本摘要生成器。基本上，在保持关键信息的

csdnfelix 2020-11-12

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

自然语言处理的应用前景

自然语言处理是人工智能技术的一个分支，它使计算机能够像人们一样理解、处理和生成语言，并且在商业中的应用正在迅速增长。虽然自然语言处理这一术语最初指的是人工智能系统的阅读能力，但它后来成为所有计算语言学的一种通俗说法。当单击搜索结果时，搜索引索会将其视为对找

熊Ok 2020-04-24

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 2020-04-20

Python深度学习自然语言处理工具Stanza试用！这也太强大了吧！

众所周知，斯坦福大学自然语言处理组出品了一系列NLP工具包，但是大多数都是用Java写得，对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口：Python自然语言处理实践: 在NLTK中使用斯坦福中文分词

katyusha 2020-04-15

2020年AI和机器学习的重要趋势是什么？

在竞争日益激烈的技术市场中，从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是，人工智能行业发展如此之快，以至于很难跟踪最新的研究突破和成就，甚至很难应用科学成果来实现业务成果。在2020年为了帮助业务制定强大的AI策略，本文总结了不同研究领

BigDataDigest 2020-03-23

12 种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

yaohaishen 2020-02-25

12种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

zkq 2020-02-25

NLPer复工了！先看看这份2019机器学习与NLP年度盘点吧

2019 年是机器学习和自然语言处理领域飞速发展的一年。DeepMind 科学家 Sebastian Ruder 从 10 个方面总结了我们在过去的一年中取得的重要进展，对未来的研究方向有着重要的指导意义。对于每个方向，本文都会先总结今年我们在该方向取得的

夏未眠秋风起 2020-02-03

最新书籍《自然语言处理实战》推荐分享，（附电子书+代码下载）

自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。今天，给大家推荐的一本新书是《Natural Language Processing in Action 》，这本书为我们提供了从基础知识到动

qxconverse 2020-01-06

流浪天空

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号