AI小说家不是人！语言模型竟能续写《红楼梦》？

87173653

2019-04-12

AI小说家不是人！语言模型竟能续写《红楼梦》？

自然语言处理（NLP）技术在2018年取得重大成就。算法模型界新的预训练自然语言处理模型在情绪分析、回答问题等一系列任务中取得了巨大突破。

2018年先后出现了像ELMo、BERT、BigBird这样的自然语言模型。虽然OpenAI GPT比BERT更早上线，但接受度上却被BERT狠狠碾压。究其二者的最大差异，GPT用的是单向语言模型，而BERT则是用双向语言模型做训练。

然而，倔强的OpenAI GPT仍采用单向语言模型，最终脱胎换骨。2019年2月，GPT 2.0惊艳亮相，写出了一篇关于独角兽的故事，以语言快速自动生成的特性，完成华丽丽的逆袭。它的新名字叫做OpenAI GPT-2.

AI小说家不是人！语言模型竟能续写《红楼梦》？

摘自https://blog.openai.com/better-language-models/

由图可见，系统在开始设定一个故事开头，后面的内容则基于GPT 2.0一个单词一个单词生成，再自动生成故事内容。其生成模式是：单词的连环预测，即如果你能预测一个句子中的下一个单词，你就能预测这个单词的下一个、下下一个......很快就能掌握很多单词。如果语言模型足够优秀，这些单词还能组成意思通顺的句子，然后组成连贯的段落。而这些段落则可以组成任何你想写的东西。

GPT-2不是一次基本算法的突破，而是一次参数累计的壮举。它拥有多达15亿个参数（这比原始GPT的参数多了15倍），并接受了来自800万个网站的文本训练。国内网友调侃，不知道GPT-2编起故事来会不会比高鹗还优秀，《红楼梦》可以考虑出个AI续写版。

如何理解一个拥有15亿参数的模型呢？或者视觉化会有所帮助。

AI小说家不是人！语言模型竟能续写《红楼梦》？

可视化GPT-2

由于担心恶意使用，OpenAI并没有发布完整的GPT-2模型，但他们还是发布了一个与原始GPT规模相当的缩小版本（拥有1.17亿个参数），已发布的新模型接收了更新更大的数据集训练。

虽然缩小版本没有完整版模型那么强大，但是它仍保留了一些语言生成的痕迹。让我们看一看视觉化能否帮助我们更好地了解这个模型。你可以通过Colab notebook或者直接从GitHub repo创建以下视觉化模型。

一个说明性的例子

让我们看一看GPT-2的缩小版模型是如何完成这个句子的：

船上的这只狗跑了（The dog on the ship ran）

AI小说家不是人！语言模型竟能续写《红楼梦》？

以下是这个模型生成的句子：

船上的这只狗跑掉了，然后被船员发现了。（The dog on the ship ranoff, and the dog was found by the crew.）

现在我们稍稍改变一下这个例子，将狗换成摩托车，看一看这个模型会生成什么样的句子：

船上的这辆摩托车奔驰着（The motor on the ship ran）

现在看一看模型生成后的句子：

船上的这辆摩托车以100英里每小时的速度奔驰着。（The motor on the ship ranat a speed of about 100 miles per hour.）

通过改变句子开头的一个单词，我们就能得到一个完全不一样的结果。这个模型似乎明白，跑着的狗和奔驰着的摩托车是两种完全不同的类型的“跑”（running）。

GPT-2是如何知道要密切关注狗和摩托车的区别，尤其是当这两个单词都出现在句子前端的时候呢？其实，GPT-2是基于实质为注意力模型的Transformer上运行的。该模型可以学习关注那些与当前任务最为相关且先出现的单词，然后预测这个句子中的下一个单词。

让我们看一看在“船上的这只狗跑了”（The dog on the ship ran）这句话中，GPT-2的关注点在哪里。

AI小说家不是人！语言模型竟能续写《红楼梦》？

从左到右看，这些线条反映了GPT-2在猜测一个句子中下一个单词时的关注点（颜色越深代表关注度越高）。因此，在猜测“跑”的下一个单词时，这个模型密切关注“狗”这个单词。这就说得通了，因为知道谁或什么在跑对于猜测后面的单词至关重要。

用语言学术语来说，在“船上的狗”这一名词短语中，该模型侧重于它的中心词（head）。GPT-2还体现了很多其他语言学属性，毕竟上述的注意力模式只是该模型144种注意力模式中的一种。GPT-2有12层transformer模型，每一层又有12个独立的注意力机制，称为“中心”（heads），因此最终让GPT-2拥有了12 x 12 = 144个不同的注意力模式。这里我们可视化所有的144种模式，重点谈谈刚刚讨论的那一个：

AI小说家不是人！语言模型竟能续写《红楼梦》？

GPT-2模型12层注意力模式（行）及12个中心的注意力模式（列）可视化，突出的为第4层/第3中心（零索引）

我们可以看到，这些模式有很多不同的形式。下面这个模式也非常有趣：

AI小说家不是人！语言模型竟能续写《红楼梦》？

这一层/中心将所有注意力都放在这个句子各个单词的前一个单词上。这也说得通，因为通常相邻的单词与预测的下一个单词最为相关。传统的n-gram语言模型也是基于这种直觉。

但是为什么很多注意力模式都和下面这个模式相似呢？

AI小说家不是人！语言模型竟能续写《红楼梦》？

在这一模式中，几乎所有注意力都集中在这个句子的第一个单词上，而其他单词的注意力大量减少。这似乎是一个无效的模式，表明注意力中心没有找到它寻找的任何语言现象。该模式似乎重新定义了第一个单词，即如果没有找到更好的关注对象，则关注第一个单词。

猫在_____中。（The Cat in the _____）

AI小说家不是人！语言模型竟能续写《红楼梦》？

让我们来看看GPT-2是如何完成永恒的经典-《戴帽子的猫》（Cat in the Hat）中的台词的：

“我们看见在一根风筝线上，挂着妈妈的新外衣！那件带着粉色、白色和......点点的裙子”！（Her gown with the dotsthat are pink, white and…）

看看GPT-2如何完成的这个句子：

那件带着粉色、白色和蓝色点点的裙子！（Her gown with the dotsthat are pink, white and blue.）

虽然原文是“红色”，但这样的颜色搭配也很不错。因此我们可以看到GPT-2并不是仅仅会简单的记忆。

GPT-2是如何知道此处应该填上一种颜色的呢？也许是因为下列注意力模式识别了逗号分隔开的两个单词所属的类别。

AI小说家不是人！语言模型竟能续写《红楼梦》？

为了判断“和”（and）后面填写什么单词，GPT-2关注了这个类别的前两个单词——粉色和白色（pink，white），然后它便知道应该选择一个与前两个单词类型一致的单词，在这里就是颜色。

关于名字GPT-2又能写出什么呢？

GPT-2似乎特别擅长仅仅根据一个名字来撰写简短的传记。

AI小说家不是人！语言模型竟能续写《红楼梦》？

让GPT-2根据提示“谁是...（你的名字）？”（Who is <your name>?）来生成文本是一项非常有趣的训练。这个提示一般会激发GPT-2撰写一篇简短的传记，可能是因为网页上文章的开头通常是作者的简介。

下面是一些GPT-2根据提示“谁是杰西维格？”（Who is Jesse Vig?）生成的自传。

“杰西维格是社交媒体营销专家和前社交媒体营销经理。他是VigMedia.com的联合创始人兼首席执行官，最近担任VigMedia.com的创始人兼首席执行官。”（Jesse Vig is a social mediamarketing expert and former social media marketing manager. He is theco-founder and CEO of VigMedia.com and recently the founder and CEO ofVigMedia.com）

写得不错！虽然在内容上有一些重复，但是故事很有个性，让人惊喜。下面是另一个创作：

“杰西维格是福音传教士詹姆斯维格的儿子。他于1964年移居美国，并成为密歇根大学的传教士，在密歇根大学执教18年，在2007年10月去世。”

（Jesse Vig is the son of anevangelical preacher named James Vig. He moved to the United States in 1964 andbecame a preacher at the University of Michigan, where he taught for 18 yearsuntil his death in October 2007.）

在这个例子上，GPT-2非常聪明，知道父亲和儿子姓氏相同。让我们看看在选择姓氏的时候，GPT-2的关注点在哪里：

AI小说家不是人！语言模型竟能续写《红楼梦》？

第11层/10中心

在判断詹姆斯（James）后面的单词时，该模式将注意力放在前面提到的“我”的姓氏上。（要注意的是，在这个模型中，维格的英文单词Vig被分解为“V”和“ig”，因为这个单词并不常见。）这种注意力模式似乎专门用于识别家庭姓名之间的关系。为了验证这一点，让我们稍稍改动一下文本：

“杰西维格是福音传教士詹姆斯的同事。”（Jesse Vig is the colleagueof an evangelical preacher named James…）

AI小说家不是人！语言模型竟能续写《红楼梦》？

第11层/10中心

现在由于詹姆士只是一名同事，该注意力模型就几乎忽略“我”的姓氏。

GPT-2似乎是根据从名字中感知种族和性别的信息以生成传记。我们需要进一步研究来查明这种模型内部是否存在偏见。

AI小说家不是人！语言模型竟能续写《红楼梦》？

未来是具有生成性的

就在去年，语言模型生成各种内容的能力已经大大提升，包括图像、视频、音频和文本，以至于我们无法相信自己的感觉来判断真假，而这仅仅是开始；这些技术会继续发展并相互融合。很快，当我们在thispersondoesnotexist.com上盯着那些生成出来的面孔时，他们会看着我们，讲述他们是如何被生成出来的，展现他们奇怪的“人造”个性。

大概最直接的危险就是混淆真实的事物与生成的事物。我们已经看过像人工智能生成的奥巴马和史蒂夫·布西密与詹妮弗·劳伦斯的结合体一类的视频。很快，这些深度换脸（deepfakes）技术会进入我们的个人生活。

因此，当你的妈妈打电话给你说她需要500美元汇到开曼群岛的时候，你得问问自己：这真的是我妈妈吗？还是只是一个语言生成人工智能程序借助我妈妈五年前在Facebook上发的视频所生成出来的虚拟人声呢？

未来已来。

AI小说家不是人！语言模型竟能续写《红楼梦》？

小说文学人工智能 openai

87173653

0 关注 0 粉丝 0 动态

相关推荐

如何用python爬虫从爬取一章小说到爬取全站小说

对爬虫进行重构需要爬取很多章小说，最笨的方法是直接使用 for 循环。爬取索引页需要爬取所有的章节，只要获取每一章的网址就行了。

四叶草 2020-03-28

spider爬虫练习，爬取顶点小说网，小说内容。

由上面可得出规律，每点一次下一章，url后面的数字就会自动加1。使用for循环，传入一个参数，没循环一次url后面的数字就会自动加1，把他放到一个新的url_list列表里面。这里用到了requests库，需要传入一个url参数，返回html对象。for循

HSdiana 2020-02-14

小说搜索站快速搭建：1.架构图

搜索聚合源站搜索。仅展示交流使用：免费小说阅读网

JAVA飘香 2019-11-19

读取本地HTML的小说阅读器应用源码项目

该源码是一个不错的读取本地HTML的小说阅读器，读取本地HTML的小说阅读器，并且源码也比较简单的，非常适合我们的新手朋友拿来学习，有兴趣的朋友研究下。

woyanyouxin 2015-04-27

第一个爬虫程序

最近热播的电视剧《全职高手》是由小说改编而成的，爬取小说当做练习吧~~本文练习爬取第一章的章节标题和章节内容，并且保存到本地文件中。创建完成后目录结构跟下面应该是一样的，在 spiders 目录下新建 novel.py 文件，待会咱就在这个文件中写爬虫程

paleyellow 2019-09-07

读取本地HTML的小说阅读器应用源码项目

该源码是一个不错的读取本地HTML的小说阅读器，读取本地HTML的小说阅读器，并且源码也比较简单的，非常适合我们的新手朋友拿来学习，有兴趣的朋友研究下。

一只刚刚上路的猿 2015-04-27

史上最简单的python算法入门书，像看小说一样轻松记住你敢信？

算法是计算机科学领域最重要的基石之一，同时也是出了名地难学。最出名的一本书莫过于算法导论了。但是，这本非常非常出名的大头书，真的是谁看谁知道。看了之后都有点怀疑人生，一大批人也因此从入门到放弃。原因还是算法工程师的待遇实在是太好了，做技术岗位的都能达到月薪

duangduangdada 2019-03-23

担心没有网络小说看？用Python脚本轻松爬取起点网小说

前言对于小说很多人都不陌生，也会经常在网上看小说，不过有时候经常需要付费，今天小编就教你如何用Python下载起点小说网站！

党薇 2019-01-07

python爬虫40行代码爬取笔趣看全部小说（文末附赠教程分享）

”笔趣看“ 是一个盗版小说网站，这里有各大知名小说网站的小说，更新速度略慢于正版网站。但是该网站只支持在线浏览，不支持小说下载，对于想要下载下来以防断网或者网速不好时也能看的童鞋来说不太友好。因此，本次练习将爬取该网站所有小说。PS：本次练习仅为学习交流，

赵小文wencie 2019-02-24

Python项目：结合Django和爬虫开发小说网站，免安装，无广告

前言很多喜欢看小说的小伙伴都是是两袖清风的学生党，沉迷小说，不能自拔。奈何囊中甚是羞涩，没有money去看正版小说，但是往往这些免费的小说网站或者小说软件，随之而来的是大量的广告。Python嘛，既能爬取网站小说，又能开发网站，那么两者结合是不是相当的ni

CycloneKid 2018-11-26

python项目实战:自制小说GUI界面下载器

相信大家都看小说的把,今天为大家介绍一个利用Python制作的小说GUI界面下载器,你只要搜索相应的小说名称和章节即可下载,是一个很方便的程序,你也可以打包成EXE文件变成桌面应用程序就可以了。学习从来不是一个人的事情，要有个相互监督的伙伴，工作需要学习p

IndustBee 2019-04-23

Python实现爬取逐浪小说的方法

本文实例讲述了Python实现爬取逐浪小说的方法。分享给大家供大家参考。最近在学习Python的爬虫，受此启发，突然就想到写一个爬取小说内容的脚本玩玩。具体实现功能如下：输入小说目录页的url之后，脚本会自动分析目录页，提取小说的章节名和章节链接地址。现阶

pythonjw 2015-07-07

AI创作了史上第一部小说，读完之后我懵了

小说家 Ross Goodwin 效仿大文豪 Jack Kerouac 进行了一次横穿美国的公路旅行，并创作了小说《The Road》，但主笔并不是他本人，而是 AI。结果却并不是非常令人满意，Goodwin 表示，AI 要写出人类水准的小说，还有很长的路

AIBigDataWH 2018-11-09

小说领域，如何利用活动裂变快速涨粉

酒香还怕巷子深，公众号没有粉丝，内容再优质也是“杨白劳”。早期的涨粉模式：产生优质内容，用户分享、转发，靠着之前微信用户自然增长而带来粉丝数增长。所以想要大量获取粉丝并实现爆发性增长，还是需要借助一些工具的。

数据分析侠 2018-04-02

安智发布最强网络小说APP榜谁才是中华最强书库？

中国内地网络文学诞生近 20 年中，一大批网络作家“发家致富”。现如今随着智能手机的普及，当年的安妮宝贝、李寻欢再到现在的唐家七少、天蚕土豆作家的战场也逐渐从书店发展到手机里的阅读APP中。但因为版权的原因，各平台对小说收录的情况有所不同，所以对于爱看网络

科技蟹 2018-02-11

十大网络小说APP大乱斗谁才是中华最强书库？

中国内地网络文学诞生近 20 年中，一大批网络作家“发家致富”。现如今随着智能手机的普及，当年的安妮宝贝、李寻欢再到现在的唐家七少、天蚕土豆作家的战场也逐渐从书店发展到手机里的阅读APP中。但因为版权的原因，各平台对小说收录的情况有所不同，所以对于爱看网络

科技蟹 2018-02-11

追书神器API

由于自己喜欢看小说，有的时候不方便手机看的时候希望在电脑上面看，但很多网站有广告啊，于是封装了套手机版的追书神器API

迷思 2018-02-05

20194302实验四 Python综合实践

笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说，该小说是耳根已完结的一部玄幻小说。

dadaooxx 2020-06-14

使用Express开发小说API接口服务1.0（三）

之前发现追书神器API详情页竟然没有下一章和上一章的返回值，只能自己动手封装一下。app.js 增加错误处理// catch 404 and forward to error handler. // set locals, only providing e

paypalmts 2019-07-01

使用Express开发小说API接口服务1.0(二)

之前完成了首页和搜索的接口，现在就开始写剩下的接口。获取小说源因为追书神器正版源是收费加密的，所以只能使用盗版源，所以要封装一个获取小说源的接口。修改app.js 文件路由中间件配置，增加一个路由。app.use;在routes下面新建 source.js

stdjkdblom 2019-07-01

87173653

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号