拯救期末!大四留学生发“论文机器人”,替你读文献给方向调格式
大数据文摘出品
作者:宋欣仪
期末季,谁的身上不背着十几个ddl?
面对浩如烟海,怎么读也读不完的文献,提不出的问题,想不出的创新点,还有繁琐的论文格式,你可能也在幻想,“如果这时候能有一个论文机器人,帮我写论文就好了。”
有这样一群大学生,正在把幻想变成现实。
最近,几个在美国的中国留学生在联合撰写的论文《PaperRobot: Incremental Draft Generation of Scientific Ideas 》,提出并初步实现了运用AI写论文的想法,这篇论文已经被ACL 2019收录。
论文地址:
https://arxiv.org/pdf/1905.07870.pdf
GitHub地址:
https://github.com/arXivTimes/arXivTimes/issues/1223
机器能比人类写的更好吗?
本文的作者分别来自伦斯勒理工学院、DiDi 实验室、伊利诺伊大学香槟分校、北卡罗来纳大学教堂山分校和华盛顿大学。
其中,论文一作 Qingyun Wang (王清昀) 是伦斯勒理工学院的大四本科生,正准备攻读计算机科学的博士学位。
他们开发的AI学术助手叫做PaperRobot,可以帮助构建论文的背景知识图,写摘要、关键内容和标题,梳理结论并给出进一步的研究方向的建议。
工作流程
论文机器人的诞生有其现实必要性,PaperRobot目前主要应用于生物医学领域,这个领域已有的论文数已超过二千六百万份,近年来更是持续呈现井喷式的增长,每年发表的论文超过一百万份。
论文越写越多,但是人类的阅读能力却原地踏步。
在2012 年,美国科学家提出,人类平均每年只能阅读 264 篇论文,这个数字与他们在 2005 年进行的同样调查中报告的数据是一致的。而论文机器人能帮助学者快速从海量的已有研究中,筛选出写论文需要的材料,让你真正站在巨人的肩膀之上,节约大量的时间。
测试结果
研究者使用图灵测试来检验了PaperRobot生成的论文部分(摘要,结论和进一步研究建议)。
结果表明,喜欢PaperRobot生成摘要的读者要比喜欢人类写的摘要的读者多30%以上,结论部分投给PaperRobot的读者要多24%,研究建议部分12%。
还能做什么?
PaperRobot主要是借助自然语言处理(NLP)和自然语言理解(NLU)的最新进展而设计和开发的。主要工作流程是从已有的论文中提取知识,构建知识图谱,然后提出新的想法并协助写出论文。
快速阅读已有论文
PaperRobot 可以快速阅读已有论文,对指定领域的大量已发表的论文进行深入的理解,构建背景知识图 (KG)。
研究者应用的是 Wei 等人在2013年提出的实体和关系提取系统,他们输入生物医学领域的已发表论文,PaperRobot从中提取出3类知识概念:疾病,化学和基因。然后进一步将所有知识概念类型链接到 CTD (比较遗传毒理学数据库),提取出133个子类型的关系,比如标记/机制、治疗和提高表达。
之后PaperRobot就构建出如下的背景知识图。其中每个节点代表不同的知识概念,边表示这些实体之间的关系。
新灵感的萌芽
新的科学发现可以看作是在已有的知识图中创建新的节点或链接。创建新节点意味着在实验室实打实地通过一系列的实验发现新的概念 (如新类型的蛋白质),这对 PaperRobot 来说有一些困难。但是以背景知识图,也就是现有的知识概念作为起点,发现新的链接还是可以实现的。
已有研究表明,在640万篇生物医学和化学论文中,60% 以上是增量式,也就是创造新链接的工作。所以paperrobot所做的,通过背景知识图(KGs)中的新链接来自动地增加新想法和新假设是有意义的,可以成为科学进步的重要起点。
在这里论文提出了一种新的实体表示方法,也就是结合了背景知识图和非结构化上下文文本来进行链接预测,从背景知识库中链接已有知识而产生新的想法。
上图中的虚线就是PaperRobot 预测的新的链接,由于钙和锌在上下文文本信息和图结构上都相似,PaperRobot 预测了与钙可以发生关系的两个新邻居:CD14 分子和神经纤毛蛋白 2 (neuropilin 2),它们在背景知识图中与锌相关联。
写作阶段:解决你最头疼的格式
把新想法清晰地传达给读者是一件非常困难的事情,许多科学家可能想法很好,却表达不出来。PaperRobot 使用一个新颖的 memory-attention 网络架构,基于输入的标题和预测的相关实体,可以自动写出了一篇新论文的摘要,还可以写出结论部分和建议部分,甚至还可以生成新的标题。
示例:PaperRobot 写的部分论文
Background
Snail is a multifunctional protein that plays an important role in the pathogenesis of prostate cancer. However, it has been shown to be associated with poor prognosis. The purpose of this study was to investigate the effect of negatively on the expression of maspin in human nasopharyngeal carcinoma cell lines. Methods: Quantitative real-time PCR and western blot analysis were used to determine whether the demethylating agent was investigated by quantitative RT-PCR (qRT-PCR) and Western blotting. Results showed that the binding protein plays a significant role in the regulation of tumor growth and progression.
除了写论文,还能钓鱼
论文机器人的幻想早已有之,早在2005年,麻省理工学院(MIT)计算机科学与人工智能实验的三个学生Dan Aguayo、Max Krohn和Jeremy Stribling就曾经一起开发过一款自动生成论文的小程序SCIgen。
SCIgen小程序的学术钓鱼轶事
图片来源:MIT新闻网
SCIgen是一个网页程序,只需输入作者名,就可以自动生成一篇“SCI级别”的计算机论文。摘要、背景介绍、实验结果、图表、讨论以及结论一应俱全。生成的论文格式可能比一些学生写的论文还要规范。
但是,与PaperRobot不同,SCIgen根本无法通过图灵测试,因为它生成的论文只有格式正确,内容完全是不知所云。
SCIgen的原理很简单,类似于填词游戏。因为学术论文的格式非常固定,而且基本都是固定的专业词汇和句式。SCIgen只需要从固定的词库中,随机抽取出这类计算机领域内的专业术语,以符合语法的方式生成文本。再加上一些漂亮的图表和详细的参考文献等,形式上就可以非常规范,从而能骗过不少外行。
比如这篇生成的论文名为《Rooter:处理接入点与冗余的典型合一方法》,看起来用词非常高大上,但是内行人仔细阅读就会发现文章只是语言和术语的堆砌,没有什么实质性的内容。
但是讽刺的是,WMSCI(系统论、控制论与信息论多学科国际会议)会议不但接受了这篇假论文,还邀请作者出席会议作报告。
戏弄了半个学术圈
MIT三个大学生开发这款软件的目的其实就不是为了帮自己写论文,而是为了揭露WMSCI之类的不认真审查论文的期刊和会议。
在他们把SCIgen攻陷WMSCI的事情经过发到网上之后,WMSCI颜面扫地,迅速删除了论文,IEEE(美国电气和电子工程师协会)还撤回了对该会议的赞助。SCIgen因此也被戏称为“学术钓鱼软件”。
之后又有德国学生发现了这个神器,分别于2008和2009年向在中国武汉举办的两个IEEE国际会议投稿,结果机器虚拟的Schlangemann教授还被当成了知名学者,被邀请作为会议的主持人。
这之后康奈尔大学数学系博士后Nate Eldredge又根据SCIgen进行了改编,做出了名为Mathgen的计算机论文自动生成器。并在2012年用一个“南部北达科他大学霍普分校”的“Marcie Rathke”教授的假身份,向期刊《理论数学进展》(Advances in Pure Mathematics)投递了一篇论文,这篇论文正是用Mathgen自动生成的。
虽然论文摘要每句话都看起来很厉害的样子,但实际上就是在一本正经地胡说八道。但是10天之后,这篇论文就被接受了,编辑还像模像样地写了5点修改意见。
现在SCIgen的访问量依然惊人,每年的浏览量超过60万次,无数假论文源源不断地产出,导致这个页面隔几个月就要崩溃一回。
2013年,法国格勒诺布尔大学的研究员Cyril Labbé透露,他在IEEE和Springer出版公司旗下的期刊中,发现了超过120篇SCIgen生成的假论文。
SCIgen网址:
https://pdos.csail.mit.edu/archive/scigen/
人机合作而非全权交付
机器自动生成的假论文却被真的学术会议收录,这背后暴露的是学术审查的不严谨。
对于PaperRobot,也有人提出质疑,如果AI继续发展,写出的论文到了无可挑剔的地步,未來学生可以完全借助AI的帮助,自己不用动脑筋地写论文,教授该怎么打分呢﹖
从学术钓鱼软件SCIgen到灵感提供者PaperRobot,从假论文到真助手。技术的进步可以帮助科研人员节约时间,也可以被学生用于学术造假。
翟天临最近又上了热搜,原因是继2月“学术不端事件”爆发后,教育部加强对于学术论文的检查力度。这让毕业季和期末季改论文改到心力憔悴的学生们怒从心起,纷纷冲向了翟天临的微博评论区开始发泄痛苦。
这也引起了一些网友的批评,翟天临学术不端时被全网唾弃,可对学术成果的严格要求放在自己身上却不情愿了,做好学术论文难道不应该是一个学生的本职吗?
当初每一个年轻人都是都怀抱着以学术为业的初心,受到学术理想的旗帜的感召进入学术圈。我们在一个问题想不明白的时候会整夜整夜地辗转反侧,在灵感迸发的时候会欣喜若狂,在受到不公正的待遇,不客观的审查的时候会忿忿不平想要高声呐喊。
回到柏拉图《理想国》第七卷的开头:那些被铁链锁着的岩洞里的人只能看到光线透在岩石上的影子,直到有个人挣脱了脚镣,回身看到了太阳。他在目眩中四处摸索,逐渐适应了注视光明,此后他的任务便是爬回岩洞的囚徒那儿,率领他们回到光明之中。
科技不断进步,也许有一天借助AI每个人都可以写出完美的论文,但是只有背后的研究者真正知道它是怎么写出来的。技术的进步可以安排好我们的生活,但只有科学的进步才能让我们透视技术的本质,在影子之外看到太阳,不理会幻觉和影子,找到真正的存在。
开发论文机器人也只能用作辅助,不可能让他代替写论文。学术圈生态的维护需要从写作者本身到审查者都端正态度,安心做好冷板凳。
所以还是好好写论文吧==
相关报道:
https://zhuanlan.zhihu.com/p/63626472
https://neurohive.io/en/news/paperrobot-automatic-research-assistant-that-can-generate-drafts-of-scientific-ideas/
http://news.mit.edu/2015/how-three-mit-students-fooled-scientific-journals-0414
李慧翔.给我一篇假论文,我能骗倒半个地球.南方周末.2013