2017机器学习与自然语言处理学术全景图：多产的作者与机构

政见CNPolitics拆掉知识的高墙

2018-01-05

选自marekrei

机器之心编译

参与：黄小天、刘晓坤、蒋思源

在这篇文章中，作者统计了来自 ACL、EMNLP、NAACL、EACL 等学术会议的信息，用可视化的方式展现了 2017 年机器学习与自然语言处理领域的学术情况，例如最高产的作者、机构、主题等。机器之心在展现这些以 NLP 为主的会议后，还增加了如计算机视觉等会议的情况。值得一提的是，该作者在 2017 年初也统计了 2016 年的信息，感兴趣的读者可查看《2016 机器学习与自然语言处理学术全景图：卡耐基梅隆大学排名第一》。

2017 年是自然语言处理（NLP）和机器学习（ML）非常高产的一年。两个领域持续增长，会议论文数量纷纷打破记录。本文中我将根据个人作者和组织进行更详细的细分。统计信息来自以下会议：ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、Sem+SemEval、NIPS、ICML、ICLR。与上年不同，这次把 ICLR 包含了进来，它在过去两年飞速发展为一个很有竞争力的会议。此外，机器之心也将我们统计的会议结果添加到该报告中，并作一定的分析。

MAREK REI 的分析是通过爬虫自动抓取会议官网和 ACL 选集的发表信息而完成的，因此分析主要集中在自然语言处理。MAREK REI 表示作者姓名一般列在议程之中，因此可轻松提取；但是机构名称相对麻烦，需要从 PDF 直接抓取。而我们添加的信息主要来源于 2017 年报道过的人工智能方面的顶会，因此它正好可以补充原作者提供的信息。

会议

首先，让我们看看 2012-2017 年间的公开会议。NIPS 当仁不让，今年共发表 677 篇论文，排名第一。其他多数会议也快速增长，是 ICML、ICLR、EMNLP、EACL 和 CoNLL 规模最大的一年。相比之下，TACL 和 CL 的论文发表数量似乎每年保持不变。NAACL 和 COLING 的论文数量则为零，期望其在 2018 年有更好表现。

其实从接收论文的情况我们就能看出一些趋势，因为自 2015 年来 NIPS 的接收论文就有很大的提升，这与机器学习和深度学习的崛起有很大的关系。神经信息处理系统大会（Neural Information Processing Systems，NIPS）是机器学习与计算神经科学方面的顶会，本届 NIPS（31st）大会注册人数超过 8000 人；共收到 3240 篇提交论文。其中有 20.9% 被组委会接收；议程包括 679 个 Poster 演讲，40 个长演讲（Oral）, 112 个短演讲（Spotlight）。若根据 NIPS 2017 提交论文数量进行分析，最热门的三个子领域为算法、深度学习和应用，由于深度学习目前并没有一种给我们美感的完整体系，所以很可能这一领域的研究在 2018 年将会继续进行下去。

NIPS 2017 的热门子领域。

MAREK REI 更多关注的是自然语言处理与 ML 会议，而其它如 CVPR、ICCV 和 KDD 等计算机视觉顶会与数据挖掘顶会都没有涉及到。因此我们可以补充一些 2017 年的论文提交与接收情况，如下展示了 11 项顶会的论文提交与接收情况。其中除了上述的 NIPS，AAAI 和 CVPR 等大会也非常值得我们关注。

AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000，接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届，去年的论文录用率接近 30%，今年达到了 40%。KDD 论文录用率 18.9%，是上图九大会议中论文录用率最低的会议。

作者

2017 年最多产的个人作者是 Iryna Gurevych（达姆施塔特工业大学），共发表论文 18 篇。Lawrence Carin (杜克大学) 发表论文 16 篇，其中 10 篇被 NIPS 收录。紧随其后的是 Yue Zhang（新加坡大学）、Yoshua Bengio（蒙特利尔大学）和 Hinrich Schütze（慕尼黑大学）。

值得注意的是，曾撰文批评了蒙特利尔大学的新论文《Adversarial Generation of Natural Language》的 Yoav Goldberg 也有 10 篇论文被这些会议接收。他曾表明：「尽管我同意 arXiv 上短时间的发布周期比现在长时间的同行评议流程更好，但现在人们在使用 arXiv 树旗帜、占山头，规避同行评议过程，而且这个趋势已越来越显著。这种情况对于那些「强」研究组而言更是显著。目前来说，将你的成果（通常是初步的和不完整的）发在 arXiv 上没有什么实质的坏处，只有潜在的好处。」

其实目前很多作者都将论文预先发表在 arXiv 上，以上 MAREK REI 统计的接收论文情况很大程度上反映了这些学者的学术水平，只不过由于原作者重点关注自然语言处理，所以还有很多 2017 年优秀的学者与论文没有展示在统计中。

看一下 2012-2017 年的累积统计结果，Chris Dyer（DeepMind）遥遥领先，紧随之后的是 Iryna Gurevych（达姆施塔特工业大学）和 Noah A. Smith（华盛顿大学）。Lawrence Carin（杜克大学）、Zoubin Ghahramani（剑桥大学）和 Pradeep K. Ravikumar（卡内基梅隆大学）发表的论文主要在机器学习会议，而其他人则在 NLP 和机器学习之间平衡。

按年份将发表论文数分开表明 Chris Dyer 在今年的发表论文数有所下降，而 Iryna Gurevych 的发表论文数有很强的上升趋势。

第一作者

我们来看看第一作者的情况，第一作者通常是实现代码和运行实验的人。Ivan Vulić（剑桥大学）、Ryan Cotterell（约翰霍普金斯大学）和 Zeyuan Allen-Zhu（微软研究院）都在 2017 年以第一作者的身份发表了 6 篇论文。紧随其后的是 Henning Wachsmuth（魏玛大学）、 Tsendsuren Munkhdalai（微软 Maluuba）、李纪为（斯坦福大学）和 Simon S. Du（卡内基梅隆大学）。

如上所示，斯坦福博士李纪为在 2017 年也有非常多的接收论文，他主要的研究方向是自然语言处理（NLP）。在三年的博士生涯中，他的多篇论文被各类顶级会议接收。在四月底结束的 ICLR 2017 上，李纪为有三篇论文被大会接收，其中两篇为第一作者；而在即将于 9 月份举行的 EMNLP 2017 上，他有两篇论文被大会接收，均为第一作者（参见：如何生物转CS，并在斯坦福大学三年拿到PhD：独家专访李纪为博士）。

此外，由于 ICCV 等计算机视觉领域的会议没有得到统计，因此何恺明等人并没有在以上统计中展现。在 ICCV 2017 中，Facebook AI 研究员何恺明获得最佳论文奖，同时是最佳学生论文的作者之一。算上此前在 CVPR 2009、CVPR 2016 上的两篇「最佳论文」，何恺明现在已获得了四个最佳论文称号（参见：ICCV 2017奖项公布：最大赢家何恺明获最佳论文，参与最佳学生论文）。

机构组织

看一下 2017 年的不同机构组织的发表模式，卡内基梅隆发表了 126 篇论文，处于领先地位，而微软、谷歌和斯坦福紧随其后。包括 MIT、哥伦比亚、牛津、哈佛、多伦多、普林斯顿和苏黎世在内的大学发表的论文中，相比 NLP，机器学习占比例更大。相比之下，包括爱丁堡、IBM、北京、华盛顿、约翰霍普金斯、宾州、中科院、达姆施塔特、卡塔尔在内的大学和机构更关注 NLP 会议。

如上在 2017 年的大会接收论文中，清华大学和北京大学分别以 38、37 篇接收论文取得了非常好的成绩，中国科学院在 2017 在这些大会中也有 22 篇接收论文。

看一下 2012-2017 年的整段时期，卡内基梅隆依然是其中的佼佼者，而微软、谷歌和斯坦福紧随其后。

在这些会议历年的累积接收论文中，北京大学、清华大学、中国科学院和哈尔滨工业大学都有非常好的排名。但这这些会议偏重于自然语言处理，因此国内还有其他一些非常优秀的学府没有统计并展示在内。

看看下方的时间序列，卡内基梅隆、斯坦福和 MIT 在发表论文数上呈上升趋势。相比之下，行业领袖谷歌、微软和 IBM 的发表论文数略微有所下降。

主题聚类

最后，我对所有发表过 9 篇或以上论文的作者的论文文本进行了 LDA 分析，并用 tsne 将结果可视化。图中间是机器学习、神经网络和对抗学习的主题。最密集的聚类涵盖了强化学习和不同的学习策略。图左的聚类包含 NLP 应用、语言建模、文本解析和机器翻译。图底的聚类包含信息建模和特征空间。

原文链接：www.marekrei.com/blog/ml-nlp…

自然语言处理机器学习全景图

安科网

2017机器学习与自然语言处理学术全景图：多产的作者与机构

政见CNPolitics拆掉知识的高墙

政见CNPolitics拆掉知识的高墙

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

MIT 推出机器翻译新算法，破译已消失的古语言

NLP：不要重新造轮子

十大针对机器学习的文本注释工具与服务，你会选用哪个？

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

AI创业哪家强？6大选择给你方向

自然语言处理实战：机器学习常见工具与技术

人工智能的企业家来说，这四个新的方向可能值得重视

人工智能的研究热点:自然语言处理

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

AI写的文章，真的可以骗过老师了

自然语言处理必读：5本平衡理论与实践的书籍

无需「域外」文本，微软：NLP就应该针对性预训练

pytorch+huggingface实现基于bert模型的文本分类（附代码）

NLP中的标识化

基于OpenSeq2Seq的NLP与语音识别混合精度训练

人工智能的8个有用的日常例子

人工智能的三大领域及其工业应用

腾讯AI又创新纪录：ACL 2020入选27篇论文

什么是机器阅读理解？跟自然语言处理有什么关系？

政见CNPolitics拆掉知识的高墙