专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄
司罗是最早一批从学术界转向工业界的人工智能科学家之一。
2006年,卡内基梅隆大学博士毕业的司罗进入另一所人工智能顶级高校——普渡大学计算机系任教,在这期间,他专注于信息检索、机器学习、自然语言处理等领域的研究,他是一位高产的学术专家,短短几年就发表了100余篇论文;2012年,成为普度大学计算机系终身教授后,一举奠定了司罗在学术圈的地位,他先后担任了ACM信息系统(TOIS),ACM 交互信息系统(TIIS)和信息处理与管理(IPM)编辑委员会的副主编,多次在国际学术会议担任重要职务(如2016 ACM CIKM 技术主席等)
但出人意料的是,2014年司罗结束了8年的学术生涯,成为阿里人工智能科学家阵营的一员。
对于这样的转变,他表示并不陌生。
“我在普渡大学任教期间就对技术应用场景和产品化、商业化的工作非常感兴趣,当时也有很多和工业界的合作。”司罗如此表示。
据云栖社区了解,司罗主导的 20 余个项目得到了美国政府以及雅虎、谷歌等工业界的资助,例如美国国家科学基金会成就奖、雅虎,谷歌研究奖等。
司罗在学术研究上的成功以及对人工智能商业化的理解让整个阿里巴巴集团的自然语言处理、搜索和推荐能力提升了一个台阶。去年11月,他带领的团队在信息检索、知识管理以及数据库领域的全球顶尖学术会议CIKM Cup竞赛中力压对手获得冠军,相比主办方提供的搜索排序基准指标,该团队提升了21.28%。
目前,iDST NLP团队主要分布在美国西雅图、硅谷以及杭州三地,他们用算法服务了阿里集团近十个DAU上千万的场景——淘宝评价、内容搜索、资讯推荐等;这是一支战斗力极强的团队,他们全部来自伯克利、普林斯顿、卡内基梅隆、清华、北大以及中科大等知名院校,不仅能做前沿学术研究,也善于把技术落地到实际应用场景中。
作为阿里iDST大团队的一部分,iDST NLP主要为阿里大生态系统提供自然语言处理相关的基础技术,以及垂直应用的技术支持。但在司罗眼中还有更长远的目标——通过技术输出赋能消费者、客户以及合作伙伴。
以下是采访实录:
云栖社区:介绍一下iDST Natural Artificial Intelligence团队。
司罗:众所周知,整个iDST团队在金榕老师带领下涵盖了人工智能几个重要的方向,包括语音、图像和NLP等。iDST NLP团队成员主要分布在“两岸三地”(美国的西雅图、硅谷和中国杭州),从地域来看,美国地区由经验丰富的专家组成,而国内更多的是年轻、有朝气、能够贴近业务的专家和工程师,他们都来自国内外一流的大学,例如伯克利、普林斯顿、卡内基梅隆大学、清华、北大以及中科大等。
除此之外,我们现在还在筹建阿里在新加坡的研发中心,所以未来会形成三岸四地的格局。
iDST NLP团队主要为阿里大生态系统提供国际化多语言自然语言处理相关的基础技术,以及重要的自然语言垂直应用的技术支持,未来也希望把阿里的自然语言技术发扬光大,通过技术输出赋能消费者、客户以及合作伙伴。
团队在全球顶级的大赛中也取得了很多突破,例如在CIKMCUP竞赛中我们获得了冠军,相比主办方提供的搜索排序基准指标,我们团队提升了21.28%,这是一个非常了不起的成绩。
云栖社区:iDST NLP团队的定位是什么,重点在做哪些项目?
司罗:刚才谈到iDST NLP团队主要为整个阿里大生态提供自然语言处理技术,同时也会对外赋能、处理相关的垂直应用。
从基础技术角度来看,去年年底我们开始搭建AliNLP技术平台,这个平台涵盖了很多自然语言处理的技术,例如词法分析、句法分析还有文档分析等。
AliNLP平台从去年年底开始研发,到今年年初开始上线,经过了内部团队不断的优化,目前为整个阿里大生态提供了一个基础的NLP算法。AliNLP平台它所产生的价值和影响力也在不断提升,到现在已经超过了90个业务方,每天的调用量超过了四百亿次。这里先做个预告,AliNLP平台正在上云的过程中,初期会通过阿里云的输出几个重要的功能,包括分词、实体识别、情感分析和文本反垃圾等,敬请期待。
除此之外,我们还在搭建另一个基础技术平台——阿里IE平台(Information Extraction,信息抽取平台)。因为很多场景下的文本是非结构化的,这就需要把它变成一个结构化的知识表示,例如拍卖场景中的委托书,我们需要从委托书中抽出什么是被委托的商品,拍卖的委托方是谁,希望中标的价格是多少……只有把这些信息有效的提取出来,才能建立搜索、推荐等功能。搭建阿里IE平台也是希望把基础算法能力在整个阿里集团的上层应用发挥作用。
当然,在阿里巴巴集团内部,我们也是很多自然语言相关业务的算法提供者,例如阿里电商环境的资讯搜索(淘宝头条的搜索、手淘淘攻略的搜索);还有整个淘系内部的评价,不仅要去掉涉黄涉暴力的内容,还需要知道消费者表达的是正面的评价还是负面的评价。
阿里集团内部有很多场景都涉及到自然语言处理相关的技术,都需要我们来提供算法的支持。
目前,团队还是集团内部很多重要业务的算法合作方,例如我们和和阿里小蜜合作研发了机器阅读理解的技术。
所以总结起来,我们在做三件事:基础技术平台的产品;重要业务算法的提供,淘宝内部的评价、资讯的搜索与推荐;重要技术的算法贡献。
云栖社区:AliNLP平台上线前后遇到了哪些挑战?
司罗:毋庸置疑,自然语言处理在很多应用场景当中都很重要,但是过去没有一个系统性的规划。我们是从去年12月份开始规划做这样一个平台,希望把自然语言处理重要的功能承接下来。
虽然AliNLP的愿景很美好,但是最开始遇到了很多挑战,因为团队中的很多工程师是做业务的,但是AliNLP更像是技术导向的平台,所以我们必须花很多时间让更太多的人参与进来。在团队组建好后,就开始给项目做规划,因为这是一个从无到有的产品,大家必须把做出更多的尝试,从哪个角度出发,用什么样的技术能达到比较好的效果等等。
从最初项目的规划到平台的上线确实花了很多的时间和精力,但是我觉得这个时间和精力是很值得的。
云栖社区:相比计算机视觉,NLP的发展相对较慢,从目前来看NLP发展到了一个什么样的阶段?
司罗:我认为NLP是既成熟又有活力,既实用又有技术远景的领域。
事实上,最早从六七十年代开始,自然语言处理都是采用“规则”方法, 80年代后随着大的数据集的出现,统计自然语言处理方法便逐渐成为了主流;最近几年,随着深度学习的崛起,NLP也取得了快速的发展,所以我认为它是一个非常成熟的领域;为什么说有活力呢?最近两三年创业最火的方向之一就是Chatbot,这是和自然语言处理紧密相连的领域。
既实用是指现在自然语言处理已经在很多领域都有很广阔的应用了,以阿里集团为例,几乎阿里的每个重要的产品都跟自然语言处理相关,例如商品的搜索和推荐,它是一个非常实用的一个学科;当然,它也是非常有技术挑战的学科,真正意义上的语义理解(能够分析出说话的背景,它要达到什么样的目的等等)不是靠数据上的关系分析就能实现的,例如siri、Cortana都是基于数据驱动的方式来实现语义理解,但它无法像人一样去理解。
所以,自然语言处理是实现完整人工智能或者叫强人工智能的一个必要的技术,而现在离这一远景还有很长的距离,这需要工业界和学术界共同的努力。
云栖社区:iDST NLP团队现在做出了哪些的突破?
司罗:iDST NLP团队现在还是基于我们本身的业务以及场景为出发点,一个有代表性的是情感分析上的领先,例如,电商场景的情感分析和其他友商提供的产品相比大约有10%的准确率的优势,当然一方面原因是阿里本身就拥有大量的电商数据,但更多的是因为我们做了很多通用领域的舆情,例如把技术用在一些学术界的标准数据集上,在电影评价上的标准数据集,我们也比学术界的最好成绩能领先2%以上。
另外,我们还是第一家真正大规模的把机器阅读理解应用到实际电商场景中的企业。所以在应用的实用性上,例如高效的模型的设计、高效的模型的实现都做了开创性的工作。最后,是自然语言生成。自然语言生成有两种方式,一种就叫抽取式,一种叫产生式,我们在这两方面都做了很多尝试:抽取式典型的例子是电商标题的改写,能够比较显著的提升点击率和转化率;生成式方式,我们现在是和阿里妈妈合作,它可以帮助联盟的用户更好的把他们所挑选出的商品在投放到社交渠道。
云栖社区:您觉得创业企业如何在NLP领域找到突破口?
司罗:创业企业特别是小企业要取得成功,我觉得有两种方式相对来说比较容易取得成功:一种只专注于某项具体的技术,就是把某一项或者一两项技术做深,做到真正的领先,创业企业不适合做一个完整的技术平台,较难有大量的投入,甚至大量的数据;第二种方式是专注于一个领域,自然语言处理得应用很广,例如法律文书的自然语言理解和微信闲聊的差距是巨大的,还有从专利中挖掘信息做竞品分析也有市场空间,初创企业可以考虑专注这些细分领域,面面俱到反而没有自己的特色。
云栖社区:未来,NLP会朝什么方向发展?
司罗:虽然深度学习是非常有价值的技术方向,它推动了自然语言处理的发展,但是我是觉得靠分步学习,或者统计自然语言理解是远远不够的,我们一定要把人类的知识表示,和对知识的理解更好的融入到技术当中,这样才能更有效,真正的达到自然语言理解本身的目标,否则就是光靠数据驱动,刚才也有提到,所以我认为把这一趋势的研究和数据结合是自然语言未来发展的重要课题。
云栖社区:您希望在下个月的杭州云栖大会上关注哪些议题?届时,您会分享什么话题?
司罗:首先,是机器学习、自然语言处理相关的技术问题;其次,业务上的议题我也很感兴趣,我非常希望通过这届云栖大会了解到各行各业对自然语言处理技术的需求,这样才能够更充分的理解客户的需求,做到有的放矢,才能让然语言处理的技术发挥最大的价值。
在本次大会上,我们组织了NLP专场,并且邀请到了很多外部学者,例如加拿大皇家学院的李明院士,还邀请了国内的,中国中文信息学会秘书长孙乐,苏州大学计算机学院副院长张民老师等,他们都是学界的领军人物;除此之外,因为这是云栖大会第一次办自然语言处理的专场,我们也希望借这个平台把iDST NLP团队的自然语言处理的技术能力对外展示,例如,我们会全面介绍AliNLP的平台技术输出,以及情感分析、机器阅读理解等。