人民大学徐君:智能搜索中的排序-突破概率排序准则

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第九期“个性化内容推荐”专场已于2019年11月24日下午在中科院举行。人民大学徐君为大家带来报告《智能搜索中的排序:突破概率排序准则》。

徐君现任中国人民大学,任教授、博导。于2006年南开大学博士毕业后,就职于微软亚洲研究院,2012年-2014年任华为诺亚方舟实验室资深研究院,2014年-2018年任中国科学院计算技术研究所研究员、博导。主要研究方向为用于信息检索的排序学习和语义匹配模型,在包括SIGIR、WWW、AAAI等国际学术会议和TKDE、TOIS、TIST等国际学术期刊发表论文50余篇,撰写英文专著1本,获美国专利授权8项,获SIGIR 2019 Test of Time AwardsHonorablemention, CIKM 2017 Best Paper runner-up和AIRS2010 BestPaper,担任学术会议SIGIR、WWW、AAAI、ACML资深程序委员会委员(SeniorPC)、期刊JASIST编委和ACM TIST副主编。

报告内容:文档排序是搜索系统的核心功能之一,过去的研究集中在如何构造贴近实际场景的损失函数并设计相应的优化算法,提出了如pointwise、pairwise和listwise一系列排序学习算法。从排序模型的角度看,现有的文档排序均构建于符合概率排序准则(probability ranking principle,PRP)的独立打分函数之上,对其它类型的排序模型未给与更多关注。本次报告的主题是智能搜索中的排序:突破概率排序准则。徐君老师将介绍近年来排序学习的研究如逐步突破概率排序准则、构建适应性更广的排序模型,包括基于马尔科夫决策过程的序贯排序模型和基于注意力机制的集合到排列映射模型。

人民大学徐君:智能搜索中的排序-突破概率排序准则

智能搜索中的排序-突破概率排序准则

人民大学徐君:智能搜索中的排序-突破概率排序准则

徐君老师首先简要介绍了本次报告的提纲,分为以下两个方面:首先是回顾过去信息检索与互联网搜索引擎排序的模型,当利用搜索引擎进行搜索的时候,结果是如何排序的。第二是思考概率排序准则会给我们带来的好处和限制,展望未来的发展道路。

首先,徐君老师向大家展示了搜索引擎的图示,从图示中可以直观的看到排序处于十分核心的位置。但排序的准则至今也没有得到明确的界定,学界用的词是相关度,但这个概念十分模糊。排序学习简单说就是在排序任务中使用机器学习的方法,在信息检索、自然语言处理与数据挖掘等许多领域中有重要的应用。排序学习的核心就是要学习到一个排序模型f(q,d) , q 表示查询,d 表示文档,然后利用排序模型,在给定查询q的时候给出相关文档的排序。传统排序,例如BM25: 基于条件概率分布,f(q,d)=p(r|q,d)f(q,d)=p(r|q,d),其中r只可以取0或者1,表示相关或者不相关。无法有效利用与排序相关的其他丰富的特征,例如文字链接、pagerank分值等。同时由于网页检索领域大量用户点击数据的积累使得机器学习的应用变为可能,由此现代的排序系统基本都使用了排序学习(LTR)。排序学习属于监督学习,自然有训练与测试两个阶段。查询与文档的相关信息可以有多种表示形式,其中应用最广泛的形式是使用label表示,将相关性表示为几个级别。对于一条训练数据(qi,Di),Yi(qi,Di),Yi来说,DiDi表示与qiqi相关文档集合di,1,di,2,...di,ndi,1,di,2,...di,n,YiYi为相关文档的label集合yi,1,yi,2,...yi,nyi,1,yi,2,...yi,n,用xi,j=ϕ(qi,di,j)xi,j=ϕ(qi,di,j)表示由查询文档对(qi,di,j)(qi,di,j)产生的特征向量。我们的目标是训练一个模型f(qi,di,j)=f(xi,j)f(qi,di,j)=f(xi,j),能在给定一个(q,d)(q,d)对(或者是给定特征向量xx)的情况下,能够给出给出相应的打分值(score),而排序就是利用得到的q,F(q,D)=F(X)q,F(q,D)=F(X)给出一个文档的排列。对排序结果的评价指标主要有NDCG。

排序学习与原始的分类有相似之处,也有不同的地方,比如电影评分领域就是一个典型的分类学习样例,根据学习到的打分模型对电影打一个分值,然后再实数区间上划分几个区间段作为类别,打分的值落入哪个区间则可以给电影打上相应的评分类别。而排序学习的目标则是给定一个查询时,能给出一个相关文档的合适排列,不同查询的相关文档数量是不一样的,有的查询有强相关文档,而有的查询则只有弱相关文档。

人民大学徐君:智能搜索中的排序-突破概率排序准则

所以可以看到,传统的排序模型分为两步,第一步是scoring,第二步是sorting。第一步先进行打分,第二步再按照分数对文档进行排序。这其中隐藏了独立性假设,我们认为每一个文档的分数与其他竞争文档是无关联的,即其中含有独立性假设。而独立性假设意味着将每个文档独立看待,该文档能带来多少收益,是与其他文档没有关系的。但这个假设的合理性存疑。Stephen教授曾提出概率排序准则,即每一个文档的有用性,都可以用一个概率描述,因此可以得出一个假设,每一个文档可以单独进行打分,并且分数与其他文档没有关系。与其说这是一个准则,倒不如说是一个假设,这就是概率独立性假设,我们称之为PRP。

但是该假设在某些情况下不成立,比如:如果这些文档之间存在相互联系,即文档不仅仅与自身有关,也受到所处环境的影响。概率准则就没有考虑到这个情况。

其次,作为使用搜索引擎的用户,人们具有强烈的比较性原则。比如判断一个学生是不是好学生,不能单单从分数95分上得到结论,需要知道排名天汇情况。在做相关性判断的时候,也有这样一个心理,在标注数据的时候,很多研究发现,用户在看过一些文档之后才会容易进行标注。就像老师给学生判卷子一样。可能刚开始,扣分扣得太紧了,后面分数会批得松一些。所以绝对客观的分数,尤其是在与人相关的情况下,是不存在的。这其中蕴含着比较性原则,所以人们对现在的排序方式产生了怀疑。

但为什么这种方法还能延用到今天?原因是简单,容易实现,在大多数情况下没有产生问题,但是在当今,想要再提升排序算法,必须要考虑这种限制为我们带来的影响。

在做排序训练时,我们探索了很多各种各样优化的方法,为突破PRP原则做出了努力。

对于建模的问题,是要建立整体文档之间两两交互的关系,若想要突破上文所说的原则,就应当在整个排序文档中得到排序函数。从本质上来讲,排序模型应当是从一个集合到另外一个排列的映射,而不是文档到数值的映射,这两者之间存在区别。为了建立文档相关性,必须把排序函数扩展开来,建立起从集合到排列的映射,在这一方面,我们需要进行更多的探索。

其次,如何能在特定的环境下建立起突破概率性准则的模型,关于CRF的问题。CRF用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。是给定随机变量条件下,随机变量的马尔可夫随机场.这里我们主要介绍定义在线性链上的特殊条件随机场,我们称之为线性链马尔可夫随机场。在该条件概率模型中,我们利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型,在研究预测问题时,我们根据给定的输入序列,求出条件概率最大的输出序列。

现在常用的工具是modeling sequential,AlphaGo下棋便是基于这个模型,该模型将系统看成两大部分,一部分是智能,另一部分是环境。搜索实际是搜索引擎和用户进行交互,因此可以将搜索引擎看做智能体,将用户看成环境。

关于序列化建模,传统推荐系统从content-based和social-based等基本模式所衍生出的多种多样的方法,都是将user-item所产生的behavior作为独立信息看待。然而现实生活中,用户的行为前后都存在极强的关联性甚至因果性。典型的在电商推荐场景,当用户买了一款手机之后,接下来如果推荐手机周边配件等物品则显得更合理一点,基于用户历史行为的序列化建模可以很好的解决这类问题。

最后,徐君老师就排序依据、并行化处理、交互收集信息的问题进行了讲解,总结了排序模型,并对未来发展方向进行了展望。

人民大学徐君:智能搜索中的排序-突破概率排序准则

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

人民大学徐君:智能搜索中的排序-突破概率排序准则

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

相关推荐