信息检索专场|AIS预讲会全程干货分享
AIS (ACL、IJCAI、SIGIR) 2018
Session 3: Information Retrieval
1 刘正晧 清华大学
Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval
Neural information Retrieval(神经信息检索),是当用户提出一个问题的时候,我们通过神经元网络计算出来与它相关的文档排名,进而满足用户的需求。当前神经网络信息检索模型大概分为两种,第一种是基于表示的神经网络信息检索模型,第二种是基于交互的神经网络信息检索模型。
在实际的信息检索场景中,用户输入的问题非常简短,或含有专有实体。在传统的信息检索方法中很多人利用了knowledge graph(知识图谱)通过人工的抽取特征来增强信息检索的效果。我们这里考虑用神经网络的方法,自动抽取知识图库中的语义信息,并且使用用户点击数据端到端的训练模型。
我们提出了一个Entity-Duet Neural Ranking Model(实体二元神经排序模型),即EDRM模型,用以增强基于交互的神经网络信息检索模型。在该模型中,我们对实体的表示有三个部分,一是Entity Embedding(实体向量),二是基于实体Description Embedding(描述向量),最后是基于实体的Type Embedding(类型向量),并且将它们进行线性组合,组合为一个增强实体表示。
基于交互的神经信息检索模型,主要建立了问题和文档之间的一个交互矩阵,我们通过Neural Entity -Duet Framework(神经实体二元框架)来更好地建立问题和文档之间的交互矩阵。建立了四种交互矩阵,用于后面的Ranking layer(排序特征抽取层)。因为K-NRM和Conv-KNRM是当前最好的基于交互的神经网络信息检索模型,在实验中我们将EDRM模型与该两种模型整合在一起,用来验证EDRM效果。
我们采用了搜狗的点击数据,测试的场景与K-NRM的场景是一样的,分为Testing-SAME、Testing-DIFF、Testing-RAW。Testing-SAME是在测试和训练过程中采用相同的标签,Testing-DIFF是在测试中采用一个更为复杂的标签测试,Testing-RAW是判断最符合文本的一个排名结果。可以看到,通过实验我们模型有较大的提升,在Testing-DIFF和Testing-RAW上的提升,证明EDRM有良好的泛化能力。
2 李晨亮 武汉大学
A Deep Relevance Model for Zero-Shot Document Filtering
文本过滤的本质是在数量庞大的文档集合中过滤掉不相关或者是无用的文本,然后对相关或者有用的文本,按照目标需求指定的类别进行组织分类。用户的信息需求是动态变化,并且在大数据时代背景下,文档可能覆盖的类别种类不断增加,对每一个可能的目标类别构建训练数据是昂贵和不太现实的。
通过将代表类别语义信息的少数单词作为类别的整个词来表示一个类别,来实现面向零样本的文本过滤。
基于深度学习技术,提出面向类别种子词的零样本过滤模型。在这个模型里面,通过构建面向类别种子词,基于词向量交互的文档表示,通过CNN来提取文档类别的关联信息。随后通过多层神经网络进一步提炼文档类别的关联信息。在这一过程中,我们也会引入一个对它训练的环节,也就是说,我们确保提取的文档类别关联信息,具有很好的泛化能力,使其避免受到训练数据的制约。
具体来说,构建类别表述的时候,首先通过将类别种子词的词向量的均值来表示这个类别。随后对文档里的每个单词通过其它的词向量和类别向量的两类交互操作来构建类别的文档单词表示。这两类交互操作是向量补偿和向量点乘。
基于K-max Pooling CNN网络,面对类别的表示进行类别关联信息的提取,引入一个类别门机制来帮助我们确定CNN中哪些过滤器和目标类别的关联信息提取是相关的,从而加强文档类别关联信息的提取。
在信息提取的过程中,提取之后我们会用多层的全连接网络进一步提炼和融合文档类别的关联信息。我们希望在经过全连接层提取的类别关联信息里面,不包含训练时候训练类别的特定信息,可以保证模型的泛化能力。因此,基于类别的特征信息引入一个分类任务,即引入一个分类器,确定分类器无法正确判断训练文档来自哪个训练类别。
实验内容是面对零样本的文本过滤,基于类别种子词,对文档进行关联词的排序。我们对比了一些相近的,基于深度学习的信息检索模型以及传统的基于单词的词匹配的信息检索模型,以及普通的基于监督型的文本分类的模型来验证我们模型的性能。在这里用了两个数据集,20-News group和movie review,第一个是标准的文档分类的数据集,第二个是基于英文的电影评论情感分析数据集,能保证在不同的分类任务下面验证这个模型的性能。实验集的结果表明我们的模型在不同的任务下面具有最好的排序性能。
进一步实验结果分析,我们发现模型里面提到的两类词向量交互操作,基于类别机制的引入,以及对抗的环节,对我们模型性能起到了非常显著的帮助。
3 卢泓宇 清华大学
Between Clicks and Satisfaction : Study on Multi-Phase User Preferences and Satisfaction for Online News Reading
用户的点击行为被广泛应用于交互式信息系统的训练和评价中,例如用作正向的隐式反馈训练模型,或计算点击率评价在线效果。但用户点击之后可能发现并不喜欢,因此点击和用户实际偏好和满意度之间存在差异。针对这个问题我们进行了一个用户实验,做了一些深入的分析。
我们在用户刚点击一个新闻摘要还没看到内容之前插入一个问题,询问他在阅读前的预期喜好程度(Before-Read Preference),在用户阅读完文章内容之后,会再次询问他阅读后的喜好程度(After-Read Preference),在用户浏览完新闻列表后,会重新打乱顺序展示每一条新闻,采集用户对它最终的是经济偏好(Post-Task Preference)。
一个用户会完成11个task,每个task包含15个新闻,这些新闻是从搜狗摘取出来的,我们对它的质量做一个标注。最后我们总共招募了32个用户,采集到了大约一千六百多个点击。
首先,我们对比了点击信号和最终的实际偏好,发现点击的新闻中有超过一半的用户实际发现不喜欢。其次,我们对比了不同阶段的用户偏好,发现不同阶段的用户偏好不同,且随着阅读的深入,偏好的分布越分散代表了用户的偏好越明确。
从点击之后到用户最终的偏好之间有三个gap, 第一个gap,用户点击和他阅读前的预期偏好是否是一致的,如果不一致,他为什么会点击预期不喜欢的新闻呢?第二个gap,用户阅读前后之间偏好的不一致,发现它和新闻质量是相关的。第三个gap是用户阅读之后的偏好到最终post Task偏好之间的不一致,尝试用context的影响来建模。
基于分析的发现,我们使用用户行为,例如阅读时长和阅读速度等,结合质量、上下文信息去预测用户对一次点击的实际偏好。实验结果表明用户行为、质量特征、上下文信息对预测实际偏好均有用,且用到所有特征的效果是最优的。有了预测出来的实际偏好之后,是否能够去改善评价呢?
传统基于点击的在线评价指标,例如CTR等,会认为一个文档的收益是二值的,点击即为1,不点即为0,或者是认为阅读时间大于阈值的才是1。我们将这样的信号替换为预测的用户实际偏好,发现其与满意度之间更贴近,效果更好。
4 毛佳昕 清华大学
Constructing Click Models for Mobile Search
移动搜索环境下的点击模型构建
作者:毛佳昕,罗成,张敏,马少平
点击模型是一种能够有效从点击中提取隐式相关性反馈的方法,它通过对用户搜索结果页上的检验和点击行为进行统计建模,来得到准确的相关性反馈。而点击模型的有效性,很大程度上依赖于是否对用户的检验和点击行为进行正确的假设。
由于用户在移动搜索环境和桌面搜索环境下的点击行为存在较大区别,我们需要构建适合于移动搜索的点击模型,并在移动搜索日志上进行训练。移动搜索和桌面搜索一个非常大的区别是有很多异质的垂直结果被加入到了移动搜索引擎的结果页中。
为了减少用户和移动搜索引擎的交互成本,通常这些垂直结果会将很多有用的信息直接展示在搜索结果页面上。用户往往不需要点击这些结果就能获得所需信息,这将导致传统的点击模型会因此错误的认为这些结果相关性不高。我们的工作主要考虑了这些异质结果对用户在移动搜索环境下的点击行为的影响。
通过对真实移动搜索日志的统计,我们进一步验证了:1)移动搜索中垂直结果比例明显大于桌面搜索垂直结果的比例。2)移动搜索中,垂直结果的点击率会比普通结果明显低,移动搜索中有很多直接在搜索结果页上展示信息的垂直结果。所以,针对移动搜索的这一特点,我们构建了移动搜索点击模型。
具体的,我们将点击必要性偏置和检验后满意偏置这两种不同的用户行为偏置引入到点击模型构建中,提出了移动点击模型(Mobile Click Model,简称MCM)。通过引入点击必要性偏置,我们可以消除对那些不需要点击结果的错误的负向相关性反馈。
但我们还需要正向相关性反馈,以把质量高的垂直结果排在靠前的位置。因此,我们引入了第二个偏置,叫做检验后满意偏置。如果遇到一个不需要点击的结果,用户可能在检验结果之后就感到满意,进而离开当前的搜索结果页面。
利用真实的移动搜索点击日志,我们在点击预测和相关性预测两个不同的任务上测试了我们的模型,并与已有的三种不考虑结果异质性的传统点击模型(UBM、DBN和DCM模型)和两种在桌面环境下考虑了结果异质性的点击模型(EB-UBM和UBM-layout模型)进行对比。
在点击预测方面,我们用log-likelihood和前十位的平均混淆度来评价我们的模型。实验结果表明,我们提出的MCM模型相较于作为baseline的已有点击模型,能更准确的预测用户在移动搜索中的点击行为。
而在相关性预测方面,我们利用不同的点击模型得到的相关性估计对结果进行排序,再用nDCG评价结果排序的性能,以评价模型在相关性预测任务上的性能。为了计算nDCG,我们随机采样了775个查询进行相关性标注。由于在移动搜索环境下,需要考虑结果摘要直接满足用户信息需求的情况,对每个查询结果对,我们同时进行了摘要相关性标注和页面相关性标注。基于这两种不同的相关性标注和它们的均值,我们计算了三种不同的nDCG指标。结果表明,MCM模型在三种nDCG指标下的排序性能均优于作为baseline的其他点击模型。
总结来说,通过对移动搜索环境下的用户检验-点击行为的分析,我们提出了点击必要性偏置和检验后满意偏置两种在移动环境下较为普遍的用户行为偏置。通过将上述两种偏置引入点击模型的构建,我们提出了适应于移动搜索环境的移动点击模型(MCM模型)。在大规模移动搜索日志上的实验表明,MCM模型在移动搜索中的点击预测和相关性预测两个任务上相对于现有点击模型取得了显著的性能提升。
由于时间限制,在此只能介绍论文的主要内容,详细内容请参见论文原文。
5 谢晓晖 清华大学
Constructing an Interaction Behavior Model for Web Image Search
我们建立了一个在图片搜索环境下构建用户的交互行为模型,用来提升整个图片搜索的排序效果。
图片搜索跟常见的桌面搜索的区别之一在于它的一个结果展示是二维的形式,在这种情况下,用户除了从上到下检验结果列表之外,还有一个从左到右检验的选择。其二是图片搜索是没有一个很明显的翻页机制,我们可以直接通过鼠标的滚轮获取下一页的结果内容。最后是在图片的展现上,图片的内容信息自包含,会在一定程度上影响图片搜索上的点击,造成点击稀疏的问题。
为此我们希望在图片搜索的环境下了解用户行为,并构建用户行为模型提升图片搜索的排序效果。
我们首先进行了探索性的实验来了解真实用户跟图片搜索界面进行交互的方式。我们发现鼠标停留在图片上的hover操作能在一定程度上反映出用户对于结果的偏好,将其作为click行为的补充,能够缓解click稀疏的问题。同时,用户在两次相邻的交互之间(click or hover)之间,在垂直方向和水平方向上的图片检验行为基本上是单向的,很少会出现回访行为。同时在检验路径上,用户会存在跳过的行为,而不会浏览所有图片。
基于以上的发现,我们提出了基于用户检验的图片搜索行为假设,并使用概率图模型构建了用户交互行为模型(如下图所示)。
我们对比了使用其他假设的用户行为模型,发现我们的模型在用户行为预测上有更高的准确率,也反映了我们模型的假设更贴近实际用户的行为。同时,我们使用相关性和图片质量两个指标来验证提出的模型是否能够提高图片搜索的排序效果。实验结果表明,我们的模型能够提高原始排序的结果,同时相比于只使用点击信息的模型和其他基准模型,我们的模型在NDCG这一指标下都取得了显著的提升。
6 张帆 清华大学
How Well do Offline and Online Evaluation Metrics Measure User Satisfaction in Web Image Search?
在信息检索领域,对于检索系统的性能评价目前主要有两大类的评价方式。一种称之为离线的评价方式,这种方法以大家所熟知的Cranfield体系为代表,主要是基于查询文档对的相关性标注来对不同的系统进行评价,用于评价的指标都是基于一定的用户模型假设;
另一类是在线评价的方式,这种方法更多的被一些商业搜索引擎公司所采用,例如应用较为广泛的A/B tests,Interleaving等等,评价的指标主要是基于用户的搜索行为,如CTR,Dwell time等信息。
图片搜索的场景和传统的Web搜索有很大的区别,比如结果的呈现形式,结果列表的排布方式,包括翻页方式都会有不一样的地方。由于这样的差异存在,现有的评价方式面临着一些挑战。
对于离线评价来说,之前有工作将评价指标背后的用户模型总结为三个方面:用户的浏览模型描述用户的交互过程,而xie等人的工作表明图片搜索下用户的浏览行为会有所不同;文档效用模型描述用户对结果效用的评估,而Geng等人的工作表明除了话题相关性之外,还有一些因素也对图片结果的效用产生影响;效用累积模型描述用户如何在结果列表上对效用进行累积,然而图片搜索的二维展现形式区别于传统的线性排布方式,这也会使得模型的设计有所不同。
另一方面,在线评价指标主要是基于用户行为信息,而图片搜索和web搜索的用户行为差异势必会对此产生影响。因此,我们主要研究的问题是在图片搜索新的场景下,我们传统的一些指标,它的表现如何,我们是否需要有一些新的思考。
用户满意度是衡量搜索性能的重要目标,我们希望通过探究评价指标与用户满意度之间的关系来对研究问题进行回答。因此,我们设计了用户实验来收集用户搜索过程中的满意度反馈。
具体的实验流程包括用户实验和后期的数据标注两个部分。在用户实验中,每个用户在接受实验指导并完成任务训练后需要利用图片搜索引擎完成12个不同的图片搜索任务,实验中我们会记录用户的行为信息,每个任务完成后,用户需要回顾自己的搜索过程,并对他所提交的每个查询的满意程度做出反馈。
在标注阶段,我们抽取了用户提交的查询词以及搜索引擎返回的前10行的结果,利用众包平台对图片结果的相关性进行了标注,此外,我们还考虑到图片构图,清晰度,水印等因素对图片质量进行了标注。基于相关性标注和图片质量标注,我们可以计算相应的离线评价指标,而基于对用户行为信息的处理,我们可以得到对应的在线评价指标,最终,我们比较了不同的评价指标与用户所反馈的满意度之间的关联。
我们首先比较了话题相关性与图片质量这两种不同的标注。标注分为四级,这两张图展示了它们各自的分布以及联合分布的情况,可以看到,话题相关性的分布极为不均,绝大部分都是非常相关的图片,而图片质量分布相对更均衡,主要是一些高相关性的图片可能会存在一些水印等质量问题。总的来说,由于我们的标注只考虑了前十行的图片,搜索引擎所返回的这些图片无论是在相关性还是质量上表现都是很好的。
基于不同的标注,我们比较了目前常用的离线评价指标与用户满意度之间的Pearson相关系数,除了基于话题相关性与图片质量这两种不同的标注之外,我们也尝试将二者结合起来,我们认为一张好的图片不仅需要相关,而且需要高质量,因此取二者的较小值作为图片结果的标注。实验结果表明,同时考虑话题相关性与图片质量,离线评价指标与用户满意度之间的关联更强。
考虑到图片搜索与web搜索的差异,我们也尝试引入不同的结果检验序列,对评价指标进行调整,然而实验结果表明不同序列之间差异较小,此外,我们也尝试将同一行的图片整合到一起,作为一个整体的结果,从而将二维的检验序列变为传统的线性序列,但仍未带来性能上的提升。我们注意到其中表现最好的方式是对所有结果的得分求平均,因此不同的检验序列以及整合方式对结果几乎没有影响。
接下来我们则是比较了不同的在线评价指标的表现。主要是基于鼠标的点击以及停留时长等信息,为了与点击行为进行对比,我们还将鼠标的悬停信息也考虑进来。实验结果表明,基于点击行为的评价指标取得了最好的效果,而在图片搜索中鼠标悬停信息反而会带来很多的噪声,此外,与之前的离线评价指标相比,在线评价指标整体上与用户满意度的关联更强,特别是像UCTR等基于点击行为的指标。这也反映了点击行为在图片搜索中的重要性。
最后,我们比较了在不同的搜索意图下评价指标的表现情况。参考之前的相关工作,我们在设计12个搜索任务时将其分为了三类,一类是探索类的任务,主要目的是了解相关知识,如搜索海口的风景地标建筑等;第二类是娱乐类任务,主要目的是消磨时间,放松娱乐,如随意搜索感兴趣的明星照片;最后一类是素材类的任务,主要目的是收集图片素材方便后续使用,如制作哈利波特的slides介绍。
对于离线评价指标来说,不同的搜索意图下话题相关性与图片质量两方面因素的重要性不同。探索类的任务更看重话题相关性,而素材类任务更看重图片质量,因为前者主要是为了了解知识,而后者则是有着收集素材的目的。对于在线评价指标来说,素材类任务下它们与用户满意度的关联度更强,这主要可能是因为素材类任务有着特殊的收集需求,用户对于点击等行为会更加谨慎,也更能反映用户的搜索情况。
总结一下,我们这部分工作主要探究了图片搜索场景下离线评价指标与在线评价指标的表现。基于真实用户的满意度反馈,实验结果表明,同时考虑话题相关性与图片质量,离线评价指标与用户满意度之间的关联更强。而基于点击行为等信息的在线评价指标相比离线评价指标能够取得更好的效果,这也表明目前的两种标注对于结果的衡量仍然存在一定的局限,此外,在不同的搜索意图下,两种标注的表现也有所区别。
我们的工作也存在一些不足,一方面,受用户实验的限制,我们的数据规模不够大,未来我们需要利用大规模的数据来进行比较分析,我们也需要考虑session级别的评价指标,最后,我们的工作表明基于话题相关性和图片质量的标注方式仍然存在一定的局限,那么我们需要什么样的标注也是值得被研究的问题。
7 范意兴 中科院计算所
Modeling Diverse Relevance Patterns in Ad-hoc Retrieval
信息检索系统是从海量的信息资源中找到与我们需求相关的文档,其中核心的问题是如何判断查询与信息资源集合中任意文档的相关性。
在已有的工作中,相关性建模大致分为三类,基于文档级别的相关性建模方法、基于段落的相关性建模方法和混合方法。这三类方法都使用一种固定的相关性决策的策略,很难满足任意文档中不同相关模式的需要。
所以我们提出了使用数据驱动的方式,让不同粒度的相关信号进行相互竞争,最后选择一个适合当前文档需要的相关信号进行决策。我们的模型包含两个层次,第一个层次是一个局部匹配层,来生成局部的匹配信号。第二个层次,全局的决策层为文档选择合适的相关信号进行决策。
在局部的匹配层里,首先将文档中的词映射到一个词向量,使用滑动窗口将文档切成不同的小的文档片段,为每个文本片段生成细粒度的相关性信号。
我们使用一个二维循环神经网络模型,为每个文本的片段生成相关性信号之后,提出三个基本相关性决策方法。第一个假设,一个文档相关是由文档中特定段落的相关信号决定的。第二个假设,累计的决策模型,认为相关性的信号来自多个连续的片断,甚至是整个文档的相关信号,这里使用的是双向的循环神经网络,对信号进行累积。最后是一个混合的决策,融合了上述两种模型的优势,然后将不同的粒度信号拼在一起来选择。
我们的实验包含两个数据集,分别是MQ2007、MQ2008。我们选用了三类Baseline(基线),第一类是传统的方法,包括BM25,还有MSP、PLM的方法。第二类是排序学习的方法,这里面选用了两个state-of-the-art的模型,第一个是AdaRanK,第二个是LambdaMart,第三类是最近才提出来深度的检索模型。
在实验中首先分析了局部匹配层中不同的相关信号对于最终排序结果的影响。当我们模型能够建模更多相关信号需求的情况下,它能够取得更好的性能。
在所有baseline方法的对比实验中,传统方法里面BM25已经是一个非常强的计算模型,同时简单使用这种段落级别的相关信号方法,它的性能比BM25差很多。也就是说,我们基于某个特定的段落方法很难建模多样的相关模式。
在排序学习里面,除了使用基本排序的学习方法特征,还将段落特征融到里面,进行对比,发现段落特征融进去有时候能提升,但不稳定,最后发现我们提出的方法能更好建模多样性相关需求,取得更好的性能。
最后通过样例分析,分析出我们的模型能否真正建模多样的相关性需求。