清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

anchker

2019-02-13

关注关注

[导语]本文是清华大学张敏副教授在Byte Tech 2019 机器智能前沿论坛上的分享实录。Byte Tech 2019由中国人工智能学会、字节跳动、清华大学联合主办，清华大学数据科学研究院协办。

大家好，今天和大家分享一下个性化推荐研究进展。主要探讨三个关键词：可解释性、鲁棒性和公平性。我们大概2013年左右就开始做可解释的推荐，此后也开始逐渐研究鲁棒性和公平性。为什么这三个词很重要呢？

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：可解释性、鲁棒性和公平性是人工智能目前面对的三个重要挑战。

可能大家对人工智能的发展非常耳熟能详。的确，在这次人工智能热潮开始之后，人们认为人工智能越来越强大。但对很多从事人工智能研究的学者来说，现在更多想的是人工智能在哪些地方遇到了最大的瓶颈。目前大家基本达成了共识：当前人工智能领域的两个核心的挑战是可解释性和鲁棒性。

除了可解释性和鲁棒性之外，从两三年前开始，国外的研究越来越关注第三个问题：公平性。我们在研究过程中发现，可解释性、鲁棒性和公平性这三点并不是完全割裂的。所以今天的报告既会分别讨论这三点，但也试图呈现它们之间的关联。因为这三个话题很大，所以我们用一个具体的领域来讨论，也就是我们课题组这些年一直在研究的个性化推荐。

首先是可解释性。什么叫可解释性？其实很简单。我们除了知道怎么做一件事，怎么完成一个任务之外，还想知道“为什么”。这个“为什么”其实有两个不同角度。首先从用户的角度来说，我们不仅希望给用户看到推荐的结果，例如在线购物网站呈现的推荐商品，还能告诉用户为什么推荐这个商品。另一个例子是新闻推荐。为什么系统从今天的几百条新闻中给用户推了这些内容。我们需要理由，并且要把这个理由解释给用户。这就是结果的可解释性。第二个方面是系统角度的可解释性，也就是系统开发人员需要的解释。在我们实验室的研究过程中，有时候学生对我说这个结果很好或很不好，他们可能很怕我问一个问题：为什么结果会这样？为什么我们方法的效果比别人的好？如果不好，问题出在哪里？特别的，到底是哪些因素/特征/数据带来了问题，有没有可能改进？这是关于系统的可解释性。在现在的人工智能（特别是深度学习）研究中，大家对解释性机器学习探讨得比较多。很多人说深度学习的缺点是不知道结果是怎么给出来的，就是指缺少系统的可解释性。

我们现在先讨论一下面向用户的可解释性。之后在讨论鲁棒性问题时会提到系统的可解释性。

目前推荐系统已经有了非常广泛的应用。大家一定用过推荐系统，无论是新闻阅读信息流还是在线购物等。现在推荐系统给出的理由非常简单，最常见的理由之一是买了某件商品的用户也买了其他什么东西，然后说“你可能也感兴趣…”。事实上，现在推荐系统没有给出更有说服力的推荐理由的原因，并不是不想给，而是给不出来。为什么呢？我们从推荐算法说起。这里我简单介绍一下基本概念，尽量让没有推荐系统背景的朋友也能理解。

鲁棒性问题

第二个要讨论的问题，是鲁棒性。这个问题涉及到很多方面。在个性化推荐领域，鲁棒性问题的具体表现之一是很严重的数据缺失的挑战。我们都知道可以根据用户的历史做推荐，但如果一个新用户什么历史都没有，你要怎么做推荐呢？这称作冷启动（cold-start）问题。

在推荐系统中有一类方法基于协同过滤，还有一类方法是基于内容匹配，前者虽然一般来说效果更好但是无法处理冷启动情况，而后者即使冷启动时还能够工作。我们可以把他们融合起来，用历史数据学到给这两种方法分配的权值：例如0.8和0.2。冷启动的时候，协同过滤那部分是0，但还至少有0.2权重的基于内容（content-based）的方法能够使用。但很显然对不同用户、不同的商品，这种融合的权值应该是不一样的。所以我们提出一个思路（如下图）：我们不要固定选好一个对所有人一样的权值，而是提出一个统一的框架（unified framework），自动用注意力网络学习出在不同的情况下不一样的权值。如果大家感兴趣的话，可以看一下我们发表在CIKM 2018上的论文：Attention-based Adaptive Model to Unify Warm and Cold Starts Recommendation。效果确实非常好，能非常有效地解决冷启动问题，并且对总体效果非常有帮助。

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：统一的框架可以解决冷启动推荐问题。

更有趣的是，当学生把下图拿给我的时候，我觉得这可以算是个很漂亮的工作了，因为这项工作同时也体现了系统的可解释性。为什么刚才提到的模型结果很好呢？这是因为通过学习到的不同Attention，会发现左上角是新的item（例如新商品或新的消息），右下角是新的用户。对于信息充足的情况和信息严重不足的情况（新的商品+新的用户），这幅图都给了解释。所以你会发现，当我们解决鲁棒性的同时，对于系统级别的可解释性也有非常大的改善。

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：提升推荐系统的鲁棒性同时也可能提升系统的可解释性。

公平性问题

最后我们用很短的时间再探讨一下公平性问题。公平性问题很值得注意。比如2018年的一个研究发现，在两个公开数据集MovieLens和LastFM上，对男性的推荐效果比对女性推荐效果好，对老人和18岁以下年轻人的推荐效果，比18岁到50岁之间的人群的推荐效果更好，这不是系统有意识地产生偏见，可能和数据量以及用户习惯有关，但是不公平性的确存在。另一方面对被推荐物及相关信息也存在不公平性，例如我们前面讨论过的对评论的不公平性，以及更多推荐流行的东西，也会带来对不热门的东西的不公平性。有时候对用户和对物品的公平性，是有冲突的。例如我们希望增加推荐的多样性，但是有研究表明，增加多样性的时候提升了对被推荐物的公平性，但是却降低了对用户的公平性。

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：推荐系统对不同人群的效果不同，降低了对用户和对推荐物的公平性。

最后一分钟时间分享一下我们在用户行为的不公平性上发现的有趣现象。人们常在看新闻的信息流时经常说这个文章质量太差了，怎么给我推荐这些呢？事实上我们来看看点击率，会吃惊地发现：低质量的新闻总体点击率（下面左图中的蓝线）始终比高质量新闻点击率（图中的红线）高，甚至我们会发现有一些用户在点击之前其实是知道这条新闻的质量肯定不怎么样的，但人们还是有猎奇心理，“我知道它不太好可我就是要点”，点完以后发现这条新闻质量果然是不怎么样。但反过来，对推荐系统来说就感到很奇怪了——用户们你们明明喜欢点的呀，怎么还觉得不好呢。所以这种大量存在的点击的偏置也是不公平的，是对高质量新闻的不公平。

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：低质量新闻的点击率始终比高质量新闻的点击率高。

怎么解决呢？从算法思路可以一定程度上来解决。我们的思路是不要光看点击，不能只拿点击率来做评价指标，而要看用户的满意度。这个满意度虽然没有被用户显式地给出来，但是可以从用户的行为找到蛛丝马迹来进行自动分析。相关的工作我们发表到了2018年的SIGIR上（文章和主要方法可见下图）。

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

图说：低质量新闻的点击率始终比高质量新闻的点击率高。

以上是我今天跟大家简短分享的内容，主要是希望大家关注到可解释性、鲁棒性、公平性这三个非常重要的因素，而且这三个因素并非独立存在，而是在相互作用的。如果我们希望有一个更好的人工智能系统，一定要在这三个方面做进一步的工作。真正智能化的人工智能技术依然前路漫漫，还有非常多的挑战和非常多的机会等待我们去发现和面对。

编辑：文婧

校对：洪舒越

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

人工智能鲁棒性张敏

安科网

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

anchker

推荐系统简明原理

鲁棒性问题

公平性问题

anchker

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

程序员用AI算法生成了3000个新的宝可梦

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

2020年人工智能改变了我们生活的哪些方面？

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

全面解读谷歌云人工智能如何为机器学习提供帮助

anchker