PageRank的基本原理以及个性化PageRank在推荐系统的应用

郭岚

2019-06-27

阅读LBSN中的位置推荐的一些文献时，遇到了一种用个性化PageRank算法来进行位置推荐的算法，虽然之前也大致了解过PageRank算法，但不细致，这次特意做一个整理总结。

PageRank算法

一、什么是PageRank

PageRank，中文一般叫佩奇排名或网页排名，是利用网页简单的超链接来计算网页的分值，从而给网页进行排名的一种算法，以Google公司创办人Larry Page之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转到该网页所指向的链接，这样无所事事、漫无目的地在网页上跳来跳去，PageRank就是估计这个悠闲的上网者分布在各个网页上的概率。

二、简单的PageRank模型

互联网的网页可以看作是一个有向图，其中网页是结点，如果网页A有链接到网页B，则存在一条有向边A-->B，下面是一个简单的示例：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

这个简单的网络中只有四个网页，如果当前在A网页，由于A有3条出链，则上网者将会各以1/3的概率跳转到B、C和D。所以如果一个网页有$k$条出链，那么该网页跳转到任意一个出链上的概率时1/k，同理D到B、C的概率各为1/2，而B到C的概率为0 。访问一个网页的概率由链接到它的所有网页的概率来决定，例如网页A由B、C两个网页链接，则：

$$P(A)=P(C)+\frac{P(B)}{2}$$

每个网页的访问概率可以用一个向量进行表示，则所有网页的跳转概率可以用户一个用转移矩阵来表示，当一个网络中有n个网页结点时，则转移矩阵M是一个$n\times n$的方阵。因此上面示例图对应的转移矩阵如下：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

初始时，假设上网者在每一个网页的概率都是相等的，即$\frac{1}{n}$，于是初始的概率分布就是一个所有值都为1/n的n维列向量$V_0$，用$V_0$去右乘转移矩阵，就可以得到下一步对每个网页的访问概率$V_1$：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

之后的过程就是一个不断的迭代过程，用得到的网页访问概率去右乘转移矩阵，直到达到一个收敛的状态。可以发现，这是一个马尔科夫过程，即当前的状态仅由它前一个状态来决定。

三、终止点问题

我们知道，要满足马尔科夫过程的收敛性，需要具备一个条件，即图要是强连通的。

而互联网上的网页不满足强连通的特性，因为有一些网页不指向任何网页，所以当上网者到达这类网页时，他将没法跳转到其他的网页，因此一直迭代下去，会导致所有网页的访问概率都为0；

PageRank的基本原理以及个性化PageRank在推荐系统的应用

如上所示，网页C不指向任何一个网页，其对应的转移矩阵为：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

用初始的访问概率右乘转移矩阵，然后一直迭代下去，则最终所有的访问概率都变为0：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

四、陷阱问题

另外一个问题是陷阱问题，即有些网页不存在指向其他网页的链接，但存在指向自己的链接，如图所示：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

我们可以发现，当上网者跑到C网页后，就像跳进了陷阱，再也不能从C中出来了，这将导致概率分布值全部转移到C网页上来，其对应的转移矩阵为：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

用初始的访问概率右乘转移矩阵，然后一直迭代下去，则所有的概率都会转移到网页C：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

五、解决终止点问题和陷阱问题

上述的问题只是特殊的情况，为了更好的理解PageRank算法的原理而已。实际上Google提出的PageRank算法分为两部分，另一部分是由一定的概率跳转到一个随机的网页，这样就能避免终止点问题和陷阱问题。

PageRank的基本原理以及个性化PageRank在推荐系统的应用

其中$\alpha$一般取为0.85，现在我们来计算带陷阱问题的网络的概率分布：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

重复迭代下去，得到：

PageRank的基本原理以及个性化PageRank在推荐系统的应用

六、复杂度问题

上述的网络只有四个结点，直接用矩阵乘法进行是十分快捷的。但是真实的网络中有上千万个网页结点，如果还是直接用矩阵乘法进行计算，时间复杂度就太高了。因此很多有关PageRank算法的博客都提到了Map-Reduce的计算，这里后续进行补充...

个性化PageRank算法

个性化PageRank算法的目标是要计算所有节点相对于用户u的相关度。从用户u对应的节点开始游走，每到一个节点都以1-d的概率停止游走并从u重新开始，或者以d的概率继续游走，从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后，每个顶点被访问到的概率也会收敛趋于稳定，这个时候我们就可以用概率来进行排名了。

PageRank的基本原理以及个性化PageRank在推荐系统的应用

个性化PageRank的计算可以用bookmark-coloring算法，参考文献[2]

具体的算法原理后期补充...

参考内容：

http://blog.jobbole.com/71431/
Bookmark-coloring algorithm for personalized PageRank.

推荐系统概率计算 pagerank算法

郭岚

0 关注 0 粉丝 0 动态

相关推荐

推荐系统经典模型Wide & Deep

今天我们剖析的也是推荐领域的经典论文，叫做Wide & Deep Learning for Recommender Systems。它发表于2016年，作者是Google App Store的推荐团队。这年刚好是深度学习兴起的时间。这篇文章讨论

AnotherSpace 2020-10-30

推荐算法集锦（补充）——近邻选择与算法拓展

通过上面几篇文稿可以详细了解到推荐算法的种类和优缺点，对于推荐算法这块内容还有很多，之前的几篇文稿在内容程度上多少有些许遗漏，以及之前阐述的算法内容深入程度上仍旧达不到一个专业推荐系统开发人员的水平。为此，在这篇文稿中，我将会对前面阐述的遗漏内容进行补充，

chuzizuo 2020-06-30

推荐算法集锦（中）—— SVD和CB

通过上一篇对推荐系统的协同过滤算法进行详细的介绍后，并且给出模拟推荐案例，相信广大读者对于协同过滤算法的原理也有了一个基本的了解，以及对其中的推荐过程和使用该推荐算法的场景和优势有了一个基本的掌握。在上一篇文章的结尾部分我留了几个思考，也就是关于协同过滤算

CallmeZhe 2020-06-29

简单的推荐算法

协同过滤算法是一种利用集体智慧的方法，它类似与朋友推荐，当你想要看一个电影时，你会去询问跟你有着相同喜好的人有没有自己没看过的好电影。这就是协同过滤的核心思想。然后这些物品中评分最高的一批就是我们要推荐给被推荐的用户的物品。一般对于小型的推荐系统来说，基于

chenfei0 2020-06-15

推荐系统原理

凡 AI 类的落地，都需要具备这几个基本元素才行：数据、算法、场景、计算力。本专栏分成五个模块：1 概念篇：推荐系统的理念、思考、形而上的内容；2 原理篇：推荐算法的原理介绍；3 工程篇：推荐算法的实践内容；4 产品篇：考虑产品理念及其商业价值；5 团队篇

rainchxy 2020-06-14

深度学习推荐系统领域的15个问题

而且不可否认NLP的很多知识肯定是跟CV相通的，类似于两个领域的机器学习底层是共享的，上层的application有所区别，这时关注的重点应该在CV的主流方法和主流工具框架上，把它嵌入到你的知识底座上面去。

阳光非宅男 2020-05-11

协同过滤算法

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西，目前应用推荐算法比较好的地方主要是网络，其中淘宝做的比较好。根据 enture Beat的统计，这一举措将该网站的销售额提高了35%自此之后，个性化推荐的应用越来越广泛。用户的资

Ghero 2020-05-06

推荐算法简介

例如淘宝的猜你喜欢，抖音的XXX。用户画像是根据用户的社会属性，消费行为，生活习惯抽象出一个标签化的用户模型。不过可以根据tag进行分类后在进行推荐。因此无论基于物品的推荐算法还是基于商品的推荐算法，都是基于用户的历史数据的，对于新用户的话就会存在用户的冷

dbhllnr 2020-05-01

推荐算法之FM（因子分解机）模型，召回与排序的利器

在这篇文章我们将介绍因式分解机模型，为行文方便后文均以FM表示。FM模型结合了支持向量机与因子分解模型的优点，并且能够用了回归、二分类以及排序任务，速度快，是推荐算法中召回与排序的利器。FM算法和前面我们介绍的LFM模型模型都是基于矩阵分解的推荐算法，但在

nurvnurv 2020-02-18

Netflix推荐系统：从评分预测到消费者法则

原文链接：Netflix recommendations: beyond the 5 stars, . Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司，也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netflix，建议读一

zhongzhiwei 2020-01-05

Netflix 推荐系统：第一部分

Netflix 最有价值的资产——推荐系统的面纱。在第一部分，我们将介绍 Netflix Prize 对推荐领域的贡献，Netflix. 推荐服务的主要模块，以及推荐服务如何满足网站的商业需求。在第二部分，我们将介绍我们使用的数据和模型，讨论如何将离线的机

老谢的自留地 2020-01-06

推荐算法之基于物品的协同过滤

基于物品的协同过滤算法是此前业界应用较多的算法。无论是亚马逊网，还是Netflix 、Hulu 、 YouTube ，其推荐算法的基础都是该算法。为行文方便，下文以英文简称ItemCF表示。本文将从其基础算法讲起，一步步进行改进并基于MovieLens 数

yedaoxiaodi 2020-01-01

推荐算法之基于用户的协同过滤

基于用户的的协同过滤算法是推荐统统最古老的算法，简称UserCF。该算法的诞生一定程度上标志着推荐系统的诞生。本文将对UserCF算法原理进行讲解，并且基于Movielens数据集给出实现代码供大家交流学习。在一个在线个性化推荐系统中，当一个用户A需要个性

wuxiaosi0 2019-12-29

CCF 201909-4 推荐系统

另外，同类商品编号必然不同，不同类商品编号可能相同，所以我们可以用类号+编号来唯一标识一件商品。这样的id可以用long long类型存储，且按id从小到大排序就相当于题目要求的“先按类号从小到大排序，再按编号从小到大排序”的排序原则。如果我们得到一件商品

yishujixiaoxiao 2019-12-04

打包教你推荐系统的开源工具和框架

如果我们懂得了原理，知道了实际推荐系统需要考虑哪些元素之后，却在你摩拳擦掌之际，发现要先从挖地基开始，你整个人可能是崩溃的。但是事实上你没必要这样做也不应该这样做。这是因为下面的原因。因此在算法领域，以 Python 和 C++ 作为开发语言会有比较宽泛的

超永恒 2019-11-28

强烈推荐《MySQL技术内幕：SQL编程》，系统学习SQL必备

概述《MySQL技术内幕：SQL编程》是畅销书《MySQL技术内幕：InnoDB存储引擎》的姊妹篇，深刻揭示了MySQL中SQL编程的精髓。这本书一共10章，全面探讨了MySQL中SQL编程的各种方法、技巧与最佳实践。第2章全面讲解了MySQL中的各种数据

frank0 2019-11-15

抖音，头条这类自媒体的推荐机制是什么？大数据如何给你贴标签？

科技进步极大丰富人类生活的同时,也给我们的生活带来了选择的困扰--如何快速的从头繁杂的数据中获取有价值的信息,推荐系统作为解决信息负载问题的有效方法,正在发挥着显著的作用;传统的推荐系统在处理大数据时存在的问题正在限制其性能的发挥.为了充分挖掘数据价值，提

舒哥的blog 2019-09-05

协同过滤推荐算法

当你在电商网站购物时，天猫会弹出“和你买了同样物品的人还买了XXX”的信息；当你在SNS社交网站闲逛时，也会看到“你可能认识XXX“的信息；当你在微博添加关注人时，也会看到“你可能对XXX也感兴趣”等等。所有这一切，都是背后的推荐算法运作的结果。推荐算法，

风吹夏天 2019-10-26

【推荐系统】知乎live入门4.排序

常见排序建模对象-以点击率预估为例。常见排序算法及其应用场景。排序常见注意事项

Happyunlimited 2019-10-23

推荐系统：混合过滤

在之前的两篇文章中，我们分别讲了推荐系统中的基于内容的过滤和协同过滤技术，今天我们一起看看看混合过滤。组合方法可以是以下任何一种：分别实现算法后组合推荐结果，在协同过滤中加入基于内容的过滤，在基于内容的过滤中加入协同过滤，或者，把基于内容的过滤和协同过滤整

standfly 2019-09-08

郭岚

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号