矩阵：如何使用矩阵操作进行 PageRank 计算？

ammmao

2019-03-21

矩阵：如何使用矩阵操作进行 PageRank 计算？

内容选自《程序员的数学基础课》

你好，我是黄申。今天我来说说矩阵。

矩阵由多个长度相等的向量组成，其中的每列或者每行就是一个向量。从数据结构的角度来看，我们可以把向量看作一维数组，把矩阵看作二维数组。

具有了二维数组的特性，矩阵就可以表达二元关系了，例如图中结点的邻接关系，或者是用户对物品的评分关系。而通过矩阵上的各种运算操作，我们就可以挖掘这些二元关系，在不同的应用场景下达到不同的目的。今天我就从图的邻接矩阵出发，展示如何使用矩阵计算来实现 PageRank 算法。

回顾 PageRank 链接分析算法

在讲马尔科夫模型的时候，我已经介绍了 PageRank 链接分析算法。所以，在展示这个算法和矩阵操作的关系之前，我们快速回顾一下它的核心思想。

PageRank 是基于马尔科夫链的。它假设了一个“随机冲浪者”模型，冲浪者从某张网页出发，根据 Web 图中的链接关系随机访问。在每个步骤中，冲浪者都会从当前网页的链出网页中，随机选取一张作为下一步访问的目标。此外，PageRank 还引入了随机的跳转操作，这意味着冲浪者不是按 Web 图的拓扑结构走下去，只是随机挑选了一张网页进行跳转。

基于之前的假设，PageRank 的公式定义如下：

矩阵：如何使用矩阵操作进行 PageRank 计算？

其中，pi 表示第 i 张网页，Mi 是 pi 的入链接集合，pj 是 Mi 集合中的第 j 张网页。PR(pj) 表示网页 pj 的 PageRank 得分，L(pj) 表示网页 pj 的出链接数量，1/L(pj) 就表示从网页 pj 跳转到 pi 的概率。α是用户不进行随机跳转的概率，N 表示所有网页的数量。

PageRank 的计算是采样迭代法实现的：一开始所有网页结点的初始 PageRank 值都可以设置为某个相同的数，例如 1，然后我们通过上面这个公式，得到每个结点新的 PageRank 值。每当一张网页的 PageRank 发生了改变，它也会影响它的出链接所指向的网页，因此我们可以再次使用这个公式，循环地修正每个网页结点的值。由于这是一个马尔科夫过程，所以我们能从理论上证明，所有网页的 PageRank 最终会达到一个稳定的数值。整个证明过程很复杂，这里我们只需要知道这个迭代计算的过程就行了。

简化 PageRank 公式

那么，这个计算公式和矩阵操作又有什么联系呢？为了把问题简化，我们暂时不考虑随机跳转的情况，而只考虑用户按照网页间链接进行随机冲浪。那么 PageRank 的公式就简化为：

矩阵：如何使用矩阵操作进行 PageRank 计算？

这个公式只包含了原公式中的Σ(PR(pj)/L(pj)) 部分。我们再来对比看看矩阵点乘的计算公式。

矩阵：如何使用矩阵操作进行 PageRank 计算？

以上两个公式在形式上是基本一致的。因此，我们可以把Σ(PR(pj)/L(pj)) 的计算，分解为两个矩阵的点乘。一个矩阵是当前每张网页的 PageRank 得分，另一个矩阵就是邻接矩阵。所谓邻接矩阵，其实就是表示图结点相邻关系的矩阵。

假设 xi,j 是矩阵中第 i 行、第 j 列的元素，那么我们就可以使用 xi,j 表示从结点 i 到结点 j 的连接，放到 PageRank 的应用场景，xi,j 就表示网页 pi 到网页 pj 的链接。最原始的邻接矩阵所包含的元素是 0 或 1，0 表示没有链接，而 1 表示有链接。

考虑到 PageRank 里乘积是 1/L(pj)，我们可以对邻接矩阵的每一行进行归一化，用原始的值（0 或 1）除以 L(pj)，而 L(pj) 表示有某张网页 pj 的出链接，正好是矩阵中 pj 这一行的和。所以，我们可以对原始的邻接矩阵，进行基于行的归一化，这样就能得到每个元素为 1/L(pj) 的矩阵，其中 j 表示矩阵的第 j 行。注意，这里的归一化是指让所有元素加起来的和为 1。

为了方便你理解，我用下面这个拓扑图作为例子给你详细解释。

矩阵：如何使用矩阵操作进行 PageRank 计算？

基于上面这个图，原始矩阵为：

矩阵：如何使用矩阵操作进行 PageRank 计算？

其中第 i 行、第 j 列的元素值表示从结点 i 到 j 是不是存在链接。如果是，那么这个值为 1；否则就为 0。

按照每一行的和，分别对每一行进行归一化之后的矩阵就变为：

矩阵：如何使用矩阵操作进行 PageRank 计算？

有了上述这个邻接矩阵，我们就可以开始最简单的 PageRank 计算。PageRank 的计算是采样迭代法实现的。这里我把初始值都设为 1，并把第一次计算的结果列在这里。

矩阵：如何使用矩阵操作进行 PageRank 计算？

好了，我们已经成功迈出了第一步，但是还需要考虑随机跳转的可能性。

考虑随机跳转

经过上面的步骤，我们已经求得Σ(PR(pj)/L(pj)) 部分。不过，PageRank 引入了随机跳转的机制。这一部分其实也是可以通过矩阵的点乘来实现的。我们把Σ(PR(pj)/L(pj)) 部分用 A 表示，那么完整的 PageRank 公式就可以表示为：

矩阵：如何使用矩阵操作进行 PageRank 计算？

于是，我们可以把上述公式分解为如下两个矩阵的点乘：

矩阵：如何使用矩阵操作进行 PageRank 计算？

我们仍然使用前面的例子，来看看经过随机跳转之后，PageRank 值变成了多少。这里α取 0.9。

矩阵：如何使用矩阵操作进行 PageRank 计算？

我们前面提到，PageRank 算法需要迭代式计算。为了避免计算后的数值越来越大甚至溢出，我们可以进行归一化处理，保证所有结点的数值之和为 1。经过这个处理之后，我们得到第一轮的 PageRank 数值，也就是下面这个行向量：

[0.37027027 0.24864865 0.37027027 0.00540541 0.00540541]

接下来，我们只需要再重复之前的步骤，直到每个结点的值趋于稳定就可以了。

使用 Python 进行实现

说到这里，我已经把如何把整个 PageRank 的计算，转换成多个矩阵的点乘这个过程讲完了。这样一来，我们就可以利用 Python 等科学计算语言提供的库，来完成基于 PageRank 的链接分析。为了展示具体的代码，我以之前的拓扑图为例，给你详细讲述每一步。

首先，我们要进行一些初始化工作，包括设置结点数量、确定随机跳转概率的α、代表拓扑图的邻接矩阵以及存放所有结点 PageRank 值的数组。下面是一段示例代码，在代码中我提供了注释供你参考。

复制代码

import numpy as np
 
# 设置确定随机跳转概率的 alpha、网页结点数
alpha = 0.9
N = 5
 
# 初始化随机跳转概率的矩阵
jump = np.full([2,1], [[alpha], [1-alpha]], dtype=float)
 
# 邻接矩阵的构建
adj = np.full([N,N], [[0,0,1,0,0],[1,0,1,0,0],[1,0,0,0,0],[0,0,0,0,0],[0,1,0,0,0]], dtype=float)
 
# 对邻接矩阵进行归一化
row_sums = adj.sum(axis=1) # 对每一行求和
row_sums[row_sums == 0] = 0.1 # 防止由于分母出现 0 而导致的 Nan
adj = adj / row_sums[:, np.newaxis] # 除以每行之和的归一化
 
# 初始的 PageRank 值，通常是设置所有值为 1.0
pr = np.full([1,N], 1, dtype=float)

之后，我们就能采用迭代法来计算 PageRank 值。一般我们通过比较每个结点最近两次计算的值是否足够接近，来确定数值是不是已经稳定，以及是不是需要结束迭代。这里为简便起见，我使用了固定次数的循环来实现。如果你的拓扑图比较复杂，需要更多次迭代，我把示例代码和注释列在这里。

复制代码

# PageRank 算法本身是采样迭代方式进行的，当最终的取值趋于稳定后结束。
for i in range(0, 20):
 
 # 进行点乘，计算Σ(PR(pj)/L(pj))
 pr = np.dot(pr, adj)
 
 # 转置保存Σ(PR(pj)/L(pj)) 结果的矩阵，并增加长度为 N 的列向量，其中每个元素的值为 1/N，便于下一步的点乘。
 pr_jump = np.full([N, 2], [[0, 1/N]])
 pr_jump[:,:-1] = pr.transpose()
 
 # 进行点乘，计算α(Σ(PR(pj)/L(pj))) + (1-α)/N)
 pr = np.dot(pr_jump, jump)
 
 # 归一化 PageRank 得分
 pr = pr.transpose()
 pr = pr / pr.sum()
 
 print("round", i + 1, pr)

如果成功运行了上述两段代码，你就能看到每个结点最终获得的 PageRank 分数是多少。

Python 中还有一些很不错的库，提供了直接构建拓扑图和计算 PageRank 的功能，例如networkx。你可以尝试使用这种库，构建样例拓扑图并计算每个结点的 PageRank 得分，最后和上述代码所计算的 PageRank 得分进行比较，验证一下上述代码的结果是不是合理。

总结

我们可以把向量看作一维数组，把矩阵看作二维数组。矩阵的点乘，是由若干个向量的点乘组成的，所以我们可以通过矩阵的点乘操作，挖掘多组向量两两之间的关系。

今天我们讲了矩阵的点乘操作在 PageRank 算法中的应用。通过表示网页的邻接二元关系，我们可以使用矩阵来计算 PageRank 的得分。在这个应用场景下，矩阵点乘体现了多个马尔科夫过程中的状态转移。

矩阵点乘和其他运算操作，还可以运用在很多其他的领域。例如，我在上一节介绍 K 均值聚类算法时，就提到了需要计算某个数据点向量、其他数据点向量之间的距离或者相似度，以及使用多个数据点向量的平均值来获得质心点的向量，这些都可以通过矩阵操作来完成。

另外，在协同过滤的推荐中，我们可以使用矩阵点乘，来实现多个用户或者物品之间的相似程度，以及聚集后的相似程度所导致的最终推荐结果。下一节，我会使用矩阵来表示用户和物品的二元关系，并通过矩阵来计算协同过滤的结果。

矩阵 pagerank算法

ammmao

0 关注 0 粉丝 0 动态

相关推荐

腾讯发布业内首个AI安全攻击矩阵让排风险像查字典一样简单

近年来，人工智能迅猛发展，与家居、金融、交通、医疗等各个领域深度融合，让人们的生活更为便利。但与此同时，基于人工智能的系统一旦存在风险也将带来更为严重的后果。9月25日，腾讯正式发布业内首个AI安全攻击矩阵。研究人员和开发人员根据AI部署运营的基本情况，就

sasac 2020-09-25

你的AI模型有哪些安全问题，在这份AI攻防“词典”里都能查到

目前，AI技术在人脸支付、人脸安防、语音识别、机器翻译等众多场景得到了广泛的使用，AI系统的安全性问题也引起了业界越来越多的关注。例如，攻击者可能通过特制的攻击贴纸来欺骗人脸识别系统，从而带来生命财产损失。为了应对AI模型各个环节可能存在的安全风险，并

huangjie0 2020-09-25

视频云4.0升级发布，腾讯云构建业界最完整音视频产品矩阵

9月11日，在腾讯2020全球数字生态大会音视频通信专场上，腾讯云升级了视频云4.0，发布在视频制作、电商直播和海外媒体的三大重磅新品，并宣布启动V加俱乐部计划，携手音视频领域合作伙伴共创百亿价值。此外，腾讯云发布新一代融合信息服务平台进一步布局通信云。李

cloudking000 2020-09-11

Keras调用LSTM之函数接口介绍

activation: 要使用的激活函数，如果传入None，则不使用激活函数。默认分段线性近似 sigmoid 。use_bias: 布尔值，该层是否使用偏置向量。如果为 True，初始化时，将忘记门的偏置加 1。将其设置为 True 同时还会强制bi

xiaoxiaokeke 2020-07-28

java数据结构与算法一：稀疏数组

因为二维数组的很多值是默认值0，因此记录了很多没有意义的数据，可采用稀疏数组解决此问题。当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。稀疏数组中第一行依次存放着总行数、总列数、不同值的个数，其他行则依次存放着值所在的行

mingyunxiaohai 2020-07-28

C，Java和Python之间的性能比较

在过去的两年中，我为C语言做了大量的实现工作。我之所以选择C语言而不是其他语言，是因为人们普遍认为C代码比其他流行的编程语言运行得更快。但是，即使我一直对C的速度感到好奇，我自己也没有做任何实验来证实这一说法。最后，我决定进行一些实验，以比较C，Java和

honghao0 2020-07-27

数据挖掘----推荐算法(CF)

User-Based CF 计算user与user的相似度矩阵。- 具有相似兴趣的用户在未来也具有相似兴趣。- 将N 喜欢的物品推荐给用户。

风吹夏天 2020-07-26

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

关于矩阵和向量的相关知识，大家可能和我一样毕业后几乎就慢慢遗忘干净了。但是，既然学过，回忆起来其实并不太难。而且，即使没有学过，也并不影响我们对相关API的使用。当然基础知识的理解会帮助我们弄明白和更好的进行OpenGL的开发工作。GLTools库中的Ma

夕加加 2020-07-20

推荐算法集锦（中）—— SVD和CB

通过上一篇对推荐系统的协同过滤算法进行详细的介绍后，并且给出模拟推荐案例，相信广大读者对于协同过滤算法的原理也有了一个基本的了解，以及对其中的推荐过程和使用该推荐算法的场景和优势有了一个基本的掌握。在上一篇文章的结尾部分我留了几个思考，也就是关于协同过滤算

CallmeZhe 2020-06-29

C++并发编程实战：如何为多线程性能设计数据结构？

在8.1节中我们看到了在线程间划分工作的一些方法,在8.2节中我们看到了影响代码性能的一些因素。当设计多线程性能的数据结构的时候如何使用这些信息呢?这是在第6章和第7章中处理的很困难的问题,是关于设计可以安全并行读取的数据结构。当为多线程性能设计你的数据结

zhoujiyu 2020-06-28

php 二维数组按某个字段排序

php版本5.5以后自带。函数先对第一个数组进行排序，接着是其他数组，如果两个或多个值相同，它将对下一个数组进行排序。array_multisort;//SORT_ASC 按照上升顺序排序， SORT_DESC 按照下降顺序排序

清风徐来水波不兴 2020-06-16

随机抽样一致性（RANSAC）算法详解

随机抽样一致性算法能够有效的剔除特征匹配中的错误匹配点。实际上，RANSAC能够有效拟合存在噪声模型下的拟合函数。这就是RANSAC的核心思想。OpenCV中滤除误匹配对采用RANSAC算法寻找一个最佳单应性矩阵H，矩阵大小为3×3。RANSAC目的是找到

Happyunlimited 2020-06-15

matlab中mat文件的生成和读取

　　打开Matlab软件，点击左上角文件，然后点击新建，选择变量，就新建了一个mat文件。保存单一矩阵数据如图所示，输入数据，生成数组。最后输入save x1 x。该语句表示将敲入的数组x生成数据x1.mat文件。如果矩阵A.B都已赋值，现在需要将A,B

wanff0 2020-06-14

matlab软件-了解

MATLAB是美国MathWorks公司出品的商业数学软件。用于数据分析、无线通信、深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理、机器人，控制系统等领域。MATLAB是matrix&laboratory两个词的组合，意为矩阵工厂。，

cuiguanjun 2020-06-13

PyTorch深度学习2简单函数使用

接下来介绍pytorch中的神经网络部分。PyTorch中所有的神经网络都来自于autograd包。首先我们来简要的看一下，之后我们将训练我们第一个的神经网络。autograd 包提供Tensor所有操作的自动求导方法。以这些例子来讲，让我们用更简单的术语

啸林 2020-06-12

LeetCode——滑动谜题

Q：在一个 2 x 3 的板上有 5 块砖瓦，用数字 1~5 来表示, 以及一块空缺用?来表示.一次移动定义为选择?与一个相邻的数字进行交换.最终当板?给出一个谜板的初始状态，返回最少可以通过多少次移动解开谜板，如果不能解开谜板，则返回 -1 。对于这种计

jiayuqicz 2020-06-09

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

【程序员面试金典】面试题 01.08. 零矩阵

编写一种算法，若M × N矩阵中某个元素为0，则将其所在的行与列清零。使用临时数组进行标记。

youzilong0 2020-06-07

python沿行或者沿列拼接空矩阵和其他矩阵

沿水平或者垂直方向的空矩阵和其他矩阵拼接，这里没有拼接矩阵，而用了单个数值的拼接，原理是一样的。注意拼接出来的a和b都是array类型。另外垂直拼接时，应定义空矩阵的维数b=np.empty,零行一列。下来举个矩阵拼接的列子。a=np.arrayb=‘xx

guangmingsky 2020-06-05

Python处理alist文件——稀疏矩阵的读取和存储

众所周知，alist文件是一种保存稀疏矩阵格式，常用于保存LDPC码的校验矩阵与生成矩阵。- TU Kaiserslautern提供了一个信道编码的数据库，并给出了数据库中信道编码的校验矩阵的存储方法和格式。读取alist文件中保存的矩阵，将稀疏矩阵保存为

zcabcd 2020-06-03

ammmao

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号