GOTCHA! 个性化PageRank在欺诈检测中的应用

crenjing

2019-05-25

关注关注

0.论文概况

本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法，全篇论文非常系统化接地气，值得一读：

通过对欺诈场景的分析建立“从欺诈公司继承资源的公司存在高风险”的假设设计了时间权重的公司-资源二分网络，并扩展个性化PageRank在该网络上进行欺诈风险传播。基于传播得到的欺诈score，结合网络拓扑结构设计特征，输入到机器学习模型中

1.欺诈场景

1.1 欺诈描述问题

存在一些公司转移资源（公司地址、法人、买卖家、雇员、供应商）到其他公司，并宣布破产从而达到逃税的目的。

另外为了不引人注目，会将资源分散转移到多个公司，但这些公司背后有一家主公司负责组织资源交换。

1.2 公司之间转移资源关系

GOTCHA! 个性化PageRank在欺诈检测中的应用

副公司(Side Compony)：进行资源交换的公司，他们之间若有资源转换，则建立一跳实线边。主公司（key company):背后负责组织和操控副公司进行资源交换，但在数据上与副公司之间的边是隐性的（故边是虚线的）。

1.3 公司-资源二分关系

GOTCHA! 个性化PageRank在欺诈检测中的应用

2. 欺诈假设和调战

2.1 欺诈假设

假设欺诈公司继承资源的公司存在高风险，即欺诈在网络中是可以传播的（如下图所示）

GOTCHA! 个性化PageRank在欺诈检测中的应用

2.2 五大欺诈挑战及应对

1.不常见的(Uncommon)：欺诈问题标签样本极不平衡，如何使用和学习？

——在机器学习中利用SMOTE算法合成更多正样本

2.深思熟虑(Well-considered)：欺诈者会精心准备，而仅依靠单规则（如孤立点）检测，是不充分和不准确的。

——通过综合自身特征和网络拓扑特征，使用机器学习建模，可以提高性能。

3.时间演变(Time-evolving)：欺诈行为也会进化

——设计时间衰减关系权重，并使用多个基于时间划分的评价集评估

4.精心组织(Carefully organized)：欺诈者会受到盟友的影响而改变自己从而更好的不被察觉，故相比正常公司，欺诈者联系更紧密，具有同质性

——提取网络拓扑中三角形、四边形特征

5.伪装(Imperceptibly concealed)：欺诈者会伪装自己，与正常公司具有具有相同的特征——通过集体推理方法（如网络传播），通过网络传播少量欺诈行为，并推断出网络中每个节点的欺诈分。

3. 风险传播算法设计

通过风险传播得到每个节点的欺诈score，然后结合网络拓扑结构设计特征，作为机器学习模型的输入。

3.1 设计初衷

通过在时间加权的二分网络进行欺诈传播，为每个节点推断一个欺诈score，可以反映下面两类特性：

哪类资源经常涉及欺诈，并且表现出很高的欺诈吸引其他公司？（分辨出资源和欺诈公司的连接是巧合还是具有欺诈的）哪些公司对欺诈敏感。

3.2 个性化 PageRank

PageRank用于计算Web中网页权威性，认为指向页面P的页面越多，该P得到的权威值越高以及指向P的页面权威值越高，则P得到的权威值也就越高。

每一次迭代过程：

GOTCHA! 个性化PageRank在欺诈检测中的应用

r页面被访问到的概率，即为PageRank值。c为重启随机游走的概率u为页面在重启随机游走时被选中的概率，在PageRank中定义每个页面的概率相同。M为归一化的邻接矩阵。

个性化PageRank设计初衷是计算特定页面与所有页面之间的相关性，从而可以进行推荐。与PageRank不同之处主要是：

每次重新游走，从特定页面集合中选择一个页面开始；而PageRank是在所有页面中随机选择。在初始化节点权重，设置特定页面集合中节点=1，其他页面=0；而PageRank是对全部页面随机初始化。

每一次迭代过程：

GOTCHA! 个性化PageRank在欺诈检测中的应用

很明显与PageRank区别就在于页面在重启时被选择的概率，对于个性化PageRank，设所有非特定页面被选中概率为0，而特定页面概率均匀分布。

3.3 改进个性化PageRank

通过改进个性化PageRank，以适应欺诈传播场景

1. 加入时间衰减权重矩阵W替代邻接矩阵M

相比多年前捕获的欺诈公司，最近捕获的欺诈公司可能是更重要的传播源。即检测到的时间越久，欺诈传播的传播影响就越小。

设W为指数时间衰变函数：

GOTCHA! 个性化PageRank在欺诈检测中的应用

用W替代M：

GOTCHA! 个性化PageRank在欺诈检测中的应用

2. 适用Company-Resource 二分网络

将时间衰减权重矩阵W 扩展成NxN的矩阵Q（N=公司节点数c+资源节点数r）：

GOTCHA! 个性化PageRank在欺诈检测中的应用

Q替代W，并归一化：

GOTCHA! 个性化PageRank在欺诈检测中的应用

3. 专注欺诈的设计

定义v，设欺诈公司节点 vi =1 , 其他节点vi =0 。这样将欺诈公司节点作为特定节点，每次重启都是从这些欺诈节点开始游走。

最终得到的score可以解释为与这些欺诈节点的相关性，相关性越高表示受感染程度越严重。

4.和度无关的传播

在个性化PageRank中，

GOTCHA! 个性化PageRank在欺诈检测中的应用

表示将节点score分散传播给邻居，但这会出现个问题：在score相等时，高度（邻居数量多）节点传播给邻居较低的score，而低度节点传播给邻居较高的score。

但是在欺诈问题中，度高低应该与分配score无关，故通过放大高度节点的score，以保证传播时不同度的节点邻居得到的score在一个尺度上：

GOTCHA! 个性化PageRank在欺诈检测中的应用

4. 传播增益

通过下面两个传播效应来说明，传播所带来的额外增益（相比“直接与欺诈公司相连”的规则）

anticipating effect（预期效应），可以理解为提升召回：虽然资源没有和欺诈的公司关联，但是周围关联了欺诈分较高的公司，那其欺诈分也高forgiving effect（宽容效应），可以理解为提高准确：虽然资源连接了一个欺诈公司，但是时间比较久了，也没有连接其他欺诈分较高的公司，那其应该被宽容，是正常的。

GOTCHA! 个性化PageRank在欺诈检测中的应用