GOTCHA! 个性化PageRank在欺诈检测中的应用
0.论文概况
本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法,全篇论文非常系统化接地气,值得一读:
- 通过对欺诈场景的分析建立“从欺诈公司继承资源的公司存在高风险”的假设设计了时间权重的公司-资源二分网络,并扩展个性化PageRank在该网络上进行欺诈风险传播。基于传播得到的欺诈score,结合网络拓扑结构设计特征,输入到机器学习模型中
1.欺诈场景
1.1 欺诈描述问题
存在一些公司转移资源(公司地址、法人、买卖家、雇员、供应商)到其他公司,并宣布破产从而达到逃税的目的。
另外为了不引人注目,会将资源分散转移到多个公司,但这些公司背后有一家主公司负责组织资源交换。
1.2 公司之间转移资源关系
- 副公司(Side Compony):进行资源交换的公司,他们之间若有资源转换,则建立一跳实线边。主公司(key company):背后负责组织和操控副公司进行资源交换,但在数据上与副公司之间的边是隐性的(故边是虚线的)。
1.3 公司-资源二分关系
2. 欺诈假设和调战
2.1 欺诈假设
假设欺诈公司继承资源的公司存在高风险,即欺诈在网络中是可以传播的(如下图所示)
2.2 五大欺诈挑战及应对
1.不常见的(Uncommon):欺诈问题标签样本极不平衡,如何使用和学习?
——在机器学习中利用SMOTE算法合成更多正样本
2.深思熟虑(Well-considered):欺诈者会精心准备,而仅依靠单规则(如孤立点)检测,是不充分和不准确的。
——通过综合自身特征和网络拓扑特征,使用机器学习建模,可以提高性能。
3.时间演变(Time-evolving):欺诈行为也会进化
——设计时间衰减关系权重,并使用多个基于时间划分的评价集评估
4.精心组织(Carefully organized):欺诈者会受到盟友的影响而改变自己从而更好的不被察觉,故相比正常公司,欺诈者联系更紧密,具有同质性
——提取网络拓扑中三角形、四边形特征
5.伪装(Imperceptibly concealed):欺诈者会伪装自己,与正常公司具有具有相同的特征——通过集体推理方法(如网络传播),通过网络传播少量欺诈行为,并推断出网络中每个节点的欺诈分。
3. 风险传播算法设计
通过风险传播得到每个节点的欺诈score,然后结合网络拓扑结构设计特征,作为机器学习模型的输入。
3.1 设计初衷
通过在时间加权的二分网络进行欺诈传播,为每个节点推断一个欺诈score,可以反映下面两类特性:
- 哪类资源经常涉及欺诈,并且表现出很高的欺诈吸引其他公司?(分辨出资源和欺诈公司的连接是巧合还是具有欺诈的)哪些公司对欺诈敏感。
3.2 个性化 PageRank
PageRank用于计算Web中网页权威性,认为指向页面P的页面越多,该P得到的权威值越高以及指向P的页面权威值越高,则P得到的权威值也就越高。
每一次迭代过程:
- r页面被访问到的概率,即为PageRank值。c为重启随机游走的概率u为页面在重启随机游走时被选中的概率,在PageRank中定义每个页面的概率相同。M为归一化的邻接矩阵。
个性化PageRank设计初衷是计算特定页面与所有页面之间的相关性,从而可以进行推荐。与PageRank不同之处主要是:
- 每次重新游走,从特定页面集合中选择一个页面开始;而PageRank是在所有页面中随机选择。在初始化节点权重,设置特定页面集合中节点=1,其他页面=0;而PageRank是对全部页面随机初始化。
每一次迭代过程:
- 很明显与PageRank区别就在于页面在重启时被选择的概率,对于个性化PageRank,设所有非特定页面被选中概率为0,而特定页面概率均匀分布。
3.3 改进个性化PageRank
通过改进个性化PageRank,以适应欺诈传播场景
1. 加入时间衰减权重矩阵W替代邻接矩阵M
相比多年前捕获的欺诈公司,最近捕获的欺诈公司可能是更重要的传播源。 即检测到的时间越久,欺诈传播的传播影响就越小。
设W为指数时间衰变函数:
用W替代M:
2. 适用Company-Resource 二分网络
将时间衰减权重矩阵W 扩展成NxN的矩阵Q(N=公司节点数c+资源节点数r):
Q替代W,并归一化:
3. 专注欺诈的设计
定义v,设欺诈公司节点 vi =1 , 其他节点vi =0 。这样将欺诈公司节点作为特定节点,每次重启都是从这些欺诈节点开始游走。
最终得到的score可以解释为与这些欺诈节点的相关性,相关性越高表示受感染程度越严重。
4.和度无关的传播
在个性化PageRank中,
表示将节点score分散传播给邻居,但这会出现个问题:在score相等时,高度(邻居数量多)节点传播给邻居较低的score,而低度节点传播给邻居较高的score。
但是在欺诈问题中,度高低应该与分配score无关,故通过放大高度节点的score,以保证传播时不同度的节点邻居得到的score在一个尺度上:
4. 传播增益
通过下面两个传播效应来说明,传播所带来的额外增益(相比“直接与欺诈公司相连”的规则)
- anticipating effect(预期效应),可以理解为提升召回:虽然资源没有和欺诈的公司关联,但是周围关联了欺诈分较高的公司,那其欺诈分也高forgiving effect(宽容效应),可以理解为提高准确:虽然资源连接了一个欺诈公司,但是时间比较久了,也没有连接其他欺诈分较高的公司,那其应该被宽容,是正常的。
- x:连接欺诈公司数量y:欺诈传播分水平线: 基于图标和实际含义对high-risk和low-risk分隔R^2:统计指标,欺诈分中有多少可以被解释
5. 特征设计
本节介绍获得每个节点的欺诈传播分数之后,如何结合网络拓扑结构系统化衍生特征。
每个特征对于欺诈性的区分度: