GOTCHA! 个性化PageRank在欺诈检测中的应用

0.论文概况

本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法,全篇论文非常系统化接地气,值得一读:

  1. 通过对欺诈场景的分析建立“从欺诈公司继承资源的公司存在高风险”的假设设计了时间权重的公司-资源二分网络,并扩展个性化PageRank在该网络上进行欺诈风险传播。基于传播得到的欺诈score,结合网络拓扑结构设计特征,输入到机器学习模型中

1.欺诈场景

1.1 欺诈描述问题

存在一些公司转移资源(公司地址、法人、买卖家、雇员、供应商)到其他公司,并宣布破产从而达到逃税的目的。

另外为了不引人注目,会将资源分散转移到多个公司,但这些公司背后有一家主公司负责组织资源交换。

1.2 公司之间转移资源关系

GOTCHA! 个性化PageRank在欺诈检测中的应用

  1. 副公司(Side Compony):进行资源交换的公司,他们之间若有资源转换,则建立一跳实线边。主公司(key company):背后负责组织和操控副公司进行资源交换,但在数据上与副公司之间的边是隐性的(故边是虚线的)。

1.3 公司-资源二分关系

GOTCHA! 个性化PageRank在欺诈检测中的应用

2. 欺诈假设和调战

2.1 欺诈假设

假设欺诈公司继承资源的公司存在高风险,即欺诈在网络中是可以传播的(如下图所示)

GOTCHA! 个性化PageRank在欺诈检测中的应用

2.2 五大欺诈挑战及应对

1.不常见的(Uncommon):欺诈问题标签样本极不平衡,如何使用和学习?

——在机器学习中利用SMOTE算法合成更多正样本

2.深思熟虑(Well-considered):欺诈者会精心准备,而仅依靠单规则(如孤立点)检测,是不充分和不准确的。

——通过综合自身特征和网络拓扑特征,使用机器学习建模,可以提高性能。

3.时间演变(Time-evolving):欺诈行为也会进化

——设计时间衰减关系权重,并使用多个基于时间划分的评价集评估

4.精心组织(Carefully organized):欺诈者会受到盟友的影响而改变自己从而更好的不被察觉,故相比正常公司,欺诈者联系更紧密,具有同质性

——提取网络拓扑中三角形、四边形特征

5.伪装(Imperceptibly concealed):欺诈者会伪装自己,与正常公司具有具有相同的特征——通过集体推理方法(如网络传播),通过网络传播少量欺诈行为,并推断出网络中每个节点的欺诈分。

3. 风险传播算法设计

通过风险传播得到每个节点的欺诈score,然后结合网络拓扑结构设计特征,作为机器学习模型的输入。

3.1 设计初衷

通过在时间加权的二分网络进行欺诈传播,为每个节点推断一个欺诈score,可以反映下面两类特性:

  1. 哪类资源经常涉及欺诈,并且表现出很高的欺诈吸引其他公司?(分辨出资源和欺诈公司的连接是巧合还是具有欺诈的)哪些公司对欺诈敏感。

3.2 个性化 PageRank

PageRank用于计算Web中网页权威性,认为指向页面P的页面越多,该P得到的权威值越高以及指向P的页面权威值越高,则P得到的权威值也就越高。

每一次迭代过程:

GOTCHA! 个性化PageRank在欺诈检测中的应用

  • r页面被访问到的概率,即为PageRank值。c为重启随机游走的概率u为页面在重启随机游走时被选中的概率,在PageRank中定义每个页面的概率相同。M为归一化的邻接矩阵。

个性化PageRank设计初衷是计算特定页面与所有页面之间的相关性,从而可以进行推荐。与PageRank不同之处主要是:

  1. 每次重新游走,从特定页面集合中选择一个页面开始;而PageRank是在所有页面中随机选择。在初始化节点权重,设置特定页面集合中节点=1,其他页面=0;而PageRank是对全部页面随机初始化。

每一次迭代过程:

GOTCHA! 个性化PageRank在欺诈检测中的应用

  • 很明显与PageRank区别就在于页面在重启时被选择的概率,对于个性化PageRank,设所有非特定页面被选中概率为0,而特定页面概率均匀分布。

3.3 改进个性化PageRank

通过改进个性化PageRank,以适应欺诈传播场景

1. 加入时间衰减权重矩阵W替代邻接矩阵M

相比多年前捕获的欺诈公司,最近捕获的欺诈公司可能是更重要的传播源。 即检测到的时间越久,欺诈传播的传播影响就越小。

设W为指数时间衰变函数:

GOTCHA! 个性化PageRank在欺诈检测中的应用

用W替代M:

GOTCHA! 个性化PageRank在欺诈检测中的应用

2. 适用Company-Resource 二分网络

将时间衰减权重矩阵W 扩展成NxN的矩阵Q(N=公司节点数c+资源节点数r):

GOTCHA! 个性化PageRank在欺诈检测中的应用

Q替代W,并归一化:

GOTCHA! 个性化PageRank在欺诈检测中的应用

3. 专注欺诈的设计

定义v,设欺诈公司节点 vi =1 , 其他节点vi =0 。这样将欺诈公司节点作为特定节点,每次重启都是从这些欺诈节点开始游走。

最终得到的score可以解释为与这些欺诈节点的相关性,相关性越高表示受感染程度越严重。

4.和度无关的传播

在个性化PageRank中,

GOTCHA! 个性化PageRank在欺诈检测中的应用

表示将节点score分散传播给邻居,但这会出现个问题:在score相等时,高度(邻居数量多)节点传播给邻居较低的score,而低度节点传播给邻居较高的score。

但是在欺诈问题中,度高低应该与分配score无关,故通过放大高度节点的score,以保证传播时不同度的节点邻居得到的score在一个尺度上:

GOTCHA! 个性化PageRank在欺诈检测中的应用

4. 传播增益

通过下面两个传播效应来说明,传播所带来的额外增益(相比“直接与欺诈公司相连”的规则)

  1. anticipating effect(预期效应),可以理解为提升召回:虽然资源没有和欺诈的公司关联,但是周围关联了欺诈分较高的公司,那其欺诈分也高forgiving effect(宽容效应),可以理解为提高准确:虽然资源连接了一个欺诈公司,但是时间比较久了,也没有连接其他欺诈分较高的公司,那其应该被宽容,是正常的。

GOTCHA! 个性化PageRank在欺诈检测中的应用

  • x:连接欺诈公司数量y:欺诈传播分水平线: 基于图标和实际含义对high-risk和low-risk分隔R^2:统计指标,欺诈分中有多少可以被解释

5. 特征设计

本节介绍获得每个节点的欺诈传播分数之后,如何结合网络拓扑结构系统化衍生特征。

GOTCHA! 个性化PageRank在欺诈检测中的应用

每个特征对于欺诈性的区分度:

GOTCHA! 个性化PageRank在欺诈检测中的应用

相关推荐