为了防止信用卡盗刷机器学习算法认出你是谁

lgblove

2017-03-10

盗刷信用卡风险已经成为困扰全球银行信用卡部门的难题之一。仅以美国为例，美联储的支付调查报道显示，2012年全美信用卡支付总金额达到260亿美元，这其中未经授权的信用卡支付，也就是盗刷信用卡的金额高达61亿美元。

对银行而言，衡量信用卡交易的风险非常困难。要实现这个目标必须快速确定哪些交易是合法授权，哪些交易是盗刷的。那么这些工作又是如何实现的呢?

站在消费者的立场来看，检测信用卡盗刷的过程似乎很「神奇」，这种检测几乎是瞬时发生的，背后涉及到一系列复杂的技术，从金融到经济到法律再到信息科学。当然，有些信用卡盗刷的检测很简单，比如，当机器发现信用卡刷卡地的邮编与发卡地的邮编不符时会发出警告。

传统的信用卡检测需要大量人力参与到海量数据的分析判断上，算法只会对一笔交易发出警告，最后人类审核员会打电话确认这笔交易是否涉嫌信用卡盗刷。现在，由于交易量激增，各大银行的信用卡部门开始依靠大数据，并通过机器学习和云计算的方法快速甄别未经授权的信用卡交易。

用于信用卡检测的机器学习算法首先将被海量正常的交易数据和持卡人数据进行训练。交易结果会成为机器理解交易的一个重要维度，比如一个正常人可能每周买一次电、每两周去一趟购物中心等等，这些交易结果将成为正常交易的模型。

接下来，机器将接受实时交易数据的考验，并给出该交易是否不合法的概率，比如97%，如果检测系统设置每笔交易不合法的概率不能高于95%，那么所有这些交易将被拒绝接受付款，换句话说，交易不会成功。

为了防止信用卡盗刷机器学习算法认出你是谁

这个算法考虑的因素很多，包括刷卡供应商的信任度、插卡让购买行为(时空维度)、IP地址等等，考虑的因素越多，其构建的模型也越准确。

这个检测的过程几乎是实时的，这也是人类工作者无法达到的检测速度。但整个流程中还是需要人类的参与，包括人类对算法判断的审核以及随后的信用卡欺诈跟踪等等。

金融交易过程中的数据非常大，比如目前PayPal要处理1亿690万用户的1.1PB数据。但对机器学习而言，越多的数据意味着越能提升自身的算法准确度，从而更好地识别盗刷信用卡的事件。海量数据对于银行IT系统的硬件要求非常高，数据的存储、读取和分析，都成为巨大的IT开支。