DataVisor:基于Spark平台的智能大数据网络反欺诈
[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向《量化金融信用与风控分析》课程(课号:80470193)。
本课程由清华大学交叉信息研究院助理院长、清华大数据能力提升项目教育指导委员会委员徐葳老师开设,并且聘任加州大学伯克利分校计算机博士黄铃和美国卡内基·梅隆大学高性能计算研究教学中心创始人、联席总监种骥科博士联袂任教。
在讨论课上,同学们会深度接触互联网金融行业中建立信用和风控模型的理论和实践案例,并了解关键学术挑战和应对挑战的解决方案。同学们还将亲手设计实现信用和风控模型,通过讲座了解世界上最先进的信用分析和反欺诈的方法,优秀项目成果还有望投稿一流的学术会议。
本文来自该课程中的一次讲座内容。
在本期讲座中,DataVisor全球技术总监吴中先生将介绍互联网时代在线服务商所面临的各种欺诈方式和由此带来的技术挑战;分析传统的技术,如设备指纹、规则系统、及机器学习系统等在风控方面的不足;将基于实例讨论云服务和大数据体系,如Apache Spark, HBase, Elasticsearch等为反欺诈带来的新的契机;并介绍如何利用基于内存云计算的Spark平台进行无监督大数据分析。
相比传统的基于规则或仅用设备指纹等单一信号的检测体系,无监督大数据反欺诈能大幅度提高检测覆盖率,自动发现未知的新的欺诈手段,对不断变换的欺诈行为进行有效的预警和封杀。
吴中,毕业于清华大学,在微软全球执行副总裁沈向洋博士的指导下获得计算机科学与技术学科的博士学位。现于DataVisor担任技术总监,并主要负责DataVisor中国区业务。在全球顶级计算机视觉会议如CVPR、ICCV、PAMI 等发表多篇有影响力的论文,并在大数据搜索、大数据安全领域拥有多项专利。
PPT+课程精华笔记
▼
Datavisor公司成立于美国硅谷,目前为多家社交、电商、金融等互联网企业提供反欺诈服务。
互联网服务和移动App的飞速发展,一方面给我们提供了丰富多彩的服务,另一方面也给服务提供商带来了很多挑战,如互联网上新一代欺诈攻击频发,包括垃圾广告、账号盗取、假新闻、假评级、假评论和假贷款等。
互联网欺诈攻击主要有四大趋势:多种欺诈行为、复杂的欺诈产业链、潜伏期变长和各种欺诈辅助工具。互联网上的欺诈早已从单一欺诈向大规模团体欺诈转变,欺诈团伙掌握海量账号,首先伪装成正常用户,再通过大规模欺诈达到商业目的。
除此之外,反欺诈要面对的是整个灰色产业链。其中不同的团体各有分工,各个团体分别专注于自己擅长的部分,比如盗取账号、刷机、人工验证等。同时大规模欺诈还具有潜伏性,即所谓的“养号”,伪装成正常用户,有的甚至养号一年之久,再进行欺诈行为。
欺诈群组举例:欺诈交易群组、促销欺诈群组。
欺诈检测技术的发展经历了以下几个阶段:
黑名单、信誉库和设备指纹,这种方法的缺点是覆盖率和准确率有限,而且虚拟机等可逃避设备指纹监测;
规则系统,这种方法需要深入了解欺诈模式,但不能够有效应对不断变化的欺诈手段;
有监督的机器学习,这种方法的缺点是需要大量人工标注数据,只能检测同种特征行为的欺诈。上述的这些做法都只发现了欺诈行为的冰山一角,而从一个群体行为来看,才有可能发现数据内部的真实特性。
在当今的大数据时代,面临几十亿用户的数据,相应的特征量级可能达到千亿甚至万亿,如何高效处理并挖掘数据也是一项很大的技术挑战。Datavisor的大数据体系架构采用了很多开源技术,数据层包括在线的监控和离线的加密存储,分析层包括分析、计算和检索,使用Spark、HBase和Elasticsearch等开源技术。
Datavisor研发了一套无监督欺诈检测系统,这也是目前世界上最先进的欺诈检测技术。除此之外,还采用了无监督欺诈检测和有监督机器学习相结合的方式,一方面可以通过无监督欺诈检测去发现欺诈团伙,另一方面将新发现的欺诈账号作为标签输入,用于机器有监督训练检测模型。
无监督欺诈检测系统具有以下特性:
自动挖掘和检测各种已知、未知的欺诈行为;
自动产生标签,用于机器有监督训练检测模型;
自动产生规则,免除费时的人工规则调整,更具可解释性(针对金融行业的痛点)。
最后,吴中先生指出,当今的在线服务面临着逐渐增长的欺诈挑战,欺诈行为的挖掘和检测是一项非常具有挑战性的研究课题,欢迎感兴趣的同学共同对此类问题进行交流探讨。
量化金融信用与风控分析
课程号:80470193
课程简介
金融与互联网行业的深度结合带来了金融信贷模型的变革,这些变革对于普惠金融、个人和企业信贷带来了很多便利和新的市场形式。然而,新的互联网数据源也给征信模型的设计带来了新的科研问题,同时,互联网中广泛存在的欺诈行为也给这一新的信用模式带来了挑战。该课程目的在于让学生理解这一领域的科研和实践最新进展,为学生开展这一方向的深入研究打下基础。
本课程包括的模块有:1.信贷模型的架构与设计;2.反欺诈模型的架构与设计;3.行业实践案例。在这一课程中,学生需要平均每周阅读2篇本领域最新论文,并且实际动手设计两个项目,包括一个基于LendingClub信贷数据的信用数据建模项目和一个自由选题的团队研发项目。
任课教授
种骥科博士,现任宜信宜人贷首席数据科学家。曾任美国卡内基·梅隆大学教授与博士生导师,开创了卡内基·梅隆大学高性能计算研究教学中心,任联席总监。种骥科有多年互联网、大数据及金融创新经验。。在加入宜人贷之前,曾任职于美国Simply Hired招聘平台,创建了数据科学部,并应邀为白宫科技办公室参谋大数据技术产品设计。种骥科曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师,负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,并持有9项专利。
黄铃博士,AHI Fintech创始人、CEO,加州大学伯克利分校计算机博士。黄铃是DataVisor 公司创始成员和大数据总监 (2014-2016),曾在美国英特尔研究院任资深科学家七年(2007-2014)。黄铃在人工智能、大数据分析和金融科技相关领域有近十五年的研究和开发经验,在世界顶尖会议上发表近50篇论文,总引用超5000次。当前研究兴趣包括:自然语言金融投研,大规模用户画像,风险评估和欺诈检测,基于深度学习的图像分类,目标检测和内容的理解。
讲座嘉宾
5/08:吴中,Datavisor全球技术总监
5/15:陈薇,排列科技CTO,前LendingClub Head of Data Science
5/22:顾凌云,冰鉴科技CEO,前ZestFinance Head of Risk
5/29:陈雷,TalkingData FinTech总经理