抛弃爬下来的灰色数据，有门槛的风控怎么做？

dutiyanwang

2017-12-14

抛弃爬下来的灰色数据，有门槛的风控怎么做？

大数据文摘作品

作者：魏子敏

金融风控领域的竞争在今年忽然激烈起来。众多初露头角的企业，正在这两个方向展开厮杀--数据获取能力和算法技术。

就在几个月前，前一个赛道开始堵塞。

今年6月，《网络安全法》开始实施。未经授权爬取用户手机或者社保记录，公司法人将依法获刑，最高七年；一批以数据交易为主要业务的公司也正面临调查。

一大波依靠外部数据整合进行风控和反欺诈的企业前景模糊，算法和建模能力在这个领域的重要性渐渐凸显出来，技术起家的一批风控公司开始显露头角。

而失去了灰色数据的金融风控行业，尽管技术上仍旧面临挑战，但似乎终于有机会朝着健康合规的方向发展。

艰难的角逐：算法还是数据？

加州大学伯克利分校计算机博士、清华大学交叉信息研究院兼职教授黄铃用“一场全球范围的战争”来形容自己的工作。”在风控这个行业，我们的对手是一条全球范围的巨大黑产链条。”

抛弃爬下来的灰色数据，有门槛的风控怎么做？

慧安金科创始人兼CEO、加州大学伯克利分校计算机博士、清华大学交叉信息研究院兼职教授黄铃

从源头上来说，风控面临着遍布全球的黑客对手。他们通过软件入侵手机和计算机，一方面获取隐私数据，另一方面利用这些“肉机”开通假的账号，去做各种虚假的社交、购买互动，“养”出一个个看似正常、有很多朋友关系，并且有良好购买行为的账号，用它去申请使用各种金融产品。

而金融风控的核心就是利用相关数据做建模分析，剔除虚假用户，再对真实用户做还款能力、还款意愿的风险评估。

近几年兴起的大数据风控公司完成这一工作主要依靠两个层面的能力：算法能力和数据获取能力。

目前，面对巨大的团伙化、专业化的黑产链条，市面上已有的风控和反欺诈解决方案在算法技术上仍略显逊色。方案提供商往往使用设备指纹、黑／白名单、规则系统或者有标签的机器学习模型等来检测欺诈活动。有些方法只做了浅层分析，很容易被恶意对手规避和欺骗。还有些用到了机器学习方法，但往往都依赖有标签的历史数据来训练模型。这些标签数据往往稀少，而且只能代表过去发生的欺诈活动，用这些数据训练出来的模型准确度都不够高，很难应付日益变化的欺诈手段。

还有一大批风控公司主要依靠强大的数据获取和整合能力。但通过爬虫、购买等方式，这些被整合的数据严格来说包含了一大部分个人的隐私数据：身份证、电话号码、银行卡、个人存款、家庭具体位置。行业内现有的解决方案极大的依赖这些数据，它的使用严重侵犯了个人的隐私，合法性备受诟病。但数据量级对建模准确度有巨大的影响，这些敏感数据去掉之后，就更加考验对算法的实现能力。

风控数据的获取：量级还是场景更重要？

那么，算法的精进可以弥补放弃大量敏感数据造成的损失么？

上个月，大数据文摘在纽约对恒昌集团CFO沈潇同（Tony Shen）进行了独家采访，他认为，在使用非直接与借贷行为或信用行为相关的数据时，我们应该持比较审慎的态度。

“有些人频繁网购，但可能正因为他频繁网购会导致他不够钱需要去借，所以网购的即时支付并不一定能反应他是一个有信用的人，反而会因此在贷款时不讲信用。”’

社交和网购数据虽然有参考价值，但是未必比与这些直接与金融相关的数据更有用。沈的态度代表了传统金融人对于互联网风控的一贯谨慎态度，也体现了这个行业普遍面临的一个问题，在风控数据的获取上，到底是数据量级还是数据场景更重要？

在这个问题上，黄铃显然更支持后者，”我觉得要看我们谈什么样的数据以及如何使用它们，爬来的那些数据不见得在这里能够起到多大的作用。要针对客户的数据、客户的应用场景，帮它们去挖掘，要更精准、更贴近它的东西。“

抛弃爬下来的灰色数据，有门槛的风控怎么做？

金融风控的核心客户是互联网企业、互联网金融企业以及金融机构。这些机构的共同点在于存在大量的账号。以账号为中心，可以获得很多个人信息，比如银行存款、购买历史、借贷情况等，而风控的工作就是，根据这些数据记录进行建模，对每个账号做还款能力、还款意愿等方面的风险评估，从而决定给这个人多少贷款等。

黄铃认为，基于脱敏数据对用户行为的建模，也可以实现风控反欺诈的目的。“在进行行为分析的时候，一般是看这个人的社交关系、电话通迅详单、电商购买等行为，这个行为指的是这个账号从什么地方使用什么设备在什么时间注册和登录，在登录之后做了什么事情（浏览了什么页面，购买了什么商品，加了什么人做好友，和谁进行了通话等），虽然也会有一些敏感的信息，比如你的朋友是谁，但这些数据是经过了脱敏处理的。在此基础上，基于图算法进行用户关联分析，识别用户之间隐秘但互相关联的信息和行为。”

黄铃和他的团队慧安金科也正在进行相应的尝试：

“我们自己几乎不拥有任何用户的敏感数据，我们更重要的用一些非敏感的数据，针对我们客户拥有的那些行为数据，结合客户的应用场景，用人工智能大数据的方法帮助客户挖掘它自己数据的价值，在它的场景下生成出最适合它的风险控制模型，帮它达到在它自己的平台上最好的检测结果。这样就可以在不侵犯个人隐私、无需预知欺诈的类型和特点的前提下，自动地在成千上万的用户中识别不正常的关联，从产生预测性的风控信号，防范团伙性和系统性风险。”

重新定义风控：从数据源头开始

这样的数据获取方式也对企业的数据提出了更加严格的要求。

“其实在我们做风向控制模型，第一个环节看的就是数据的质量如何，包括这个数据是不是有缺失，数据内容是不是包含和风险相关的信息等各种因素。”

黄铃认为，风控不止是发生在建模和检测的时候，在企业端，从数据的采集端已经发生了。慧安金科在与客户打交道时，会从服务的角度帮组客户提升相关方面的能力：

首先，风控信号输出到客户平台后，平台可以把风险值高的那部分用户直接封掉；其它的部分可以当作一些特征维度合并到他们的规则和模型里进一步加工和提炼，再做下一步的处理。

抛弃爬下来的灰色数据，有门槛的风控怎么做？

此外，针对数据采集，以及在数据中发现的欺诈发展趋势、模式，每隔一段时间给出反馈。

这两者会同时进行，如果有一些数据质量不达标，必须要求客户先去修改，再及时反馈出它在某些方面的问题，就算现在弥补来不及，也要尽快把这部分给补起来。”

“我们会根据做反欺诈风控的经验去建议客户如何采集数据内容，所以我们跟客户合作不单单是你有需求，我帮你把欺诈检测出来，我们同时会给客户很多反馈、很多交流。帮助他们从系统业务到数据采集、风控能力方面做一个全方面的顾问和服务。”

金融风控的对手是全球巨大的黑产链条，因此是非常复杂的项目。大热的人工智能和机器学习正被大量引入这个领域，但想把它们用好并不是一件容易的事情。

当前市场不少解决方案主要依靠大量数据的收集，使用规则系统或有监督的机器学习去生成模型。这些方案存在明显不足：这些模型往往是依赖于历史标签数据进行训练。但这些标签往往都是我们遭到欺诈攻击以后才能产生的，是付出血淋淋的代价才能获得的，往往都很稀少。这种标签训练出来的模型质量不够高的，而且这种标签训练出来的模型，往往只代表过去历史上发生过的欺诈行为。当欺诈分子变换新手段的时候，依赖于过去标签训练的模型，往往很难快速、准确地抓到他们，很容易造成巨大损失。

黄铃的团队利用半监督学习方法，使用少量甚至没有标签的数据进行建模，可以大幅度降低获取标签的成本，提高数据使用率，产生更高质量模型。采用主动式机器学习平台，有机的结合人工智能大数据系统超大规模的数据处理能力和风控专家丰富的经验，帮助人工智能系统自动的学习未知的欺诈模式，追踪新的欺诈手段，不断的适应日益变化的环境，从而生成可以对抗欺诈分子机器学习模型，使得欺诈分子很难规避检测。

风控行业的黑产链条：这是一场全球的战争，中国是更艰难的战场

在金融风控领域和慧安金科有着同样态度的还有一家硅谷的公司——DATAVISOR。2014年起，黄铃辞去了在英特尔研究院任职七年的资深研究员的职位，在DATAVISOR担任创始成员和大数据总监，主持了公司整个机器学习、用户行为分析和信用模型系统。在这里，他见证并参与了硅谷最新一代、也是最有名的，用无监督的方式来做风控方式的成熟。

抛弃爬下来的灰色数据，有门槛的风控怎么做？

DATAVISOR官网

黄铃始终相信，在国内做风控其实并不比硅谷容易。反欺诈面对的黑产是一个产业链，这个产业链的团伙在全世界范围内合作的，从这个最上端的安全攻击软件，到用这些攻击软件去全球范围内去控制肉机和手机，到用这些肉鸡和手机去做出虚假的用户来，到用这些用户去做各种欺诈活动而从中获利，这是从东欧到美国到中国到印度一起来合作的一个链条。

所以从某种程度上来就是说风控、反欺诈在全世界是相通的，很多在中国的互联网企业和金融机构也面临着国外的攻击，而在美国的很多攻击也是通过中国、印度、非洲或者东南亚很多国家的人去实现的。

那么，中美之间更大的区别是可能来自政策上和产业发展上：

在美国，信用体系相对健全，所以做欺诈的成本会比较高，很多时候不管银行还是电商，如果发现了欺诈行为，会通过各种途径影响信用分。在中国这方面体系还不够成熟，很多情况下，互联网金融上的一些欺诈行为不会直接反映到央行的征信中。相对来说欺诈成本会比较低，所以某些大范围的欺诈可能在中国甚至会比在美国还要更多、更难对付；

其次，中美之间的产业发展不同，中国的移动应用和互联网金融产业要远比美国规模大，由此围绕着这个产生的各种欺诈活动也会比美国的更多。

“回来了之后，我们发现国内，特别是在金融相关的领域，这种欺诈团伙的的规模更小更狡猾，而且用更多的真人去做出欺诈活动，所以相对来说更难检测，需要用更多的机器学习和人工智能的方法来建模。”黄铃称。

而在这样一场全球化的战场上，精通人工智能算法和计算机安全的科学家的加入，就更显得弥足珍贵。

在谈及创业初衷时，黄铃称，“我在人工智能算法和网络安全领域做了很多年的研发和实践应用，我希望我以前积累的这些技术和经验可以在金融风控和反欺诈领域起到实际的作用，能提供一套系统和服务，为我们的金融和互联网的产品保驾护航，能够给我们的互联网和金融产业实现一个更加安全、诚信和公正的环境。“

除了黄铃，慧安金科的另一位创始人、首席科学家徐葳也来自学界，任职清华大学交叉研究院助理教授。对于AI科学家进入风控领域创业，黄铃认为是一件好事情，可以给有技术，掌握算法，又愿意接地气的科学家一个机会，真正参与进行业内，而不是仅仅当一个螺丝钉。

大数据算法

dutiyanwang

0 关注 0 粉丝 0 动态

相关推荐

在Python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。解决问题的挑战性是选择使用哪种方法。今天，我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表" K最近邻居"

scuyxi 2020-10-25

不用SMOTE算法，我们如何处理多类不平衡数据？

机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。如果不能处理好这个问题，模型将会成为灾难，因为使用类不平衡数据建模会偏向于大多数类。处理不平衡数据有不同的方法，最常见的是过采样和创建合成样本。SMOTE是一种从数

FromCybertron 2020-10-06

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

dutiyanwang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号